本文提出了一种新的 CLIP 架构,称为 CLIP 说“不”(CLIPN)。从三个方面对CLIP在OOD检测方面进行了升级。 1. 架构。 在CLIP 中添加了新的“否”提示和“否”文本编码器。我们新颖的可学习“不”提示在提示中集成了否定语义,补充了原始 CLIP 的提示。此外,我们的“不”文本编码器捕获图像相应的否定语义,使 CLIP 说“不”成为可能。 2. 训练损失。我们进一步提出两个损失函数。第一个是图像-文本二元相反损失,它使图像特征与正确的“否”提示特征相匹配。换句话说,它可以教会 CLIP 何时说“不”。第二个是文本语义相反的损失,这使得标准提示和“否”提示嵌入得彼此相距甚远。换句话说,它可以教会 CLIP 理解“否”提示的含义。 3. 无阈值推理算法。经过 CLIPN 的训练后,我们设计了两种无阈值算法:competing-to-win 和 agreeingto-differ。competing-to-win的目标是从标准的和“否”文本编码器中选择最置信的概率作为最终预测。同时,通过考虑标准和“无”文本编码器的预测,agreeingto-differ会为 OOD 类别生成额外的概率。