MLLM | ZBox

论文的主要贡献有三： 1. 第一个提出在 CLIP 中进行多模态prompt学习，以便更好地调整其视觉语言表征。 2. 为了将在文本和图像编码器中学习到的提示联系起来，提出了一种耦合函数，以明确地将视觉prompt作为其对应的语言prompt的条件。它充当了两种模态之间的桥梁，允许梯度相互传播，促进模态之间的协同。 3. 多模态prompt学习通过视觉和语言分支中的多个transformer块进行学习，以逐步学习两种模态的协同行为。这种深度prompt策略允许对上下文关系进行独立建模，从而为对齐视觉语言表征提供了更多的灵活性。