牛剑港大联合发布ELIP：多模态检索超CLIP，视觉语言预训练新突破

首页

热心网友

转载

2025-10-30

来自牛津大学VGG实验室、香港大学和上海交通大学的联合研究团队在最新论文中提出了一种创新方法，能够利用学术界的有限计算资源来强化视觉语言大模型的预训练性能，从而在图文检索任务中获得更精准的匹配效果。

多模态图文检索作为计算机视觉与跨模态机器学习领域的重要任务，当前业内普遍采用CLIP/SigLIP等视觉语言大模型。这类模型经过海量数据预训练后，在零样本场景下展现出卓越的判别能力。

该论文已被IEEE国际多媒体内容索引大会接收，并荣获最佳论文提名。近期在爱尔兰都柏林举行的会议上，这项研究获得了学术界的广泛关注。

关键技术：大规模预训练模型；视觉语言模型；图像检索系统项目主页：https://www.robots.ox.ac.uk/~vgg/research/elip/ 论文链接：https://www.robots.ox.ac.uk/~vgg/publications/2025/Zhan25a/zhan25a.pdf 代码仓库：https://github.com/ypliubit/ELIP

方法概述

下图直观展示了ELIP方法的架构设计。该方法的核心理念在于采用两阶段检索机制：首先通过传统的CLIP/SigLIP模型进行初步排序，随后对候选样本进行精细化重排。

在重排阶段，研究团队设计了一个轻量级的MLP映射网络，将文本特征转化为视觉域的可感知标记。这些标记被注入图像编码器后，使得模型在编码视觉信息时能够同步感知语言语义。经过重新编码的图像特征与文本特征进行对比时，同一查询语句能获得更优化的排序结果。该方法可适配CLIP/SigLIP/SigLIP-2/BLIP-2等主流视觉语言模型，分别形成ELIP-C/ELIP-S/ELIP-S-2/ELIP-B等变体。

学术研究的资源挑战

视觉语言大模型的预训练通常需要工业级计算资源，但这项研究提出的方法使得仅用两张GPU进行训练成为可能。其创新性主要体现在模型架构设计与训练数据构建两个方面。

核心创新：模型架构设计

在模型架构方面，庞大的图像编码器与文本编码器权重保持冻结，仅需训练由三层线性层与GeLU激活函数构成的MLP映射网络。

下图展示了ELIP-C与ELIP-S的训练流程。在训练过程中，每个批次的图文对输入模型后，文本特征会被映射到视觉特征空间，从而引导图像信息的编码过程。对于CLIP模型沿用InfoNCE损失函数，而SigLIP模型则采用Sigmoid损失函数，以此对齐文本特征与重新计算的图像特征。

下图呈现了ELIP-B的训练示意图。与CLIP/SigLIP类似，MLP映射网络将文本特征投影到视觉特征空间。独特之处在于，由文本引导生成的图像特征会输入Q-Former模块与文本进行交叉注意力计算，最终通过ITM头部预测图文匹配程度。ELIP-B训练时采用BLIP-2的BCE损失函数。

核心创新：训练数据构建

在训练数据层面，学术界进行大模型训练面临的主要挑战在于GPU数量有限，无法采用大规模批次进行训练，这可能导致模型分辨能力下降。而ELIP方法需要区分CLIP/SigLIP排序生成的困难样本，对模型判别力提出了更高要求。为解决这一难题，研究团队在训练时预先计算每张训练图片及其对应文字标题的CLIP特征，然后将特征相似的图文对聚集在一起形成困难样本训练批次。下图展示了聚合后的训练批次示例：首行样本的描述文字分别为“无底座的木制餐桌”“带折叠桌腿的木质餐桌”“金属底座配橄榄木桌面的桌子”“放置于沥青路面上的户外小桌”；第二行样本描述包括“山涧中漂浮的巨大蓝色冰体”“从悬崖崩落的大块冰川”“地面上碎裂的玻璃残片”“群山环抱的森林水域”。

创新评估基准

除在COCO、Flickr等标准测试集上进行评估外，研究团队还提出了两个新的分布外测试集：遮挡COCO和ImageNet-R。

在遮挡COCO数据集中，正样本包含文字描述的物体（通常被部分遮挡），负样本则不包含所述物体。对于ImageNet-R数据集，正样本包含文字描述的物体，但这些物体来自非常见领域，负样本则不含对应物体。下图展示了具体案例：首行为正样本，次行为负样本。在遮挡COCO中，正样本包含被遮挡的自行车，负样本不含自行车；在ImageNet-R中，正样本包含金鱼，负样本不含金鱼。