ICCV25亮点：格灵深瞳RICE模型，让AI精准理解图片每一处细节

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

ICCV25亮点：格灵深瞳RICE模型，让AI精准理解图片每一处细节

热心网友时间：2025-10-30

转载

在MVT系列的新成员RICE中，我们延续了前作Unicom（MVT v1.0）和MLCD（MVT v1.1）的视觉预训练理念，始终秉持通过边缘距离表征语义的核心观点，最终在国际顶级学术会议ICCV25上荣获Highlight论文荣誉。

最近，格灵深瞳公司灵感团队自主研发的视觉模型基座RICE（MVT v1.5）再次惊艳亮相，在多项视觉任务榜单上刷新了纪录。

作为MVT系列的最新迭代，RICE继承了Unicom和MLCD的视觉预训练思想，坚持通过margin表征语义差异的技术路线，在ICCV25会议上获得了大会重点推荐。

代码地址：https://github.com/deepglint/MVT论文地址：https://arxiv.org/abs/2507.20025模型地址：https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

作为灵感团队自主研发的视觉基座预训练方法，MVT系列从1.0版本开始，就专注于如何让视觉模型在利用海量数据集时，能够进行更精准的视觉语义表征。该系列的技术灵感来源于格灵深瞳公司的顶尖技术——人脸识别算法，得益于在领域积累的大量训练经验和视觉表征认知。

团队深刻认识到，视觉知识就像不同的面孔一样，名称只是赋予的人为语义。只要能够充分实现不同语义间的差异化表征，就能让各类下游任务以及大语言模型轻松识别这些差异特征与人类认知之间的对应关系。

基于这一思路，MVT v1.0成功站在巨人的肩膀上，利用当时最先进的CLIP预训练模型为海量图文数据进行特征提取。再通过kmeans算法，将所有特征聚类为一百万个不同类别，并为图片进行自动标注。该版本在图片分类、检索等不同领域均获得了SOTA级别的卓越表现。

MVT v1.0方法中每个样本的学习过程实际上是基于超大规模数据集总结而来的，突破了CLIP这类方法的batch内差异学习的局限。

灵感团队持续研究发现，对图像赋予单一标签的做法，可能会将其他正确的标签当作负样本学习——正如人类对于事物的认知本身就具有多样性。基于这一认知，团队随后推出了MVT v1.1的工作，为每张图像分配top-k个软标签，从而进一步提升视觉基座对图像编码的语义丰富性。

新一代视觉模型基座——RICE

本次发布的MVT v1.5——RICE是沿着前作思路，并进一步洞悉图像语义组成方式的又一力作。

研究发现，一张图片包含的信息往往是由多种无关联或弱关联的视觉元素拼接而成，直接对图片内部的不同视觉元素进行监督学习可能更符合人类对于图像信息的处理方式，也能进一步成为目标检测、分割等下游任务更优质的基座视觉模型。除此之外，图片中存在的字符符号也被此框架兼容，其字符本身就是该区域图片的语义信息。

为此，团队使用SAM对潜在的区域级对象进行了搜索，并对整个数据集中的区域级对象进行特征提取和聚类，最终从400M的图像中得到2B个图像区域级对象，并聚类为一百万个区域级语义类别标签。针对图像字符块，团队使用PaddleOCR从50M图片中提取出400M的字符级别候选区域，并直接使用字符作为类别标签。

在训练过程中，每张图片大约有10个区域级对象需要进行学习。为了让训练更加高效，团队提出了一种Region Attention Layer模块来加速模型训练。模型主体部分——编码器采用经典的ViT结构，对于最后一层的视觉特征图则使用mask机制对属于同一对象的视觉特征进行提取，完整的图片类别嵌入作为查询向量，对区域级别的视觉特征进行注意力计算，得到该区域的Region Class Embedding作为区域类别语义进行分类损失计算。

相较于MVT v1.1这类以全图语义信息编码的训练方法，RICE在训练过程中，对图片内部视觉特征差异性的表达能力得到了显著提升。这表明随着训练的进行，视觉编码器对于图片内部元素的语义表征变得更加丰富。

完备实验验证

作为新一代视觉基座模型，RICE在多种不同的下游任务上进行了充分的实验验证。

检测任务

RICE不仅在经典的COCO和LVIS任务上验证了检测任务中的线性探测能力，还在包含100种不同场景检测任务的Roboflow100数据集上，与其他先进的视觉基座模型进行了公平比较。针对区域级别语义学习的方法，让RICE在这类任务上拥有得天独厚的优势，在几乎所有指标上都取得了最佳结果。

多模态分割任务

作为多模态领域重要方向之一，RICE使用经典的LLaVA系列多模态框架，采用LISA方法进行训练，在refCOCO系列的所有子集上均获得了显著的性能提升。

视频追踪任务

尽管RICE是基于图片进行训练的模型，但其ROPE位置编码方式以及跨图片的区域级对象聚类方法，使得RICE可以接收不同尺寸的视频输入，并对不同视频帧中的相同目标进行持续追踪。在4个不同的视频追踪相关任务上，RICE均取得了领先表现，从特征降采样后的可视化效果来看，模型能够很好地持续追踪不同帧中的同一类别物体。

多模态问答任务

多模态模型是当前视觉基座模型的兵家必争之地。在LLaVA系列的主流训练架构中，使用RICE作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于训练方法可以无缝兼容光学字符识别，使得基于RICE视觉基座的多模态模型在OCR相关任务上获得了显著的优势。源自LLaVA- OneVision-1.5 的技术报告：

最近，RICE作为LLaVA-OneVision-1.5的视觉编码器，助力其成为与Qwen2.5-VL系列可比肩的卓越工作。

结论

作为格灵深瞳公司MVT系列的又一力作，RICE在多个层面上展现了团队对于视觉预训练的深刻理解与洞察。该模型的成功印证了：视觉语义信息在学习时应当注重差异化，确保不同下游任务能够轻松辨别并快速识别不同的语义信息；图片中的视觉元素很多时候是无关联或弱关联的，因此对区域内的视觉元素学习能够更好地完整表征图片信息。

下一步，MVT系列即将开启v2.0工作——视频编码。图像是当前场景的静态帧，视频则是对真实世界的直接记录。视频中包含的大量信息值得深入挖掘，是通往AGI之路的富矿。MVT将继续沿着前作的差异化语义表征路线，开启视频编码时代的下一个SOTA里程碑！

来源:https://www.51cto.com/article/828434.html

上一篇：参数空间对称性：统一深度学习与几何的理论框架

下一篇：蚂蚁数科AI赋能城商行数字化，驱动业绩增长新路径