首页
AI
ICCV25亮点:格灵深瞳RICE模型,让AI精准理解图片每一处细节

ICCV25亮点:格灵深瞳RICE模型,让AI精准理解图片每一处细节

热心网友
转载
2025-10-30

在MVT系列的新成员RICE中,我们延续了前作Unicom(MVT v1.0)和MLCD(MVT v1.1)的视觉预训练理念,始终秉持通过边缘距离表征语义的核心观点,最终在国际顶级学术会议ICCV25上荣获Highlight论文荣誉。

最近,格灵深瞳公司灵感团队自主研发的视觉模型基座RICE(MVT v1.5)再次惊艳亮相,在多项视觉任务榜单上刷新了纪录。

作为MVT系列的最新迭代,RICE继承了Unicom和MLCD的视觉预训练思想,坚持通过margin表征语义差异的技术路线,在ICCV25会议上获得了大会重点推荐。

代码地址:https://github.com/deepglint/MVT论文地址:https://arxiv.org/abs/2507.20025模型地址:https://huggingface.co/DeepGlint-AI/rice-vit-large-patch14-560

作为灵感团队自主研发的视觉基座预训练方法,MVT系列从1.0版本开始,就专注于如何让视觉模型在利用海量数据集时,能够进行更精准的视觉语义表征。该系列的技术灵感来源于格灵深瞳公司的顶尖技术——人脸识别算法,得益于在领域积累的大量训练经验和视觉表征认知。

团队深刻认识到,视觉知识就像不同的面孔一样,名称只是赋予的人为语义。只要能够充分实现不同语义间的差异化表征,就能让各类下游任务以及大语言模型轻松识别这些差异特征与人类认知之间的对应关系。

基于这一思路,MVT v1.0成功站在巨人的肩膀上,利用当时最先进的CLIP预训练模型为海量图文数据进行特征提取。再通过kmeans算法,将所有特征聚类为一百万个不同类别,并为图片进行自动标注。该版本在图片分类、检索等不同领域均获得了SOTA级别的卓越表现。

MVT v1.0方法中每个样本的学习过程实际上是基于超大规模数据集总结而来的,突破了CLIP这类方法的batch内差异学习的局限。

灵感团队持续研究发现,对图像赋予单一标签的做法,可能会将其他正确的标签当作负样本学习——正如人类对于事物的认知本身就具有多样性。基于这一认知,团队随后推出了MVT v1.1的工作,为每张图像分配top-k个软标签,从而进一步提升视觉基座对图像编码的语义丰富性。

新一代视觉模型基座——RICE

本次发布的MVT v1.5——RICE是沿着前作思路,并进一步洞悉图像语义组成方式的又一力作。

研究发现,一张图片包含的信息往往是由多种无关联或弱关联的视觉元素拼接而成,直接对图片内部的不同视觉元素进行监督学习可能更符合人类对于图像信息的处理方式,也能进一步成为目标检测、分割等下游任务更优质的基座视觉模型。除此之外,图片中存在的字符符号也被此框架兼容,其字符本身就是该区域图片的语义信息。

为此,团队使用SAM对潜在的区域级对象进行了搜索,并对整个数据集中的区域级对象进行特征提取和聚类,最终从400M的图像中得到2B个图像区域级对象,并聚类为一百万个区域级语义类别标签。针对图像字符块,团队使用PaddleOCR从50M图片中提取出400M的字符级别候选区域,并直接使用字符作为类别标签。

在训练过程中,每张图片大约有10个区域级对象需要进行学习。为了让训练更加高效,团队提出了一种Region Attention Layer模块来加速模型训练。模型主体部分——编码器采用经典的ViT结构,对于最后一层的视觉特征图则使用mask机制对属于同一对象的视觉特征进行提取,完整的图片类别嵌入作为查询向量,对区域级别的视觉特征进行注意力计算,得到该区域的Region Class Embedding作为区域类别语义进行分类损失计算。

相较于MVT v1.1这类以全图语义信息编码的训练方法,RICE在训练过程中,对图片内部视觉特征差异性的表达能力得到了显著提升。这表明随着训练的进行,视觉编码器对于图片内部元素的语义表征变得更加丰富。

完备实验验证

作为新一代视觉基座模型,RICE在多种不同的下游任务上进行了充分的实验验证。

检测任务

RICE不仅在经典的COCO和LVIS任务上验证了检测任务中的线性探测能力,还在包含100种不同场景检测任务的Roboflow100数据集上,与其他先进的视觉基座模型进行了公平比较。针对区域级别语义学习的方法,让RICE在这类任务上拥有得天独厚的优势,在几乎所有指标上都取得了最佳结果。

多模态分割任务

作为多模态领域重要方向之一,RICE使用经典的LLaVA系列多模态框架,采用LISA方法进行训练,在refCOCO系列的所有子集上均获得了显著的性能提升。

视频追踪任务

尽管RICE是基于图片进行训练的模型,但其ROPE位置编码方式以及跨图片的区域级对象聚类方法,使得RICE可以接收不同尺寸的视频输入,并对不同视频帧中的相同目标进行持续追踪。在4个不同的视频追踪相关任务上,RICE均取得了领先表现,从特征降采样后的可视化效果来看,模型能够很好地持续追踪不同帧中的同一类别物体。

多模态问答任务

多模态模型是当前视觉基座模型的兵家必争之地。在LLaVA系列的主流训练架构中,使用RICE作为视觉编码器在多个基准测试上获得了更好的效果。尤其是得益于训练方法可以无缝兼容光学字符识别,使得基于RICE视觉基座的多模态模型在OCR相关任务上获得了显著的优势。源自LLaVA- OneVision-1.5 的技术报告:

最近,RICE作为LLaVA-OneVision-1.5的视觉编码器,助力其成为与Qwen2.5-VL系列可比肩的卓越工作。

结论

作为格灵深瞳公司MVT系列的又一力作,RICE在多个层面上展现了团队对于视觉预训练的深刻理解与洞察。该模型的成功印证了:视觉语义信息在学习时应当注重差异化,确保不同下游任务能够轻松辨别并快速识别不同的语义信息;图片中的视觉元素很多时候是无关联或弱关联的,因此对区域内的视觉元素学习能够更好地完整表征图片信息。

下一步,MVT系列即将开启v2.0工作——视频编码。图像是当前场景的静态帧,视频则是对真实世界的直接记录。视频中包含的大量信息值得深入挖掘,是通往AGI之路的富矿。MVT将继续沿着前作的差异化语义表征路线,开启视频编码时代的下一个SOTA里程碑!

末日生还者Under AI
末日生还者Under AI

游戏简介末日生还者Under AI是一款末日生存游戏,这款游戏中玩家需要在末日进行生存,而且游戏中提供了自由构建和探索的玩法,玩家可以探

立即下载
来源:https://www.51cto.com/article/828434.html

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

谷歌AI转型实绩:传统业务焕新,为互联网企业带来增长新路径

谷歌母公司Alphabet近日公布了最新季度财报,总营收达1023 46亿美元,同比增长16%,超出华尔街预期超20亿美元。分业务线来看,各板块表现均优于市场预期,摊薄每股收益达2 87美元,盘后股

2025-10-30.

马斯克“硬刚”维基百科:人类知识运营的深层矛盾解析

埃隆·马斯克近期对维基百科发起多轮公开批评,并推出由人工智能驱动的在线百科项目GrokiPedia,引发两大知识平台的隔空交锋。面对科技巨头的挑战,维基百科在最新募捐公告中以独特方式作出回应,强调其

2025-10-30.

黄仁勋、周鸿祎共论AI:是伙伴非工具,推动经济与个体升级

在近期科技界关于人工智能(AI)发展的讨论中,两位科技行业领军人物对AI本质的认知出现了高度契合的观点。英伟达创始人黄仁勋与360集团创始人周鸿祎不约而同地提出,AI不应被简单定义为技术工具,而应被

2025-10-30.

谷歌CEO:全力押注生成式AI,Gemini下载量突破65亿次

在最新公布的季度财报中,科技巨头Alphabet交出了一份亮眼成绩单,公司第三季度营收成功突破千亿美元大关。在随后召开的财报电话会议上,首席执行官桑达尔·皮查伊着重阐述了公司对生成式人工智能的战略布

2025-10-30.

环球音乐与Udio和解:版权纠纷落幕,2026年推AI音乐平台

环球音乐集团(UMG)与人工智能音乐创作平台Udio近日宣布达成一项具有开创性的战略合作协议,这一举措在音乐行业引发广泛关注。此前,双方曾因版权问题陷入法律纠纷,此次合作不仅化解了矛盾,更开启了音乐

2025-10-30.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
天芒之神
天芒之神 角色扮演 2025-10-30更新
查看
校园女生监督会汉化
校园女生监督会汉化 角色扮演 2025-10-30更新
查看
三国战争百度
三国战争百度 棋牌策略 2025-10-30更新
查看
绝境反击正
绝境反击正 飞行射击 2025-10-30更新
查看
人狼村之谜汉化
人狼村之谜汉化 休闲益智 2025-10-30更新
查看
传说法师手游
传说法师手游 角色扮演 2025-10-30更新
查看
再遇三国手游
再遇三国手游 棋牌策略 2025-10-30更新
查看
仙境传奇打金
仙境传奇打金 角色扮演 2025-10-30更新
查看
动物军团游戏
动物军团游戏 棋牌策略 2025-10-30更新
查看
口袋盗贼国际
口袋盗贼国际 角色扮演 2025-10-30更新
查看