商汤SenseNova-MARS模型全面开源性能超越Gemini-3-Pro

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

商汤SenseNova-MARS模型全面开源性能超越Gemini-3-Pro

热心网友时间：2026-05-16

转载

多模态AI领域迎来重大突破。商汤科技正式开源其SenseNova-MARS模型，提供8B和32B两个版本。在衡量多模态搜索与推理能力的核心基准测试中，该模型以69.74的平均分，超越了谷歌Gemini-3-Pro（69.06分）和OpenAI GPT-5.2（67.64分），展现出卓越性能。

这不仅是分数的提升，更是能力的跃迁。SenseNova-MARS被定位为首个支持动态视觉推理并与图文搜索深度融合的智能体模型。它能够主动规划任务步骤、自主调用工具，像专家一样解决复杂问题，标志着AI向具备真正“执行能力”迈出了关键一步。

在MMSearch、HR-MMSearch、FVQA等多个权威多模态基准测试中，SenseNova-MARS不仅稳居开源模型榜首，更在视觉搜索与推理两大核心领域，实现了对顶级闭源模型的全面超越。更多技术细节可查阅其官方论文。

全能冠军，自主解决复杂问题

SenseNova-MARS的领先优势在多项硬核评测中得到验证。其69.74的平均分，直观展示了其在多模态搜索与推理任务上的综合实力。

例如，在专注于图文搜索核心能力的MMSearch榜单上，它以74.27分登顶，大幅领先于GPT-5.2的66.08分。而在更具挑战性的HR-MMSearch评测中，它则以54.43分确立了明显优势。

HR-MMSearch测试堪称“AI界的奥林匹克”：所有题目均基于2025年最新的4K超高清图片，杜绝了模型依赖训练数据“记忆”的可能；问题全部针对图片中占比不足5%的微小细节，如不起眼的标志、细小的文字，必须借助图像裁剪工具才能看清；题目覆盖八大领域，且超过60%的问题需要组合调用至少三种工具才能解答。

可以说，无论是需要广博知识储备的查询，还是依赖极致视觉细粒度分析的任务，SenseNova-MARS都展现了当前“全能冠军”的潜质。

用组合拳，解决真实场景问题

真正的价值在于落地应用。SenseNova-MARS的核心能力，在于解决那些需要“多步骤推理”与“多工具协作”的真实世界复杂问题。

传统的AI工具调用往往功能单一，遇到需要“先放大细节观察、再识别物体、最后查询背景信息”的连环任务时，便难以为继。

而SenseNova-MARS可以自主处理这类任务。例如，面对“识别赛车服上微小Logo、查询该品牌公司成立年份、匹配车手出生年月、最后计算两者时间差”的复杂指令，它能自动规划步骤，调用图像裁剪、文本与图像搜索等一系列工具，无需人工干预即可完成闭环解答。

这种能力能直接转化为生产力。比如，从行业峰会照片中识别企业标志，随即自动搜集相关产品信息、企业动态及关键数据，快速辅助进行市场与竞争格局分析。

在体育领域，它能从赛事照片中识别出Logo、特定人物等信息，并自动追溯比赛背景或人员资料，高效补充内容创作所需的关键细节。

即便是步骤极其冗长、需要调用超过三种工具的复杂推理任务，例如自动裁剪分析图表细节、搜索比对相关研究数据以验证某个假设，SenseNova-MARS也能应对自如，快速得出关键判断。

归根结底，正是这种“自主规划”与“多工具协作”的能力，让AI能够自动串联起“细节识别、信息检索、逻辑推理”的全链条，切实提升处理复杂任务的效率。其核心工具能力可归纳为三点：

图像裁剪：精准聚焦图片上的微小细节，即便是占比不足5%的元素，如服装上的小标志或远处的标语，都能通过裁剪放大进行清晰分析。

图像搜索：在看到物体、人物或场景的瞬间，自动匹配关联信息，例如识别出特定车型或冷门设备型号。

文本搜索：快速抓取精准的文本信息，无论是公司成立年份、人物生平，还是最新的行业数据，都能迅速获取。

从练中学，形成“直觉”和“经验”

如此强大的能力从何而来？关键在于一套“因材施教”的两阶段训练方法。

第一阶段是打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点，研究团队创新性地采用了基于多模智能体的自动化数据合成引擎。该引擎通过“细粒度视觉锚点定位”与“多跳深度关联检索”机制，动态挖掘并关联跨网页实体间的逻辑，自动化构建出高复杂度的多跳推理链路。同时，引入闭环自洽性校验来剔除存在幻觉或矛盾的数据，最终构造出逻辑严密、知识密度高的优质训练数据。这相当于为AI精心筛选了一套“高难度案例集”，每个案例都明确了工具使用与步骤规划，让模型从一开始就学习真实的复杂问题解决逻辑。

第二阶段是练实战。这一阶段采用强化学习策略。AI每做出一次正确决策（如选用工具得当、步骤合理）便会获得奖励，反之则调整策略。这就好比侦探在大量案件中积累经验。为了确保训练稳定，团队引入了BN-GSPO算法作为“稳定器”。这种基于双阶段归一化的机制，有效平滑了动态工具调用返回结果的分布差异，确保了学习信号的一致性，从而成功解决了跨模态多步多工具智能体训练中的收敛难题，让模型在处理不同难度任务时都能均衡进步。

经过这样系统的训练，模型掌握的不仅是工具的使用方法，更培养出一种“工具使用直觉”——知道在何种情境下该调用哪些工具，以及如何将不同工具的输出结果有机整合，形成最终答案。

目前，商汤已全面开源SenseNova-MARS的模型权重、代码及部分数据集，开发者可通过Hugging Face平台直接下载使用，加速多模态AI应用的开发与创新。

来源:https://www.leiphone.com/category/academic/PBcDro6PmN9rI6yK.html

上一篇：即梦AI隐私政策查看方法与权限设置详解

下一篇： Figma AI响应式布局断点错误解决方法：手动设置Constraints约束规则