商汤SenseNova-MARS模型全面开源性能超越Gemini-3-Pro
多模态AI领域迎来重大突破。商汤科技正式开源其SenseNova-MARS模型,提供8B和32B两个版本。在衡量多模态搜索与推理能力的核心基准测试中,该模型以69.74的平均分,超越了谷歌Gemini-3-Pro(69.06分)和OpenAI GPT-5.2(67.64分),展现出卓越性能。
这不仅是分数的提升,更是能力的跃迁。SenseNova-MARS被定位为首个支持动态视觉推理并与图文搜索深度融合的智能体模型。它能够主动规划任务步骤、自主调用工具,像专家一样解决复杂问题,标志着AI向具备真正“执行能力”迈出了关键一步。
在MMSearch、HR-MMSearch、FVQA等多个权威多模态基准测试中,SenseNova-MARS不仅稳居开源模型榜首,更在视觉搜索与推理两大核心领域,实现了对顶级闭源模型的全面超越。更多技术细节可查阅其官方论文。
全能冠军,自主解决复杂问题
SenseNova-MARS的领先优势在多项硬核评测中得到验证。其69.74的平均分,直观展示了其在多模态搜索与推理任务上的综合实力。

例如,在专注于图文搜索核心能力的MMSearch榜单上,它以74.27分登顶,大幅领先于GPT-5.2的66.08分。而在更具挑战性的HR-MMSearch评测中,它则以54.43分确立了明显优势。

HR-MMSearch测试堪称“AI界的奥林匹克”:所有题目均基于2025年最新的4K超高清图片,杜绝了模型依赖训练数据“记忆”的可能;问题全部针对图片中占比不足5%的微小细节,如不起眼的标志、细小的文字,必须借助图像裁剪工具才能看清;题目覆盖八大领域,且超过60%的问题需要组合调用至少三种工具才能解答。
可以说,无论是需要广博知识储备的查询,还是依赖极致视觉细粒度分析的任务,SenseNova-MARS都展现了当前“全能冠军”的潜质。
用组合拳,解决真实场景问题
真正的价值在于落地应用。SenseNova-MARS的核心能力,在于解决那些需要“多步骤推理”与“多工具协作”的真实世界复杂问题。
传统的AI工具调用往往功能单一,遇到需要“先放大细节观察、再识别物体、最后查询背景信息”的连环任务时,便难以为继。

而SenseNova-MARS可以自主处理这类任务。例如,面对“识别赛车服上微小Logo、查询该品牌公司成立年份、匹配车手出生年月、最后计算两者时间差”的复杂指令,它能自动规划步骤,调用图像裁剪、文本与图像搜索等一系列工具,无需人工干预即可完成闭环解答。

这种能力能直接转化为生产力。比如,从行业峰会照片中识别企业标志,随即自动搜集相关产品信息、企业动态及关键数据,快速辅助进行市场与竞争格局分析。

在体育领域,它能从赛事照片中识别出Logo、特定人物等信息,并自动追溯比赛背景或人员资料,高效补充内容创作所需的关键细节。

即便是步骤极其冗长、需要调用超过三种工具的复杂推理任务,例如自动裁剪分析图表细节、搜索比对相关研究数据以验证某个假设,SenseNova-MARS也能应对自如,快速得出关键判断。
归根结底,正是这种“自主规划”与“多工具协作”的能力,让AI能够自动串联起“细节识别、信息检索、逻辑推理”的全链条,切实提升处理复杂任务的效率。其核心工具能力可归纳为三点:
图像裁剪:精准聚焦图片上的微小细节,即便是占比不足5%的元素,如服装上的小标志或远处的标语,都能通过裁剪放大进行清晰分析。
图像搜索:在看到物体、人物或场景的瞬间,自动匹配关联信息,例如识别出特定车型或冷门设备型号。
文本搜索:快速抓取精准的文本信息,无论是公司成立年份、人物生平,还是最新的行业数据,都能迅速获取。
从练中学,形成“直觉”和“经验”
如此强大的能力从何而来?关键在于一套“因材施教”的两阶段训练方法。
第一阶段是打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,研究团队创新性地采用了基于多模智能体的自动化数据合成引擎。该引擎通过“细粒度视觉锚点定位”与“多跳深度关联检索”机制,动态挖掘并关联跨网页实体间的逻辑,自动化构建出高复杂度的多跳推理链路。同时,引入闭环自洽性校验来剔除存在幻觉或矛盾的数据,最终构造出逻辑严密、知识密度高的优质训练数据。这相当于为AI精心筛选了一套“高难度案例集”,每个案例都明确了工具使用与步骤规划,让模型从一开始就学习真实的复杂问题解决逻辑。
第二阶段是练实战。这一阶段采用强化学习策略。AI每做出一次正确决策(如选用工具得当、步骤合理)便会获得奖励,反之则调整策略。这就好比侦探在大量案件中积累经验。为了确保训练稳定,团队引入了BN-GSPO算法作为“稳定器”。这种基于双阶段归一化的机制,有效平滑了动态工具调用返回结果的分布差异,确保了学习信号的一致性,从而成功解决了跨模态多步多工具智能体训练中的收敛难题,让模型在处理不同难度任务时都能均衡进步。
经过这样系统的训练,模型掌握的不仅是工具的使用方法,更培养出一种“工具使用直觉”——知道在何种情境下该调用哪些工具,以及如何将不同工具的输出结果有机整合,形成最终答案。
目前,商汤已全面开源SenseNova-MARS的模型权重、代码及部分数据集,开发者可通过Hugging Face平台直接下载使用,加速多模态AI应用的开发与创新。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
DeepSeek终端助手发布 美国开发者打造命令行AI工具
最近在终端编程工具领域,有个项目挺有意思,叫 DeepSeek-TUI。简单来说,你可以把它看作是为 DeepSeek 模型量身打造的“终端版编程智能体”,类似于 Claude Code 或 GPT 的 Codex 这类工具,当然,这个类比只是为了方便理解。 这事儿起因还挺有趣。前两天在社交媒体上,
Claude AI梦境研究:人工智能的潜意识与进化
Claude开始“做梦”了。这听起来有点科幻,但确实是Anthropic为其Claude Managed Agents平台推出的最新功能——“Dreaming”。 就像人有时白天百思不得其解,睡一觉反而豁然开朗一样,现在AI也学会了这招。这项功能允许AI在工作间隙“睡觉”反思,进行记忆清理、规律总结
宇树人形机器人应用商店UniStore正式开放
今天,人形机器人领域迎来一个里程碑式进展。宇树科技正式宣布,其全球首创的人形机器人任务动作应用商店——UniStore官方共享应用平台,现已面向全球开发者与用户全面开放。 通俗地讲,UniStore平台相当于人形机器人的“专属应用商店”。开发者能够上传自主编写的机器人动作程序与任务模块,用户则可像在
Midjourney体积雾模拟教程 轻松营造氛围感画面
在Midjourney中创作具有真实空气感与空间深度的雾气效果时,你是否常遇到画面扁平或质感虚假的困扰?这通常源于提示词与参数组合不够精准——真正的体积雾效需要一套系统化的指令策略,而非简单添加“fog”一词。以下这套经过反复验证的实战方法,将引导你把“雾气”从一层单调的贴图,转化为真正弥漫于场景之
智能电池摄像头选购指南 灵活安装与安全监控全解析
如今,家庭安防的选择越来越丰富,其中,智能电池摄像头以其独特的灵活性和强大的安全性能,正成为许多用户的首选。它不再仅仅是“记录画面”,而是通过先进的目标检测算法,将主动预警和智能监控提升到了一个新高度。无论是实时记录动态,还是及时推送通知,都让安全防护变得更加主动和便捷。加上其免布线的安装特性和多样
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

