商汤SenseNova-MARS超越Gemini 3 Pro,模型代码数据全开源
今日,商汤正式开源多模态自主推理模型 SenseNova-MARS(8B/32B 双版本),其在多模态搜索与推理的核心基准测试中以 69.74 分超越Gemini-3-Pro(69.06 分)、GPT-5.2(67.64 分)。
SenseNova-MARS是首个支持动态视觉推理和图文搜索深度融合的AgenticVLM模型,它能自己规划步骤、调用工具,轻松搞定各种复杂任务,让AI真正具备“执行能力”。
在MMSearch、HR-MMSearch、FVQA、InfoSeek、SimpleVQA、LiveVQA等基准测试中,SenseNova-MARS取得开源模型中的 SOTA 成绩,还超越Gemini-3.0-Pro、GPT-5.2等顶级闭源模型,在搜索推理和视觉理解两大核心领域全面领跑。更多细节请参见技术报告(https://arxiv.org/abs/2512.24330),欢迎开发者、各行业用户测试与体验。
全能冠军,自主解决复杂问题
SenseNova-MARS在多项多模态搜索评测中展现出明显的领先优势,平均得分达到 69.74 分,成功超过了 Gemini-3-Pro 的 69.06 分与 GPT-5.2 的 67.64 分。
在 MMSearch 榜单(图文搜索核心评测)中,模型以 74.27 分登顶,超GPT-5.2(66.08 分);HR-MMSearch(高清细节搜索评测)中以54.43 分领先,显著拉开与闭源模型的差距。

HR-MMSearch的测试题目堪称“AI界的奥林匹克”:采用305张2025年最新的4K超高清图片,确保AI无法依赖旧知识“作弊”;所有问题都针对图片中占比不到5%的细节,比如小标志、小字、微小物体,必须用图像裁剪工具才能看清;覆盖体育、娱乐文化、科学技术、商业金融、游戏、学术研究、地理旅行等八大领域,60%的问题都需要至少使用三种工具才能解答。
简单说,无论是需要“查遍全网”的知识密集型任务,还是需要“火眼金睛”的细粒度视觉分析,它都是当前的“全能冠军”。
用组合拳,解决真实场景问题
SenseNova-MARS还能实实在在落地到我们生活和工作的场景,解决需要“多步骤推理+多工具协作”的问题。
普通AI的工具调用,要么只能搜文字,要么只能看图片,遇到需要“先放大细节、再识别物体、最后查背景”的复杂任务就束手无策。

面对识别赛车服微小 Logo + 查询公司成立年份 + 匹配车手出生年月 + 计算差值’的复杂任务,SenseNova-MARS 可自主调用图像裁剪、文本 / 图像搜索工具,无需人工干预完成闭环解答。

SenseNova-MARS能从产品和行业峰会的照片中,识别企业的标志,快速搜集产品、企业的信息,以及时间、数量、参数等细节要素,辅助分析行业情况和格局。

SenseNova-MARS能从赛事照片中识别画面中的Logo、人物等信息,追溯比赛或人员背景信息,帮助快速补充重要细节。

SenseNova-MARS甚至能够轻松处理,这类超长步骤的多模态推理,和超过三种工具调用,自动裁剪分析细节、搜索相关研究数据,快速验证假设,得出关键判断。
拥有这种“自主思考+多工具协作”的能力,SenseNova-MARS能够自动解决“细节识别 + 信息检索 + 逻辑推理”复杂任务,帮助实现工作效率提升。
图像裁剪:能精准聚焦图片上的微小细节,哪怕是占比不到5%的细节——比如赛车手衣服上的微小Logo、赛事照片里观众席的标语,都可通过裁剪放大清晰分析。
图像搜索:能在看到物体、人物或场景,的瞬间自动匹配相关信息——比如识别出赛车手的身份,或是某款冷门设备的型号。
文本搜索:能快速抓取精准信息——无论是公司成立年份、人物出生年月,还是最新的行业数据,都能秒级获取。
从练中学, 形成"直觉"和"经验"
SenseNova-MARS采用了“因材施教”的训练方法。
第一阶段:打基础。针对跨模态多跳搜索推理训练数据稀缺的痛点,创新性的提出了基于多模智能体的自动化数据合成引擎,采用细粒度视觉锚点 + 多跳深度关联检索的机制,动态挖掘并关联跨网页实体的逻辑,自动化构建高复杂度的多跳推理链路,同时引入闭环自洽性校验来去除幻觉数据,构造出具备严密逻辑链条与高知识密度的多跳搜索问答数据。用精心筛选的“高难度案例”做教材,每个案例都标注了“该用什么工具、步骤是什么”,让AI先学会基本的“破案逻辑”。这些案例都是从海量数据中挑出的“硬骨头”,确保AI一开始就接触真实复杂场景。
l第二阶段:练实战。采用“强化学习”——就像侦探在一次次破案中积累经验,AI每做对一次决策(比如选对工具、步骤合理)就会获得奖励,做错了就调整策略。为了避免AI“学偏”,研究团队还加了个“稳定器”——BN-GSPO算法,让它在处理简单题和复杂题时都能保持稳定进步,不会出现“偏科”。 这种基于双阶段归一化的优雅机制有效平滑了动态工具调用返回分布多样性带来的优化波动并确保了学习信号分布的一致性,从而成功解决了跨模态多步多工具智能体训练过程中的收敛性难题。
经过这样的训练,AI不仅学会了用工具,更培养"工具使用直觉"——知道在什么情况下应该使用哪些工具,以及如何将不同工具的结果有机结合起来。
模型、代码、数据全开源
商汤日日新SenseNova-MARS模型、代码、数据集全开源,支持 Hugging Face 直接下载。
Github 仓库:
https://github.com/OpenSenseNova/SenseNova-MARS
模型仓库:
32B:
https://huggingface.co/sensenova/SenseNova-MARS-32B
8B
https://huggingface.co/sensenova/SenseNova-MARS-8B
技术报告:
https://arxiv.org/abs/2512.24330
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
马斯克在得州布局光伏产业特斯拉与SpaceX同步建厂
马斯克旗下特斯拉与SpaceX均计划在美国得克萨斯州建设大型光伏制造工厂。特斯拉选址休斯顿附近,将光伏生产与储能系统工厂整合,实现从晶锭到组件的垂直制造。SpaceX则在奥斯汀附近扩建基地,新建年产10GW太阳能电池板的专用设施,可能为航天任务提供能源支持。
2026年AI时代GEO营销专家定义与能力解析
随着用户习惯从搜索转向AI提问,GEO营销应运而生。其核心是让品牌成为AI生成答案中的可信信源,而非仅竞争搜索排名。这需要优化内容结构、建立权威背书并量化效果。企业必须适应这一变化,因为AI正成为关键决策入口,忽视GEO可能意味着放弃重要市场。
佳能R50V相机评测:七大热门拍摄场景实测与技巧分享
佳能R50V是一款轻便全能视频相机,机身仅重约323克,支持6K超采4K视频与第二代全像素双核对焦,可识别多种主体。其色彩科学优化人像肤色与美食表现,内置多种创意滤镜。相机具备防抖、专业格式录制与散热设计,支持直播与VR拓展,覆盖漫展、旅行、街拍及车展等多场景需求,起售价5299元。
2026年AI实用技能平台推荐与趋势盘点
2026年AI技能平台市场增长迅速,用户选择时应关注技能广度、使用门槛、安全性和生态附加值。主流平台特色各异:美团觅游覆盖多场景且安全易用;字节多闪侧重娱乐社交;腾讯元宝适合创作者;百度文心技术扎实但兼容性有限。用户需结合自身兴趣培养、商业经营或办公提效等具体需求进行选择。
爱达花城号邮轮完成振动噪声测试 国产大型邮轮再获突破
我国第二艘国产大型邮轮“爱达·花城号”顺利完成全船振动噪声测试,标志着试航关键节点达成。该船总吨位14 19万吨,全长341米,配备五台大功率发电机,采用双机舱独立布局以提升安全性。船上设有2130间客房及丰富娱乐设施,计划于2026年11月交付,将从广州南沙开启首航。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

