当前位置: 首页
AI资讯
商汤科技开源多模态推理模型SenseNova MARS详解

商汤科技开源多模态推理模型SenseNova MARS详解

热心网友 时间:2026-05-23
转载

SenseNova-MARS是什么

在追求AI模型规模与性能的浪潮中,一个根本性问题日益凸显:模型究竟是在真正“理解”信息,还是仅仅在复现训练数据中的模式?商汤科技开源的SenseNova-MARS,为这一问题提供了全新的视角。它不仅是一个先进的多模态大模型,更是业界首个深度融合动态视觉推理与图文搜索能力的Agentic VLM(智能体式视觉语言模型)。

简而言之,MARS赋予了AI“自主行动”的智能。模型提供8B和32B两种参数版本,其核心创新在于,它能像智能体一样自主规划任务步骤,灵活调用图像裁剪、文本搜索、图像搜索三大工具链,无需人工逐步干预,即可完成复杂的多跳推理任务。这标志着AI正从被动的“问答机器”向主动的“任务执行者”演进。

在性能表现上,SenseNova-MARS-32B在MMSearch、HR-MMSearch、FVQA等七大权威多模态基准测试中,取得了平均69.74分的优异成绩,超越了Gemini-3-Pro(69.06分)和GPT-5.2(67.64分),在开源多模态模型中达到了领先的SOTA水平。这份成绩充分证明了其卓越的技术实力。

SenseNova-MARS – 商汤科技开源的多模态自主推理模型

SenseNova-MARS的主要功能

这个具备“自主执行”能力的模型,具体拥有哪些核心功能?主要体现在以下三个关键方面:

  • 深度多模态搜索推理:超越基础的图文匹配。MARS能够深度融合图像与文本信息进行跨模态检索,并动态调度工具链,完成需要多步关联与逻辑递进的复杂知识推理。例如,识别图片中的特定元素后,它能主动发起搜索获取背景信息,并综合所有信息进行深度分析与判断。
  • 细粒度视觉理解与分析:面对4K乃至8K的超高清图像,许多模型会忽略细节。MARS支持对图像进行精准的局部裁剪与识别,即使目标物体在画面中的占比极小(不足5%),也能被有效定位与分析。这项能力对于处理真实世界中的复杂视觉场景至关重要。
  • 自主智能体任务执行:这是其灵魂功能。模型在接收任务后,能够自主进行步骤规划(确定先执行什么,后执行什么),使图像裁剪、文本搜索、图像搜索等多个工具协同工作,形成一个完整的端到端问题解决闭环,整个过程无需人工介入。

SenseNova-MARS的技术原理

实现上述强大能力,依赖于一套精心设计的训练架构与算法。其技术原理可拆解为以下几个核心组成部分:

  • 双阶段训练架构:训练过程分为两个阶段。第一阶段为“冷启动”监督微调,使用约3000个高质量的多轮交互轨迹数据,让模型初步掌握基础的工具使用逻辑。第二阶段则引入关键的BN-GSPO强化学习算法。该算法专门优化多工具场景下因轨迹长度与奖励尺度差异导致的训练不稳定问题。通过“组内归一化”与“批次归一化”两步操作,平衡不同任务的学习信号,从而稳定、高效地提升模型的多工具协同与决策能力。
  • 动作空间与工具设计:模型在每一步(轮)交互中拥有四个选项:执行文本搜索、执行图像搜索、进行图像裁剪,或终止任务并给出最终答案。其中,图像裁剪通过归一化的边界框坐标实现精准的局部区域放大。所有工具调用均遵循严格的JSON格式规范,确保了交互过程的结构化与可解析性。
  • 奖励模型机制:在强化学习中,奖励信号引导模型优化方向。MARS采用GPT-4o作为“裁判”,从两个维度提供稀疏奖励:一是答案准确性,评估最终答案与标准答案的语义匹配度;二是格式合规性,确保每一轮输出都包含结构化的思考链与规范的工具调用指令。这引导模型既追求结果正确,也遵循操作规范。
  • 自动化数据合成引擎:高质量训练数据来源于商汤构建的多模态智能体数据引擎。该引擎能自动完成三项工作:定位图像中的细粒度视觉关键点、进行多跳深度关联检索、并对生成的推理链条进行闭环自洽性验证。通过这种方式,它能从海量网页数据中自动挖掘跨实体的复杂逻辑关系,构建高难度的多跳推理训练样本,同时有效过滤其中的“幻觉”信息,保障了数据的高质量与可靠性。

SenseNova-MARS的项目地址

对于广大开发者、研究人员及技术爱好者而言,如何获取并探索这一模型至关重要。所有相关资源均已全面开源:

  • GitHub项目仓库:包含核心源代码、详细的使用文档及最新更新。
    地址:https://github.com/OpenSenseNova/SenseNova-MARS
  • HuggingFace模型库:提供8B和32B两个版本的模型下载及在线体验。
    地址:
    https://huggingface.co/sensenova/SenseNova-MARS-32B
    https://huggingface.co/sensenova/SenseNova-MARS-8B
  • arXiv技术论文:如需深入了解其技术细节、实验设计与完整数据,可阅读其学术论文。
    地址:https://arxiv.org/pdf/2512.24330

SenseNova-MARS的应用场景

凭借其强大的自主多模态推理能力,SenseNova-MARS在众多领域拥有广泛的应用前景:

  • 体育竞技智能分析:例如,识别赛车服上微小的品牌标识,自动查询相关企业背景及车手资料,甚至分析比赛画面计算时间差,用于赛事数据核实与自动化报道生成。
  • 商业情报与竞争分析:从行业会议合影中自动识别各公司Logo,快速搜集对应产品的详细参数、市场动态及最新融资信息,辅助商业分析师高效把握竞争格局。
  • 新闻与事实核查:针对社交媒体传播的高清新闻图片,追溯图中事件的发生背景、关键人物的真实身份,成为打击网络虚假信息与深度伪造内容的有力工具。
  • 学术研究与教育辅助:自动解析科研论文中的复杂图表与数据,并检索相关的历史文献、理论依据及实验方法,极大加速科研人员的文献调研与知识整合进程。
  • 智能地理探索与旅行导览:识别旅行照片中的地标建筑、文物细节或路牌信息,实时检索其历史文化背景、旅行攻略及相关故事,为用户提供深度、沉浸式的个性化智能导览体验。

总而言之,SenseNova-MARS的出现,不仅是多模态模型性能的一次飞跃,更代表了一种技术范式的演进——它推动AI从静态的知识库与问答系统,转变为能够主动观察环境、进行逻辑思考、并执行复杂任务的智能体。随着其全面开源,必将激发更多需要深度多模态推理的实际应用创新。

来源:https://ai-bot.cn/sensenova-mars/

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
OpenAI Codex高效使用指南与实战技巧

OpenAI Codex高效使用指南与实战技巧

OpenAI团队成员JasonLiu分享了Codex的高阶使用方法,核心在于将其从单次对话工具转变为长期运行的智能工作系统。他通过维持数月不中断的专属线程积累上下文,结合口述指令与Steering功能实现动态交互。Heartbeats定时任务与@computer功能使Codex能自动处理邮件、Slack反馈甚至亚马逊退款。他强调验证机制与本地知识库管理的重要

时间:2026-05-23 20:53
智谱清言制作建筑蓝图到实景动画视频教程

智谱清言制作建筑蓝图到实景动画视频教程

实现建筑蓝图到实景的动画,需引导AI理解时序。若有四张对齐的阶段图,可通过图生视频按序上传并描述材质与轮廓的渐进变化;若无图片,可在文生视频提示词中分阶段描述线条加粗、材质填充等动作。已有实景图时,可采用蓝图掩模融合技术分别控制结构与外观。生成后还可通过后期参数。

时间:2026-05-23 20:53
可灵AI制作布料撕裂特效的详细教程

可灵AI制作布料撕裂特效的详细教程

实现布料撕裂特效需开启布料动力学高级模拟并合理配置参数。需调整应力阈值与动作关联,叠加撕裂纹理增强细节,使用粒子系统模拟飞散碎屑。为便于后期合成,可导出携带破裂元数据的序列帧。

时间:2026-05-23 20:52
QClaw数据分析与Excel图表生成功能详解

QClaw数据分析与Excel图表生成功能详解

QClaw是一款办公自动化工具,能通过微信指令自动完成Excel数据分析和图表生成。它提供五种方式:调用内置数据分析专家、使用自然语言指令触发流程、运行Python脚本进行高级分析、联动腾讯文档实现协同图表,以及设置定时任务自动执行日报。用户无需手动操作Excel即可获得包含图表和摘要的分析报告。

时间:2026-05-23 20:51
智谱清影如何实现从鸟瞰到街景的无缝镜头转换

智谱清影如何实现从鸟瞰到街景的无缝镜头转换

在智谱清影中实现从鸟瞰到街景的平滑镜头,需将连续镜头拆解为逻辑递进的阶段并精准控制。具体通过四个步骤协同:分段构建时间序列以维持空间关系;嵌入三维坐标与专业运镜动词确保精度;借助图生视频模式用关键帧图像锚定空间参照;注入时间维度约束关键词定义变化规则。这。

时间:2026-05-23 20:51
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程