当前位置: 首页
AI
商汤绝影3B激活参数性能超越GPT与Opus

商汤绝影3B激活参数性能超越GPT与Opus

热心网友 时间:2026-05-18
转载

车机端侧大模型的困境,业内讨论已久:复杂任务需要深度推理,而深度推理又依赖庞大的模型参数。参数规模上不去,智能水平就受限;可要把动辄数百亿参数的云端模型塞进车机,算力和功耗又成了难以逾越的障碍。这个死循环,似乎让真正的“智能座舱”始终隔着一层纱。

如今,这个僵局被打破了。商汤绝影刚刚发布了端侧多模态大模型Sage。它采用了一种巧妙的架构:总参数达到320亿,但在执行任务时,实际激活的参数仅有30亿。正是这一设计,首次将云端级别的智能体能力,实实在在地带到了车机端侧。

它的实力如何?在公开的智能体评测基准PinchBench上,Sage取得了94%的最佳任务完成率。这个成绩不仅超过了Claude Opus 4.6(93.3%)和GPT-5.4(90.5%),也领先于一众参数规模远大于它的云端旗舰模型。目前,Sage已在英伟达OrinX这样的主流车规级芯片平台上实现部署。

图片图片

作为端侧智能体的基座模型,Sage可以无缝接入OpenClaw、Hermes等主流智能体框架,这意味着它为未来更多端侧智能应用的落地提供了核心支撑,其潜力将覆盖出行、家庭乃至更广泛的全场景。

3B激活参数,何以超越百亿级模型?

在PinchBench这个被业界广泛认可的公开评测中,Sage的表现堪称惊艳。94%的任务完成率,让它稳稳站在了榜单前列,超越了包括Claude Opus 4.6、GPT-5.4、Google Gemini 3等在内的众多前沿模型。

图片

PinchBench之所以权威,在于它模拟的是真实的智能体工作流。它的任务库并非一成不变,而是持续动态更新,覆盖写作、研究、编码、文件处理、日程管理等复杂场景,核心考察模型在工具调用、多步推理和最终任务闭环上的综合能力。

更重要的是,它的测试方式要求模型真正“动手”完成任务,综合衡量成功率、速度和资源消耗,单次任务的token消耗可能高达数十万。因此,在PinchBench上的高分,更能反映一个模型在真实、复杂场景下的实战能力,而不仅仅是纸面答题。

据悉,在北京车展期间,商汤绝影将推出搭载Sage的硬件产品“SageBox”,作为整车的模型接入单元,加速其上车进程。

两项核心技术:从“听懂”到“办成”的关键一跃

Sage能在端侧跑出超越云端模型的成绩,背后是两项关键的后训练技术:SCOUT和ERL。可以说,一项负责让模型“高效学”,另一项负责让模型“准确做”,共同解决了车载大模型从被动响应到主动完成复杂任务的终极难题。

SCOUT:高效学习,算力节省60%

面对出行场景中纷繁复杂的任务(比如多设备联动、空间规划),直接让大模型去试错学习,成本极高且效率低下。SCOUT(分级协同学习框架)的创新之处在于,它引入了“侦察兵”机制。

具体来说,先派遣一个轻量级的小模型去任务环境中探索,把可行的路径和方案筛选出来,生成高质量的“经验数据”。然后,再将这些精华数据喂给主模型(Sage)进行学习。这种“小模型探路,大模型吸收”的模式,使得在注入复杂场景能力时,能够节省约60%的GPU算力消耗,学习速度也大大加快。

图片

ERL:自我纠错,任务成功率提升20%

用户的一个复杂指令,往往需要模型进行多步推理和执行。过程中任何一步出现偏差,都可能导致满盘皆输。已被机器学习顶级会议ICLR 2026收录的ERL(可擦除强化学习)技术,正是为了解决这个问题。

它让模型具备了一种“自我审查”和“即时修正”的能力。在推理链中,一旦模型识别出某个步骤可能存在错误,它可以主动“擦除”这一步,并在原位重新生成正确的推理,防止错误向后扩散。这项技术让Sage在多跳复杂推理任务上的成功率提升了20%,显著增强了其执行可靠性。

图片

SCOUT与ERL一前一后,协同工作,共同将Sage从一个优秀的语言模型,锻造成为一个能够独立规划并可靠完成复杂任务的智能体基座。再结合其一体化多模态架构和原生训练数据的优势,Sage在能力、成本和量产可行性之间找到了一个精妙的平衡点。

全面领先:端侧模型的能力新水平

如果说PinchBench证明了Sage“能办成事”,那么在各专业维度基准测试上的表现,则说明了它“事办得有多好”。对比本月最新发布的同量级端侧旗舰模型Google Gemma 4,Sage实现了全面领先。

在MMLU Pro(跨学科知识)测试中,Sage得分76,领先约10%,证明其知识密度达到云端水准;在GPQA Diamond(研究生级专业推理)测试中,得分77,提升33%,展现了深厚的复杂推理能力;在针对座舱的语义与视觉理解测试中,得分91,提升32%,凸显了其原生多模态数据的优势。

图片

尤为关键的是在τ2-bench基准上的表现。这个基准专门评估模型调用工具、完成多步任务闭环的实战能力,是区分“聊天模型”和“办事智能体”的核心标尺。Sage在此取得了80分的成绩,相比Gemma 4实现了38%的提升,接近翻倍的领先幅度。这直接印证了Sage作为智能体基座,在真实任务执行层面的绝对优势。

从数据到体验:智能座舱的质变

上述所有技术优势,最终都要转化为真实的用户体验。在车舱场景下,Sage展现出了一组亮眼的数据:场景推理精度超过90%,长链路工具调用、逻辑规划、环境感知等任务的成功率分别达到92%、89%和94%,复杂指令遵循率提升了40%。

在英伟达OrinX平台上部署时,Sage能够实现首字响应约0.5秒,单Token推理延迟低至0.03秒,生成吞吐达到80 tokens/秒。这意味着其平均任务响应速度优于主流云端API模型,能为座舱提供稳定、实时、可持续在线的智能服务。

落到实际场景,这意味着什么呢?用户可以说出“我有点冷,顺便找一家评分高的火锅店,把导航路线发我手机”这样的复合指令,Sage能一次性理解,并自动联动空调、车机娱乐系统和导航,完成全链路服务。它还能结合车内传感器,感知乘客状态或路况变化,主动触发儿童模式或建议调整路线。

至此,车机内的AI不再是一个需要唤醒、只能进行单轮对话的语音助手,而进化成为一个真正理解场景、善于思考、并能主动服务的出行伙伴。智能座舱的体验,因为端侧智能体能力的落地,正在发生根本性的改变。

相关研究论文:

[1] arXiv:https://arxiv.org/abs/2601.21754

[2] arXiv:https://arxiv.org/abs/2510.00861

来源:https://www.51cto.com/article/841441.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
谷歌确认苹果新版Siri今年上线 基于Gemini AI技术

谷歌确认苹果新版Siri今年上线 基于Gemini AI技术

科技圈传来一则重磅消息。根据AppleInsider的报道,在近日的谷歌Cloud Next 26大会主题演讲中,谷歌云首席执行官托马斯·库里安亲自确认,那个备受期待的、基于谷歌Gemini技术构建的新一代苹果Siri,其正式亮相的时间点定在了2026年。 这并非空xue来风。库里安在演讲中透露,谷

时间:2026-05-18 17:55
AI竞赛新焦点从GPU转向电力供应争夺战

AI竞赛新焦点从GPU转向电力供应争夺战

人工智能基础设施行业的竞争格局,正经历一场深刻而静默的转向。行业焦点已不再局限于争抢英伟达GPU,一场围绕核心资源——电力的争夺战正全面展开。本周,两家领先的AI云服务商CoreWeave与Nebius发布的季度财报,如同两份清晰的行业快照,揭示了市场如何从一个专注于GPU租赁的细分赛道,迅速演变为

时间:2026-05-18 17:54
联邦学习FedRE新方法解决三难困境 信通院与清华联合研究

联邦学习FedRE新方法解决三难困境 信通院与清华联合研究

联邦学习面临模型异构时的性能、隐私与通信成本“三难”问题。FedRE框架提出“表征纠缠”方法:客户端将本地多类样本表征随机加权融合为单一纠缠表征上传,使全局分类器学到更平滑的决策边界,提升性能;同时信息高度混合可抵御逆向攻击,保护隐私;每轮仅上传一个向量,大幅降低通信开销,在

时间:2026-05-18 17:54
出行平台如何用出行数据破解AI训练数据荒难题

出行平台如何用出行数据破解AI训练数据荒难题

如祺出行首次全面展示其AI数据资产版图,构建了覆盖标注、行为、合成及多模态数据的完整体系。依托真实出行场景,其智能采集车日均产出大量高质量合规数据,为自动驾驶、具身智能及世界模型训练提供关键支撑。公司已升级为全链路数据服务商,服务覆盖多个前沿领域并获得市场验证。

时间:2026-05-18 17:54
Altera FPGA如何优化AI系统推理性能与物理计算

Altera FPGA如何优化AI系统推理性能与物理计算

在物理AI系统的开发中,我们常常面临一个“不可能三角”:严苛的尺寸、重量和功耗限制是基础门槛,而为了满足高等级的安全需求,确定性的低延迟表现更是核心命门。这还没完,为了确保推理精度并实现高度优化的推理管线灵活部署,开发者往往需要在多种技术路径之间反复尝试和权衡。 针对这些长期困扰业界的痛点,Alte

时间:2026-05-18 17:51
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程