数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

商汤日日新原生融合模型破纪录夺双冠王

AI热点日报时间：2026-05-30

热点解读

商汤「日日新」融合大模型实现原生多模态融合，一个模型精通看与想，在SuperCLUE和OpenCompass评测中获双料冠军，文科超越o1全球第一，理科国内金牌。训练成本仅增加20%，标志着AI迈向大一统新纪元。

【新智元导读】大模型下一个突破口在哪？商汤「日日新」原生融合大模型一举拿下双料冠军，给出了最佳答案。一个模型精通「看」与「想」，原生多模态融合让AI迈入「大一统」新纪元。

大模型发展至今，下一步该走向何方？这个问题，或许已经迎来了一个清晰的答案。

就在刚刚，商汤给出了答案——原生融合模态！

最近的CES大会上，英伟达提出了能够理解世界的「世界模型」Cosmos，可将文本、图像、视频作为输入。而商汤，凭借十年的深耕和AI赋能场景的丰富经验，也早已笃定，原生融合是世界模型的必经之路。或者说，多模态模型是AI 2.0实现场景落地的必由之路。

就在最近，商汤「日日新」融合大模型正式上线。一个模型就实现了多模态的融合，这标志着商汤率先在原生融合模态上取得了实质性突破，成为业界在这一领域的领跑者。

这一突破意味着，大语言模型和多模态模型普遍分立的现状，从此刻起正式迈向真正意义上的「大一统」时代。

一般来说，LLM的工作原理是根据提示一次生成一个token产生输出。但如果上下文变成了现实周围环境，大模型就需要从生成「内容token」转变为生成「动作token」。随着AI落地到各种场景，它需要对多维度、多模态的信息进行感知、理解、分析、判断。如果模型不能有效综合处理这些模态，模型的智能水平就会很快触及天花板。

原生模态融合之所以意义重大，正是因为实现之后，模型不仅能达到「看」和「想」的水平，还可以帮助人类解决更多复杂问题。难以辨认的字体、数据图表里的信息、文学创作与撰写、举棋不定的游戏……现在，这些任务全部可以轻松完成。

实测：模型既会看，也会想

接下来，不妨看看「日日新」融合大模型在实际任务中的表现。

无论是极难辨认的英文手写诗，还是俄文手写诗，它都能准确识别。上传一张几乎难以辨认的英文手写体诗歌，日日新竟毫不费力地读出了每一行诗，最关键的是，它还完整复刻了原文的书写格式。

再比如这张俄语诗歌，对于非母语的人来说，大脑只剩一片空白。但对于日日新来说，简直小菜一碟。它不仅准确写出了原诗句，还顺便将其翻译成了颇具意境的中文版本。

有了日日新，对于拍题写作业的学生们来说，简直是神器。以往，你可能需要将题目打成文字，再发给AI去解；而现在，拍照、解答可以一并交给AI。将附有自己作答的一道题图片上传，AI一眼就能辨别出错误点。而且，它还能做到举一反三，堪称学习利器。

还有一些让人捧腹的小学生错题，日日新能完美解读答案好笑在哪里。爆笑小学生作文的幽默之处，它都能精准捕捉。

同样的，日日新非常精准地指出了这幅画作的特点——捕捉到了狗的神态和动作。对于如何提升画技，它又给出了行之有效的建议。

再上传一张雕像的图片，它能识别出图中历史人物，并分析出对应的历史典故。

甚至，它还能通过一张游戏截图，分析出电脑的具体配置，从CPU、GPU到内存，逐一列出。基于以上信息，它推断得出该电脑可以运行大模型。

上传一张图，日日新就能分析出代码实现了什么功能。一张国外网友制作的表情包，日日新也能准确领会图中的要点。它认为，人类正处于AGI的爬坡阶段，若要实现真正的AGI，还需要更多的研发和努力。

再比如，这张大模型智商大比拼图中，数字繁多，我们想了解o3和o1的智商如何，直接交给日日新即可。对于AI来说，一眼就看出了图中o3 IQ为157，o1 IQ为135。它还给出了评测标准以及Codeforces的背景信息介绍。

当被问到更发散的问题——o3与爱因斯坦谁更聪明时，日日新非常客观地看待这个问题。仅从直接的IQ结果来看，爱因斯坦比o3聪明些，但AI还综合考虑了智力评测的多个维度进行分析。

而世界模型的到来，或许还意味着能对地球和人类有更深刻的理解，找到与宇宙对话的方法。

文科超越o1全球第一，理科国内金牌

同样，多方的评测结果也证明，商汤确实找到了一条正确的技术路径。完成训练后的商汤「日日新」融合大模型，首次出战即拿下语言和多模态两个榜单的双料冠军。

近日，SuperCLUE 2024年度榜单中，「日日新」融合大模型以68.3高分，与DeepSeek V3并列国内榜首，荣获年度第一。

同时，在OpenCompass多模态评测中，同一款模型更是力压GPT-4o，独占鳌头。

具体来看，SuperCLUE覆盖了29个国内模型，聚焦大模型的通用能力测评，由理科、文科和Hard三大维度构成。此次获得68.3高分的商汤「日日新」融合大模型，直接超越了Claude 3.5 Sonnet和Gemini-2.0-Flash-Exp。

令人印象深刻的是，「日日新」在各项能力上表现均衡，在三大维度上均处于领先地位。在文科任务上，它以81.8分位列全球第一，超越OpenAI的o1和GPT-4o-latest。

在理科任务上，它直接夺得了金牌，其中计算维度以78.2分位列国内第一并超过GPT-4o-latest。

如此惊艳的表现，是否需要很高的成本呢？好消息是，融合模态模型训练的成本并不高。相比同样量级的LLM，训练成本仅增加20%左右。原因在于，这实际上是一个多阶段的训练，语言模式和多模态模式的训练合在了一起，因而只用了约1.2倍的成本。

技术路线：原生融合多模态

深挖背后，离不开商汤在「原生融合多模态」——一条独特且富有前瞻性的技术发展路径上取得的创新突破。

在大模型百舸争流的当下，各家都在积极布局多模态，但技术路径的选择却大不相同。通常来讲，业内普遍采用分离式架构，多模态和语言模型分步训练，再通过中间层实现功能整合。但从实际应用角度考虑，语言只是信息的一部分，世界中很多信息可能以图像、视频等形态存在。如果不能有效综合处理这些信息，模型的能力很快就会触及天花板。

商汤认为，融合多模态是未来的一条必由之路，其技术最显著的特点是「单一模型，多模态融合」。通俗来说，就是单一模型同时训练和处理多模态，成为一个原生的多模态模型。这也就意味着，在一个统一的模型框架内，同时具备了处理文本、图像、视频、音频多种模态信息的能力。

值得注意的是，商汤选择的这条技术路线，与OpenAI、Anthropic、谷歌同频共振。例如，GPT-4o、Claude 3.5、Gemini 2.0都采用了类似的单一模型融合多模态的技术路径。

正如商汤联合创始人、人工智能基础设施及大模型首席科学家林达华所言，这种策略的选择带来了显著的优势——首先，在训练成本方面，相较于分别训练两个模型的方案，融合多模态方案仅增加20%的训练成本，就能获得等效的能力。其次，这种一体化设计在处理多模态任务时，更加高效和自然。

那么，既然这条原生融合技术路线是必由之路，我们又该如何去实践它？至今没有具体方法论，也无人能简单效仿。实际上，从去年年底开始，原生多模态大模型就逐渐成为业内探讨的重要方向。然而由于数据和训练方法的局限，业内很多机构的尝试并不成功——多模态训练过程往往会导致纯语言任务，尤其是指令跟随和推理任务的性能严重下降。

在这个充满挑战的赛道上，商汤凭借其在CV领域十年的深厚积累，给出了独一份的解决之道。他们独创性地提出了两项关键技术——融合模态数据合成与融合任务增强训练。

融合模态数据合成

NeurIPS演讲上，Ilya曾当众宣布当前AI行业已达到「数据峰值」。无独有偶，马斯克最近在直播中也称，「我们基本上已经把AI训练中能利用的人类知识都挖空了」。互联网数据几近枯竭，早已成为屡见不鲜的话题。

业界一致将希望寄托于「合成数据」。例如，OpenAI曾被曝出用合成数据来辅助训练下一代模型Orion；Anthropic利用Claude 3.5 Opus生成合成数据提升模型性能。不仅如此，从微软Phi系列模型中也能看到合成数据的巨大潜力。最新的Phi-4合成数据比例高达40%，而且增加合成数据训练epoch，比单纯增加互联网数据，性能提升效果更明显。这足以证明，合成数据是缓解数据不足的有效方法。

商汤在融合多模态技术路线上的最大创新之一，便是「融合模态数据合成」。那么，他们具体是如何做到的呢？

在研究过程中，团队发现，当更多的数据和模态用一种有效且有机的方式融合在一起进行训练时，模型在不同环节和方向上都表现出更优的性能。跟AI 1.0时代相比，这是很不一样的。当时，一个模型的能力非常有限，如果同时训练它做两件事情，可能两件事都做不好。然而在大模型时代，在不同的场景都可以观察到——相比单一模态（如单纯的语言或图文模式），多模态有机融合的模型在智能水平上有显著提升。

在越来越多的工作中，都可以观察到这种现象：随着更多模态进行有机融合，模型会涌现出更强的智能水平。这种多模态技术在实践中的巨大潜力，已经在商汤绝影自动驾驶核心模型中得到了应用。

而在预训练阶段，商汤不仅采用了天然存在的海量图文交错数据，还通过逆渲染、基于混合语义的图像生成等方法合成了大量融合模态数据。由此，团队成功在图文模态之间建立起大量交互桥梁，使得模型基座对模态之间的丰富关系掌握得更扎实，从而能更好地完成跨模态任务，提升整体性能。

融合任务增强训练

完成预训练之后，模型还需要针对多项任务进行增强训练。不难理解，只有融合模型对实际应用场景有了深刻洞察，在场景驱动下，才能实现落地开花。就好比一个大学生，学了很多知识，在进入社会之前需要一些实操磨练，才能真正走上岗位。融合多模态模型也是如此。

为此，商汤基于多年来对广泛业务场景的认知，构建了一系列跨模态任务。具体涵盖了交互、多模态文档分析、城市场景理解、车载场景理解等。通过将这些任务融入到增强训练的过程，模型不仅被激发出强大的多模态信息整合理解分析能力，还形成了对业务场景有效的响应能力。在这个过程中，模型走通了应用落地反哺基础模型迭代的闭环。

只有真正做到多模态的交互与深度融合，才能让模型走向统一，这也是通向世界模型的必经之路。目前，基于「日日新」融合大模型，商汤已在多个实际场景中取得了突破性成果。

扩展应用新维度

在很多B端应用和商业竞争上，商汤已经具备了较大优势。

在办公、金融领域，经常会用到很多复杂的多模态文档，比如表格、文本、图片、视频等，以及以上形式的融合。面对如此丰富复杂的信息，融合大模型就有了非常大的优势。基于「日日新」打造的「办公小浣熊」，能够高效处理多种格式的办公文档，智能分析复杂业务数据，还能提供精准的信息提取服务。

甚至许多已经在媒体上发布的图文并茂的文章，都能得到多模态的综合解读。

在前文已经提到的自动驾驶领域，原生融合模态模型大有可为。未来，乘客或司机可以靠语音与车载智能体对话。智能体既能感知车里、车外的状态，识别各种信号，还能与人进行文字模态的语音交互。

还有一个场景就是视频交互。商汤已发布的日日新5o，就是基于视频实时交互的应用。人可以在视频场景下与机器交流，无论语言还是画面，AI都需要结合在一起去理解。

在协助城市治理、园区管理的场景中，原生融合模态模型也将提供极大的助力，为客户提供文字、图像、视频材料相结合的回答。

去年10月，商汤CEO徐立公开了商汤接下来十年「大模型、大装置和应用」三位一体的整体战略。现在，多模态融合的大模型已成为商汤AI 2.0的基座，承载了交互变革、提升生产力助手两个应用方向。

随着商汤将融合模态的技术路径整体走通，一个全新的想象空间已经打开。未来，整个空间结构将会如何输入？与LLM和推理能力将怎样结合？走通了通道和方法论的商汤，必将把探索的触角伸向更多领域。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：商汤日日新原生融合模型破纪录夺双冠王要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/LargeLanguageModel/2025011532458.html

ai 人工智能

上一篇：知识图谱增强大模型知识编辑联动新策略

下一篇：北京未来三年推动AI+文旅上线随身导游与数字客服

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。