智源大会关键判断：大模型下一场仗不在屏幕打

AI热点日报时间：2026-06-29

热点解读

智源大会第二天聚焦AI如何理解与介入物理世界。世界模型与具身智能成为两大方向，均面临数据与硬件挑战，评价标准尚未确立。大模型的下一场竞争将从虚拟转向现实。

北京智源大会进入第二天，会场里的气氛悄然起了变化。

头一天更像一场技术阅兵，大家热烈讨论大语言模型对社会的影响，畅谈对未来技术发展的期许——毕竟技术范式已经收敛，这条赛道上的确定性更多了些。

但第二天就完全不同了。摆在行业面前的下一道课题是：如何让机器理解真实的物理世界？机器能飞快地解出高难度数学题，可它并不知道，桌上那杯咖啡如果滑落桌沿，会发生什么。数据和硬件是横亘在前方的两座大山，山顶清晰可见，但该沿哪条路登山，眼下还没有定论。

智源研究院院长王仲远和银河通用创始人兼CTO王鹤的观点，是当天最有看头的。一个要重新定义世界模型，另一个选择先让机器人学会打网球。表面上看风马牛不相及，底层逻辑却是同一个：AI必须学会跟真实世界打交道。

所有夺冠的世界模型，都还不是真正的世界模型

“所有夺冠的世界模型，都还不是真正的世界模型，视频生成模型不等于世界模型。”王仲远说出这句话时，台下安静了几秒。

过去半年，世界模型这个概念热得发烫，但概念的误用同样泛滥成灾。王仲远认为，误用的源头在于OpenAI发布Sora时用了World Simulator的表述。他举了一个一听就懂的反例——视频生成模型可以生成一群猪在天上跟飞机一起飞的画面，因为训练数据里有大量科幻电影。它学会了好莱坞的想象力，却不懂牛顿的万有引力。

为此，智源特意把世界模型分成四类：以语言为中心的，比如时下大热的VLM/VLA；以像素为中心的，比如Sora、Seedance这类视频生成；以三维结构为中心的，比如3D重建或李飞飞团队的World Labs Marble；以视觉表征为中心的，比如杨立昆的JEPA系列。四条路线各有进展，但王仲远的判断是，这几类的发展都还不够。

智源选择了第五类——全模态潜空间，把文本、图像、视频压缩到统一的向量空间，建模真实物理世界的状态。这个思路跟智源此前登上《Nature》正刊的悟界Emu一脉相承。为什么智源要独占一类？王仲远也坦承，这条路还没有完全走通，因此暂时不急于归类。

谈到李飞飞将世界模型分为渲染器、模拟器和规划器三类，王仲远没有回避对比：“她的分类有她的逻辑，但我们的分类更具通用性。未来不排除走向大一统。”

下一个Token预测是大语言模型的核心，那对世界模型呢？在王仲远看来，是下一个物理状态预测。

他用生活场景来解释什么才算真正的世界模型能力。一杯咖啡放在桌子边缘，跌落时会发生什么，人类一看就知道。一个3岁的小朋友睡着了，厨房传来很大的声音，家人只要挥一下手，其他人就明白该去关门。不用说话，不用解释。这种感知-预测-决策的闭环，是人类天生的世界模型，也是机器远未掌握的能力。

智源已经在构建评测数据集，评测框架预计下半年发布。切入点选得很具体：开冰箱、开洗衣机、开微波炉。同样是“打开”这个动作，不同设备有旋转式、按压式、触碰式的差异。加热饭菜时，知不知道铁碗不能放进微波炉？因为可能产生火花。人类觉得这是常识，机器觉得这是难题。

王仲远对整个行业的进度判断相当冷静：至少还需要好几年。无论国内还是国外，世界模型都还处于早期。

但早期不是等待的理由。

智源研究院已经行动起来，在大会上发布了正在研发中的悟界·Physis-v0.1，以物理空间建模实现下一个物理状态预测为核心，定位为全球首个通用世界基座模型。模型还在训练阶段，下半年会持续分享进展，训练完成后开源。

王鹤：先打赢网球，构建坚实护城河

如果说王仲远在定义AI该怎么“想”世界，那么银河通用创始人兼CTO王鹤就更直接了——他要解决的问题更野蛮，让机器人“动”起来。从思考到执行，刚好形成一个闭环。

银河通用选了一个让很多人意外的突破口：让机器人学会打网球。

今年3月，银河通用推出了latent算法，让人形机器人具备了长程动态打网球的能力。打网球可不简单，同时考验两件事——手腕精确控制击球区的运动控制，以及判断该吊球还是打空档的大脑层策略决策。

面对数据难题，银河通用的技术路径是：通过动作捕捉获取部分真人数据，让机器学会关键动作，再叠加强化学习，提升泛化能力，最终实现机器人能跟真人对打。这事在社交媒体上还引起了一波讨论，AI圈的明星企业家如Elon Musk和Andrej Karpathy都注意到了。

王鹤本人更愿意把这叫作具身智能的AlphaGo时刻。

这不，才3个月过去，银河通用又提出了World Action Model（WAM）范式，据说融合了VLA和世界模型，同时吸收有标签的具身数据和海量无标签的人类第一人称视频。

银河通用是具身智能企业里坚定的合成数据派，这是它的技术壁垒。在WAM出现之前，团队用10亿帧仿真数据跑通了一个结论：只要把数据Scale到这个程度，就可以完全实现zero-shot，在真实世界随便给一个东西，就能搞定抓取。

当然，技术从来不是什么护城河。王鹤本人也不是没准备，他在大会上把护城河拆成了四个维度：数据供给、多类型数据提炼能力、硬件迭代与软硬协同设计、模型交付给客户的整套能力。他说了一句很有底气的话：全世界范围内还没有这么综合的一个产品，具身智能的护城河相当深。

这句话不是空话。宁德时代、博世既是银河通用的投资人，也是客户——投资、采购、验证三位一体，比纯技术更难复制。银河通用同时覆盖工业重载和商业零售两条产品线，宁德时代的产线和100多家无人便利店都已经跑起来了。

但他没有回避现实的严峻。王鹤给出了一个让人倒吸一口气的投入门槛：行业需要千万小时级别的数据、百亿以上单年的投入，才能拿到冲刺ChatGPT时刻的入场券。如今银河通用手握70亿融资、200亿估值，离这个门槛还有距离。特别值得一提的是，国内具身智能创业公司已有约230家，赛道拥挤，谁能走出来还是未知数。

他还说了一句不太客气的话：真正愿意做实事的人少，愿意卖硬件、卖平台的人多。

大会上最后一个问题很尖锐：中国AI和欧美AI会走出不一样的路吗？王鹤的回答是：我相信具身是中国的机会。如果0到1在中国完成，那1到100必定是在中国成熟的。这不是空想——去年中国制造的人形机器人占全球交付量的87%。

王鹤给出的时间表是两年。两年后，具身智能能不能从GPT-2进化到ChatGPT，也决定了70亿融资和200亿估值究竟是不是泡沫。

智源大会第二天收尾时，两条AI战线的图景已经清晰：世界模型要教AI理解物理规律，具身智能要让机器人用身体去执行。共同点是：都还处在早期，都缺数据，都没有公认的评价标准。

不过，有一点可以确认——大模型的下一场仗，不在屏幕里打了。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：智源大会关键判断：大模型下一场仗不在屏幕打要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.tmtpost.com/8027027.html

智源大会

上一篇：职场人高效秘籍免费PDF同时转换为Word和Excel的转换器

下一篇：美国出口管制致Anthropic停供AI模型，欧盟评估称不应歧视

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。