智源大会关键判断:大模型下一场仗不在屏幕打
智源大会第二天聚焦AI如何理解与介入物理世界。世界模型与具身智能成为两大方向,均面临数据与硬件挑战,评价标准尚未确立。大模型的下一场竞争将从虚拟转向现实。
北京智源大会进入第二天,会场里的气氛悄然起了变化。
头一天更像一场技术阅兵,大家热烈讨论大语言模型对社会的影响,畅谈对未来技术发展的期许——毕竟技术范式已经收敛,这条赛道上的确定性更多了些。
但第二天就完全不同了。摆在行业面前的下一道课题是:如何让机器理解真实的物理世界?机器能飞快地解出高难度数学题,可它并不知道,桌上那杯咖啡如果滑落桌沿,会发生什么。数据和硬件是横亘在前方的两座大山,山顶清晰可见,但该沿哪条路登山,眼下还没有定论。
智源研究院院长王仲远和银河通用创始人兼CTO王鹤的观点,是当天最有看头的。一个要重新定义世界模型,另一个选择先让机器人学会打网球。表面上看风马牛不相及,底层逻辑却是同一个:AI必须学会跟真实世界打交道。
所有夺冠的世界模型,都还不是真正的世界模型
“所有夺冠的世界模型,都还不是真正的世界模型,视频生成模型不等于世界模型。”王仲远说出这句话时,台下安静了几秒。
过去半年,世界模型这个概念热得发烫,但概念的误用同样泛滥成灾。王仲远认为,误用的源头在于OpenAI发布Sora时用了World Simulator的表述。他举了一个一听就懂的反例——视频生成模型可以生成一群猪在天上跟飞机一起飞的画面,因为训练数据里有大量科幻电影。它学会了好莱坞的想象力,却不懂牛顿的万有引力。
为此,智源特意把世界模型分成四类:以语言为中心的,比如时下大热的VLM/VLA;以像素为中心的,比如Sora、Seedance这类视频生成;以三维结构为中心的,比如3D重建或李飞飞团队的World Labs Marble;以视觉表征为中心的,比如杨立昆的JEPA系列。四条路线各有进展,但王仲远的判断是,这几类的发展都还不够。
智源选择了第五类——全模态潜空间,把文本、图像、视频压缩到统一的向量空间,建模真实物理世界的状态。这个思路跟智源此前登上《Nature》正刊的悟界Emu一脉相承。为什么智源要独占一类?王仲远也坦承,这条路还没有完全走通,因此暂时不急于归类。
谈到李飞飞将世界模型分为渲染器、模拟器和规划器三类,王仲远没有回避对比:“她的分类有她的逻辑,但我们的分类更具通用性。未来不排除走向大一统。”
下一个Token预测是大语言模型的核心,那对世界模型呢?在王仲远看来,是下一个物理状态预测。
他用生活场景来解释什么才算真正的世界模型能力。一杯咖啡放在桌子边缘,跌落时会发生什么,人类一看就知道。一个3岁的小朋友睡着了,厨房传来很大的声音,家人只要挥一下手,其他人就明白该去关门。不用说话,不用解释。这种感知-预测-决策的闭环,是人类天生的世界模型,也是机器远未掌握的能力。
智源已经在构建评测数据集,评测框架预计下半年发布。切入点选得很具体:开冰箱、开洗衣机、开微波炉。同样是“打开”这个动作,不同设备有旋转式、按压式、触碰式的差异。加热饭菜时,知不知道铁碗不能放进微波炉?因为可能产生火花。人类觉得这是常识,机器觉得这是难题。
王仲远对整个行业的进度判断相当冷静:至少还需要好几年。无论国内还是国外,世界模型都还处于早期。
但早期不是等待的理由。
智源研究院已经行动起来,在大会上发布了正在研发中的悟界·Physis-v0.1,以物理空间建模实现下一个物理状态预测为核心,定位为全球首个通用世界基座模型。模型还在训练阶段,下半年会持续分享进展,训练完成后开源。
王鹤:先打赢网球,构建坚实护城河
如果说王仲远在定义AI该怎么“想”世界,那么银河通用创始人兼CTO王鹤就更直接了——他要解决的问题更野蛮,让机器人“动”起来。从思考到执行,刚好形成一个闭环。
银河通用选了一个让很多人意外的突破口:让机器人学会打网球。
今年3月,银河通用推出了latent算法,让人形机器人具备了长程动态打网球的能力。打网球可不简单,同时考验两件事——手腕精确控制击球区的运动控制,以及判断该吊球还是打空档的大脑层策略决策。
面对数据难题,银河通用的技术路径是:通过动作捕捉获取部分真人数据,让机器学会关键动作,再叠加强化学习,提升泛化能力,最终实现机器人能跟真人对打。这事在社交媒体上还引起了一波讨论,AI圈的明星企业家如Elon Musk和Andrej Karpathy都注意到了。
王鹤本人更愿意把这叫作具身智能的AlphaGo时刻。
这不,才3个月过去,银河通用又提出了World Action Model(WAM)范式,据说融合了VLA和世界模型,同时吸收有标签的具身数据和海量无标签的人类第一人称视频。
银河通用是具身智能企业里坚定的合成数据派,这是它的技术壁垒。在WAM出现之前,团队用10亿帧仿真数据跑通了一个结论:只要把数据Scale到这个程度,就可以完全实现zero-shot,在真实世界随便给一个东西,就能搞定抓取。
当然,技术从来不是什么护城河。王鹤本人也不是没准备,他在大会上把护城河拆成了四个维度:数据供给、多类型数据提炼能力、硬件迭代与软硬协同设计、模型交付给客户的整套能力。他说了一句很有底气的话:全世界范围内还没有这么综合的一个产品,具身智能的护城河相当深。
这句话不是空话。宁德时代、博世既是银河通用的投资人,也是客户——投资、采购、验证三位一体,比纯技术更难复制。银河通用同时覆盖工业重载和商业零售两条产品线,宁德时代的产线和100多家无人便利店都已经跑起来了。
但他没有回避现实的严峻。王鹤给出了一个让人倒吸一口气的投入门槛:行业需要千万小时级别的数据、百亿以上单年的投入,才能拿到冲刺ChatGPT时刻的入场券。如今银河通用手握70亿融资、200亿估值,离这个门槛还有距离。特别值得一提的是,国内具身智能创业公司已有约230家,赛道拥挤,谁能走出来还是未知数。
他还说了一句不太客气的话:真正愿意做实事的人少,愿意卖硬件、卖平台的人多。
大会上最后一个问题很尖锐:中国AI和欧美AI会走出不一样的路吗?王鹤的回答是:我相信具身是中国的机会。如果0到1在中国完成,那1到100必定是在中国成熟的。这不是空想——去年中国制造的人形机器人占全球交付量的87%。
王鹤给出的时间表是两年。两年后,具身智能能不能从GPT-2进化到ChatGPT,也决定了70亿融资和200亿估值究竟是不是泡沫。
智源大会第二天收尾时,两条AI战线的图景已经清晰:世界模型要教AI理解物理规律,具身智能要让机器人用身体去执行。共同点是:都还处在早期,都缺数据,都没有公认的评价标准。
不过,有一点可以确认——大模型的下一场仗,不在屏幕里打了。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:智源大会关键判断:大模型下一场仗不在屏幕打要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点GoogleMeet是面向商业与企业的视频会议服务,支持屏幕共享、实时字幕及与GoogleWorkspace集成,适用于项目讨论、网络研讨和线上教学等多种会议场景,具备扎实的安全与隐私保护。
Lanter是Chrome扩展,利用AI将YouTube视频语音转为带时间戳的文字笔记,支持一键抓取高光、自动标点排版、书签管理、全局搜索及每日邮件汇总,方便高效回顾视频关键内容。
一款AI驱动的Chrome扩展音频笔记应用,支持录音自动转文字、标签分类与全文搜索,将语音转化为可检索的数字资产,显著提升信息定位与管理效率。
专为GoogleMeet设计的AIChrome扩展,实时转录会议内容,自动生成摘要并提取行动项与决策,无缝同步至Google文档、任务及Gmail,省去手动整理时间,显著提升协作效率。
- 日榜
- 周榜
- 月榜
热点快看
