世界模型五大门派,围攻光明顶
世界模型“五大门派”:谁在定义AI的下一站?
最近AI圈的热钱,似乎都涌向了一个新方向。看看这几条密集的新闻:
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
- 春节后,图灵奖得主杨立昆的新公司 AMI 拿了 10.3 亿美元融资,创下欧洲 AI 公司种子轮纪录;
- AMI 拿钱几周前,李飞飞创办的 World Labs 也宣布了 10 亿美元融资;
- 本周早些时候,极佳视界获得数十亿元融资,估值超百亿;
- 昨天,阿里巴巴发布了世界模型「快乐生蚝」HappyOyster;
- 今天,群核科技在港交所敲钟。
这些看似分散的事件,实则指向同一个核心赛道:世界模型。
杨立昆曾有个引发热议的观点:「大语言模型在通往超级智能的路上是条死胡同。」这话乍听像是全盘否定,但加上“实现AGI”这个前提,细想却点出了一个关键瓶颈:ChatGPT能写代码能解题,却未必理解物理世界的基本规律。让它描述“苹果落地”,它能说得头头是道;但追问苹果为何落地,它可能只是在复述训练文本,而非真正“理解”重力。
问题的根源在于数据维度:大语言模型啃的是二维、离散的互联网文本,而真实世界是三维、连续且充满物理规则的。要让AI真正智能,就必须让它学会“理解”而不仅仅是“描述”这个世界。这,正是世界模型成为顶级实验室和资本下一个攻坚高地的原因。
不过,“世界模型”这个词眼下像个筐,大家往里装的东西却各不相同。有的在搞视频预测,有的在建3D场景,有的在搭仿真平台,还有的从神经科学找灵感……路线纷繁,共识未成。
Meta的研究科学家Zhuokai Zhao在社交平台上梳理了当前世界模型研究的“五大门派”,为我们提供了一份清晰的路线图。

这五条技术路径究竟有何不同?各自又押注着怎样的未来?下文将结合多方资料,为你逐一拆解。
JEPA 派:杨立昆的“抽象预测”哲学
JEPA,全称“联合嵌入预测架构”,是杨立昆力推的新AI范式。其核心思想颇具哲学意味:让AI像人类一样,通过“观察”来学习世界运行的抽象规律,而不是死记硬背每一个像素或单词。换句话说,AI无需记住每片树叶的位置,只需要理解“风会吹落树叶”这个因果规律。
在杨立昆看来,像Sora这类逐帧预测视频像素的模型,物理上就不可能完美——在一个充满随机性的世界里,精确预测每一片树叶的飘落轨迹是不现实的。JEPA的解法是“升维思考”:放弃在像素层面较劲,转而在一个抽象的“表征空间”里进行预测。

具体来说,先用编码器将视频转换成高维的数学表示(潜在空间),然后在这个抽象空间里预测“接下来会发生什么”。例如,预测“球会从桌上滚落”这一符合物理规律的事件结果,而非生成球滚落的每一帧具体画面。
这条路线的代表作是V-JEPA 2。这个拥有12亿参数的模型,基于100万小时无标签视频进行预训练。其惊人之处在于数据效率:仅需62小时的机器人实际操作数据,就能实现“零样本”动作规划。在陌生环境中操作陌生物体,成功率可达65-80%。相比之下,传统机器人学习方法往往需要数千小时的示范数据。

杨立昆的理念很明确:如果学到的“表征”足够好,就无需为每个新任务从头训练。当然,理想落地需要时间。创立AMI后,这位图灵奖得主也坦言,其商业化产品可能还需数年才能面世。但这并不妨碍资本反赌长线,AMI首轮超10亿美元的融资,几乎汇聚了所有你知道的业界与跨界巨头。

空间智能派:李飞飞的“三维重建”路线
如果说JEPA派关注“时间”维度的预测,那么李飞飞创立的World Labs,则选择了攻克“空间”维度。这两条路线的分歧,从底层逻辑就已注定。
JEPA认为智能的核心是在抽象层面进行因果推理,因此不执着于像素细节。而李飞飞团队的出发点不同:真正的智能需要对三维世界有“显式”的理解,包括几何结构、深度信息和物体间的空间关系。

打个比方:JEPA想教会AI“球会从桌上滚下去”这个规律;World Labs则想教会AI“桌子有多高、球在桌面什么位置、地板距离桌面多远”。前者关心事件逻辑,后者关心空间结构。
这种差异直接体现在产品上。World Labs于2025年11月发布的首款产品Marble,输入文字、图片、视频甚至粗糙的3D草图,输出的不是一个视频,而是一个可编辑、可导航、可导出的完整3D世界。用户可以旋转视角、移动物体、改变光照,并将结果导出为高斯溅射、三角网格或视频格式,直接用于游戏引擎或影视制作。

这里有个关键的技术细节:许多视频生成模型画面精美,但本质是逐帧“编故事”,帧与帧之间缺乏统一的3D结构支撑。而Marble生成的3D场景具备“空间一致性”,底层维护着一个真实的空间表示,因此视角转换后,世界依然稳固。
团队的基因决定了技术路线。联合创始人Ben Mildenhall是NeRF(神经辐射场)的发明者,另一位联创Christoph Lassner是3D图形专家。这使World Labs从一开始就走上了“显式3D重建”的道路。
2026年2月,World Labs完成10亿美元融资,投资方包括NVIDIA、AMD和Autodesk。Marble也已面向影视、游戏等商业场景开放。当然,它也有局限:生成的3D世界在连续探索后可能出现视觉变形或“幻觉”。这与JEPA路线形成对比:World Labs擅长重建空间的“样子”,但对空间中“会发生什么”的物理理解尚在初期。李飞飞将最终目标定义为“空间智能”,即AI不仅能看懂结构,还能在其中推理、规划和交互,这条路显然还很长。
学习型仿真派:DeepMind的“造梦”工厂
DeepMind的Genie 3,走的是一条更“魔法”的路线。它比“理解世界”和“重建空间”更进一步,目标是:直接制造一个足够真实、可实时交互的虚拟环境,让AI在里面“练级”。
输入“在暴风雨中的威尼斯运河划船”,它就能生成一个720p、24fps的3D环境。用户可以控制角色移动、操作物品、甚至改变天气。更关键的是,这个环境具有“对象持久性”:打碎的花瓶,碎片会留在地上,你离开再回来,它还在那里。
这对计算架构是巨大挑战。研究主管Shlomi Fruchter提到,要实现实时交互,模型需要每秒多次回溯查询一分钟前的信息。因此,Genie 3很像一个运行中的游戏引擎,但也常被误解为引擎替代品。事实上,它并没有硬编码的物理引擎,所有行为都是模型从数据中“学”出来的。这带来了灵活性,模型能自行推断物理规则;但也牺牲了精确性,其物理模拟不如传统引擎稳定。目前,其场景连贯性只能维持几分钟。
造出环境只是第一步,训练AI智能体则需要另一个工具:Dreamer。DreamerV4于2025年10月发布,是一个完全在“想象”(模型内部世界)中学习的世界模型框架。它成为首个纯靠离线数据就在《我的世界》中从零挖到钻石的AI。完成这个需要连续两万多次精确操作的任务,DreamerV4使用的数据量仅为之前顶尖模型的百分之一。

DeepMind的终极构想,是将“生成的环境”与“虚拟的智能体”结合,在虚拟但闭环的世界里训练AI。这条路线的核心假设是:即便像素级生成不等于物理理解,但只要环境足够真实多样,在其中练就的智能体就有可能泛化到现实。这是一个大胆且尚未被验证的赌注。
“卖水卖铲”派:英伟达的基建野心
前面各派追逐技术理想,但都绕不开一个现实:训练世界模型需要海量数据和算力。谁来提供这些基础设施?英伟达的Cosmos平台给出了答案:你们负责造梦,我来提供造梦的工具链。

Cosmos是一个系统工程。其数据处理管线Cosmos Curator,能在14天内处理2000万小时视频,将传统需要数年的流程极度压缩。视觉Tokenizer则将视频帧高效切分为可计算的表征,压缩率比业界方案高8倍,兼容多种视频格式。
最核心的是三个预训练模型家族:预测未来状态的Cosmos Predict、迁移仿真到真实的Cosmos Transfer、以及规划推理的Cosmos Reason。这些模型均免费开放,开发者可直接下载使用。

自2025年1月发布以来,Cosmos迭代迅速。小鹏用它做自动驾驶仿真,Figure AI等机器人公司用它生成训练数据。这背后仍是英伟达的经典策略:用免费开放的软件生态,锁定硬件护城河。使用Cosmos训练世界模型,最终离不开英伟达的芯片与CUDA生态。
黄仁勋在CES上的断言点明了其野心:世界基础模型之于物理AI,犹如大语言模型之于生成式AI。他押注的是,无论哪条技术路线最终胜出,开发者手中拿着的,最好都是英伟达的“铲子”。
主动推断派:来自神经科学的“异端”
并非所有玩家都遵循深度学习的主流范式。Verses公司代表的“主动推断”派,就是一个来自神经科学的“异端”。其首席科学家卡尔·弗里斯顿是“自由能原理”的提出者,该理论认为:所有生命体的行为,本质都在做同一件事——不断生成对外部世界的预测,并通过行动来减少预测与现实之间的误差。

这与主流AI的“强化学习”(追求奖励最大化)逻辑截然不同。主动推断追求的是“意外最小化”。简化来说,一个是“逐利”,一个是“避险”。
一个形象的比喻:强化学习像被胡萝卜引导前进的驴;主动推断则像在陌生城市探索的旅人,不断修正内心地图,让对下一个路口的预期更准确。前者由外部目标驱动,后者由内在的好奇与确定性需求驱动。

基于此,Verses开发了AXIOM框架。其首要特点是“对象中心化”:将世界建模为离散对象及其关系的集合,而非一个高维向量。这更接近人类认知——我们看到的是“椅子在桌子旁”,而非像素矩阵。
其次是采用“贝叶斯推理”:用概率分布表示信念,通过消息传递更新,而非梯度下降。这使得系统能坦然承认“不确定”。例如,仓库机器人遇到陌生物体时,知道自己“不认识它”,而不是强行将其归类并执行可能错误的操作。
去年6月,Verses在雅达利游戏的基准测试中,以远少于DeepMind DreamerV3的数据量,用1/8的步数完成了任务。更激进的是,AXIOM无需预训练,机械臂更换工具后能实时重新规划。其商业化产品Genius瞄准金融、机器人等领域,用于对不确定性建模。

正如AI批评家Gary Marcus所言,许多机器学习研究者对在模型中引入先验结构抱有“暴力的厌恶”,但Verses没有这个包袱。毕竟,生物智能经过数十亿年进化,其机制远非梯度下降可以概括。尽管短期内难以成为主流,但若世界模型真的需要更接近生物原理,这一派或许会后来居上。
写在最后
五条技术路线,从不同维度回应着同一个根本问题:世界模型究竟是什么,又该如何构建?它们并非彼此排斥,更像是在拼凑同一幅宏大拼图的不同部分。

世界模型在当下的爆发并非偶然。背后有几股推力:大语言模型遭遇瓶颈,边际收益递减,幻觉、推理与多模态理解仍是硬伤,资本需要新叙事;具身智能崛起,机器人、自动驾驶等领域亟需AI与物理世界交互,纯文本模型力有不逮;此外,高质量物理交互数据稀缺昂贵,在仿真中生成无限数据,被视作终极解决方案。
杨立昆曾断言,五年后无人会再用今天这样的大语言模型。此言虽显夸张,但对趋势的洞察不无道理:AI已“读万卷书”,接下来需“行万&里路”。而世界模型,正致力于成为它的眼睛、大脑与四肢。
至于五大门派谁将胜出,答案或许并不唯一。长远来看,融合与杂交可能是必然出路。毕竟,真正的智能,从来不止一种形态。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
什么是RPA?为什么用RPA?RPA如何工作?
什么是RPA 简单来说,RPA是一种在商业逻辑与规则控制下,用来精简和优化流程的自动化系统。我们常把它比作一位不知疲倦的“数字员工”,专门用来高效处理那些重复性强、规则明确的任务。想一想后台办公室的场景:许多具备平均知识水平的员工,每天不得不花费大量时间在冗长、乏味且令人厌倦的例行程序上。RPA工具
不破不立,让RPA像Excel一样方便易用
RPA:从“专家可用”到“人人可用”,一道亟待跨越的鸿沟 提到RPA(机器人流程自动化),很多人的第一印象是“非侵入式”和“高效”。确实,这项技术能在不改造原有系统的前提下,为企业实现流程自动化,单凭这一点就赢得了大量青睐。但它的魅力远不止于此。 它的可扩展性和灵活性,让它能够适配千行百业的数字化转
RPA技术在营销业务中的应用案例
RPA技术在营销业务中的应用案例 (1)智能停电全流程机器人 公变用户的停电流程,过去是个典型的“磨人”活。每天要重复登录好几个系统,处理异常派单,还得不停地和现场人员电话沟通,手动核对、搜索各种信息。这一套组合拳打下来,不仅耗费大量人力,更头疼的是,一旦遇到人员流动或者手一抖出了操作误差,公变停电
RPA技术的概念、优势和技术架构
概念 说起机器人流程自动化(RPA),它其实是一种利用“软件机器人”来代劳那些高度重复性工作的技术。简单理解,它就是在你电脑里运行的一个程序,或者说一个虚拟的“数字员工”。它的核心任务,就是模拟人类与计算机的交互方式,把那些繁琐、复杂又量大的事务性工作承接过来,从而在降低人力成本的同时,大幅提升整体
基于RPA的财务共享服务中心资金管理系统框架
(一)RPA是什么 RPA,也就是机器人流程自动化,是近年来在人工智能浪潮下兴起的一门自动化技术。简单说,它就像一个不知疲倦的“数字员工”,能够通过预设好的程序,模拟并执行我们人类在电脑上的各种操作。无论是登录系统、复制粘贴数据,还是核对报表,它都能一丝不苟地完成。 它的优势非常突出:可以按照设定7
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

