世界模型五大门派，围攻光明顶

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

世界模型五大门派，围攻光明顶

热心网友时间：2026-04-22

转载

世界模型“五大门派”：谁在定义AI的下一站？

最近AI圈的热钱，似乎都涌向了一个新方向。看看这几条密集的新闻：

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

春节后，图灵奖得主杨立昆的新公司 AMI 拿了 10.3 亿美元融资，创下欧洲 AI 公司种子轮纪录；
AMI 拿钱几周前，李飞飞创办的 World Labs 也宣布了 10 亿美元融资；
本周早些时候，极佳视界获得数十亿元融资，估值超百亿；
昨天，阿里巴巴发布了世界模型「快乐生蚝」HappyOyster；
今天，群核科技在港交所敲钟。

这些看似分散的事件，实则指向同一个核心赛道：世界模型。

杨立昆曾有个引发热议的观点：「大语言模型在通往超级智能的路上是条死胡同。」这话乍听像是全盘否定，但加上“实现AGI”这个前提，细想却点出了一个关键瓶颈：ChatGPT能写代码能解题，却未必理解物理世界的基本规律。让它描述“苹果落地”，它能说得头头是道；但追问苹果为何落地，它可能只是在复述训练文本，而非真正“理解”重力。

问题的根源在于数据维度：大语言模型啃的是二维、离散的互联网文本，而真实世界是三维、连续且充满物理规则的。要让AI真正智能，就必须让它学会“理解”而不仅仅是“描述”这个世界。这，正是世界模型成为顶级实验室和资本下一个攻坚高地的原因。

不过，“世界模型”这个词眼下像个筐，大家往里装的东西却各不相同。有的在搞视频预测，有的在建3D场景，有的在搭仿真平台，还有的从神经科学找灵感……路线纷繁，共识未成。

Meta的研究科学家Zhuokai Zhao在社交平台上梳理了当前世界模型研究的“五大门派”，为我们提供了一份清晰的路线图。

这五条技术路径究竟有何不同？各自又押注着怎样的未来？下文将结合多方资料，为你逐一拆解。

JEPA 派：杨立昆的“抽象预测”哲学

JEPA，全称“联合嵌入预测架构”，是杨立昆力推的新AI范式。其核心思想颇具哲学意味：让AI像人类一样，通过“观察”来学习世界运行的抽象规律，而不是死记硬背每一个像素或单词。换句话说，AI无需记住每片树叶的位置，只需要理解“风会吹落树叶”这个因果规律。

在杨立昆看来，像Sora这类逐帧预测视频像素的模型，物理上就不可能完美——在一个充满随机性的世界里，精确预测每一片树叶的飘落轨迹是不现实的。JEPA的解法是“升维思考”：放弃在像素层面较劲，转而在一个抽象的“表征空间”里进行预测。

具体来说，先用编码器将视频转换成高维的数学表示（潜在空间），然后在这个抽象空间里预测“接下来会发生什么”。例如，预测“球会从桌上滚落”这一符合物理规律的事件结果，而非生成球滚落的每一帧具体画面。

这条路线的代表作是V-JEPA 2。这个拥有12亿参数的模型，基于100万小时无标签视频进行预训练。其惊人之处在于数据效率：仅需62小时的机器人实际操作数据，就能实现“零样本”动作规划。在陌生环境中操作陌生物体，成功率可达65-80%。相比之下，传统机器人学习方法往往需要数千小时的示范数据。

杨立昆的理念很明确：如果学到的“表征”足够好，就无需为每个新任务从头训练。当然，理想落地需要时间。创立AMI后，这位图灵奖得主也坦言，其商业化产品可能还需数年才能面世。但这并不妨碍资本反赌长线，AMI首轮超10亿美元的融资，几乎汇聚了所有你知道的业界与跨界巨头。

空间智能派：李飞飞的“三维重建”路线

如果说JEPA派关注“时间”维度的预测，那么李飞飞创立的World Labs，则选择了攻克“空间”维度。这两条路线的分歧，从底层逻辑就已注定。

JEPA认为智能的核心是在抽象层面进行因果推理，因此不执着于像素细节。而李飞飞团队的出发点不同：真正的智能需要对三维世界有“显式”的理解，包括几何结构、深度信息和物体间的空间关系。

打个比方：JEPA想教会AI“球会从桌上滚下去”这个规律；World Labs则想教会AI“桌子有多高、球在桌面什么位置、地板距离桌面多远”。前者关心事件逻辑，后者关心空间结构。

这种差异直接体现在产品上。World Labs于2025年11月发布的首款产品Marble，输入文字、图片、视频甚至粗糙的3D草图，输出的不是一个视频，而是一个可编辑、可导航、可导出的完整3D世界。用户可以旋转视角、移动物体、改变光照，并将结果导出为高斯溅射、三角网格或视频格式，直接用于游戏引擎或影视制作。

这里有个关键的技术细节：许多视频生成模型画面精美，但本质是逐帧“编故事”，帧与帧之间缺乏统一的3D结构支撑。而Marble生成的3D场景具备“空间一致性”，底层维护着一个真实的空间表示，因此视角转换后，世界依然稳固。

团队的基因决定了技术路线。联合创始人Ben Mildenhall是NeRF（神经辐射场）的发明者，另一位联创Christoph Lassner是3D图形专家。这使World Labs从一开始就走上了“显式3D重建”的道路。

2026年2月，World Labs完成10亿美元融资，投资方包括NVIDIA、AMD和Autodesk。Marble也已面向影视、游戏等商业场景开放。当然，它也有局限：生成的3D世界在连续探索后可能出现视觉变形或“幻觉”。这与JEPA路线形成对比：World Labs擅长重建空间的“样子”，但对空间中“会发生什么”的物理理解尚在初期。李飞飞将最终目标定义为“空间智能”，即AI不仅能看懂结构，还能在其中推理、规划和交互，这条路显然还很长。

学习型仿真派：DeepMind的“造梦”工厂

DeepMind的Genie 3，走的是一条更“魔法”的路线。它比“理解世界”和“重建空间”更进一步，目标是：直接制造一个足够真实、可实时交互的虚拟环境，让AI在里面“练级”。

输入“在暴风雨中的威尼斯运河划船”，它就能生成一个720p、24fps的3D环境。用户可以控制角色移动、操作物品、甚至改变天气。更关键的是，这个环境具有“对象持久性”：打碎的花瓶，碎片会留在地上，你离开再回来，它还在那里。

这对计算架构是巨大挑战。研究主管Shlomi Fruchter提到，要实现实时交互，模型需要每秒多次回溯查询一分钟前的信息。因此，Genie 3很像一个运行中的游戏引擎，但也常被误解为引擎替代品。事实上，它并没有硬编码的物理引擎，所有行为都是模型从数据中“学”出来的。这带来了灵活性，模型能自行推断物理规则；但也牺牲了精确性，其物理模拟不如传统引擎稳定。目前，其场景连贯性只能维持几分钟。

造出环境只是第一步，训练AI智能体则需要另一个工具：Dreamer。DreamerV4于2025年10月发布，是一个完全在“想象”（模型内部世界）中学习的世界模型框架。它成为首个纯靠离线数据就在《我的世界》中从零挖到钻石的AI。完成这个需要连续两万多次精确操作的任务，DreamerV4使用的数据量仅为之前顶尖模型的百分之一。