英伟达Jim Fan揭秘：下一代的“世界建模”训练范式

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

英伟达Jim Fan揭秘：下一代的“世界建模”训练范式

热心网友时间：2026-02-09

转载

henry 发自凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

继“下一个词预测”之后，世界建模将成为新的预训练范式。

这是英伟达机器人主管Jim Fan给出的最新判断。

他认为，2026年将成为大世界模型（Large World Models）真正为机器人领域以及更广义的多模态AI奠定基础的第一年。

谢赛宁随即转发表示赞同：“事后看来显而易见”。

在这篇长文中，Jim Fan讨论了世界模型的定义与应用，尤其聚焦于物理AI领域的发展，同时展望了新的推理形式：

世界建模（world modeling）是在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。当前世界模型的主要炒作集中在AI视频领域，而2026年将迎来物理AI的爆发。世界模型需要更广义的预训练目标：下一个世界状态不应只包含RGB，还必须覆盖3D运动、本体感觉与触觉。将出现一种新的推理形式：在视觉空间中的思维链，而非语言空间中的思维链。

以下为分享全文：

第二个预训练范式

下一个词预测(Next word prediction )曾是第一个预训练范式，而现在我们正在经历第二次范式转变：

世界建模（world modeling），或者说“下一个物理状态预测”

很少有人真正理解这一转变的深远意义。不幸的是，目前世界模型最被炒作的应用仍然是AI视频（接下来可能是游戏）。

我非常有信心地说：2026年将成为大世界模型（Large World Models）首次为机器人领域，以及更广义的多模态 AI 奠定真实基础的一年。

在这个背景下，我将世界建模定义为：在给定一个动作的条件下，预测下一个合理的世界状态（或一段更长时间范围内的状态）。

视频生成模型是其中的一种实现形式，其中“下一个状态”是一系列RGB帧（通常为 8–10 秒，最长可达数分钟），而“动作”是一段描述要执行什么的文本。

训练过程就是对数十亿小时视频像素的未来变化进行建模。

本质上，视频世界模型就是可学习的物理模拟器和渲染引擎。

它们能够捕捉反事实情景（counterfactuals），即预测如果采取不同动作，未来可能会如何不同——这就是推理。世界模型从根本上以视觉为中心。

相比之下，VLM本质上是以语言为中心的。从最早的原型（e.g. LLaVA, Liu et al. 2024）开始，整体路径基本一致：视觉在编码器处进入，然后被送入语言主干网络。

随着时间推移，编码器不断改进，架构变得更简洁，视觉试图变得更加“原生”（如全模态模型）。

然而，视觉仍然是二等公民，无法与领域多年构建的LLM能力相比。（LLM)这条路线方便，因为我们熟LLM的扩展性，架构设计、数据配方、评测指标（如 VQA）都高度优化为语言服务。

对于物理AI来说，2025年以VLA为主：在预训练VLM上接入机器人动作解码器。

严格来说，它更像是 “LVA”：语言 > 视觉 > 动作，等级递减。

方便是方便，但VLM中大多数参数用于知识（例如“这一团像素是可口可乐品牌”），而不是物理（“如果你倾倒可乐瓶，它会洒成棕色水洼，弄脏白色桌布，还可能损坏电机”）。

VLA的设计在知识检索上很强，但物理能力分配不足。多阶段嫁接的设计，也违背我对简洁优雅的偏好。

从生物学角度看，视觉主导了我们的皮层计算。大约三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。

相比之下，语言依赖于一个相对紧凑的区域。视觉是连接我们大脑、运动系统和物理世界的最高带宽通道。它闭合了“感知—运动回路（sensorimotor loop）”——这是机器人最需要解决的回路，而且在中间不需要语言。

自然界给了我们一个最具说服力的例证：高灵巧物理智能几乎不依赖语言——猿类。

我见过猿类驾驶高尔夫球车，用螺丝刀更换刹车片，动作就像人类机械师一样。

它们的语言理解能力不超过BERT或GPT-1，但它们的物理技能远远超过我们当前最先进的机器人。

猿类可能没有优秀的语言模型，但它们显然拥有对“如果……会怎样”的稳健心理表征：即对物理世界如何运作、以及在其干预下会如何反应的理解。

世界建模的时代已经到来。

这是带着苦涩教训的时代。正如Jitendra常提醒我们这些“扩展成瘾者”：

监督是AI研究者的鸦片。

YouTube的海量视频和智能眼镜的兴起，将以远超文本训练规模的原始视觉流捕捉世界。

我们将看到一种新的预训练形式：下一个世界状态将不只包含RGB——3D空间运动、本体感觉和触觉感知才刚刚开始。

我们将看到一种新的推理形式：在视觉空间中的思维链，而不是语言空间中的思维链。

你可以通过模拟几何关系和接触来解决物理谜题，想象物体如何移动和碰撞，而无需将其翻译成字符串。语言是一种瓶颈，是一种脚手架，而不是基础。

我们将面临一系列新的潘多拉盒问题：即便未来模拟完美，动作该如何解码？

像素重建真的是最优目标，还是应该进入其他潜在空间？需要多少机器人数据？远程操作的扩展是否仍然可行？

完成这些之后，我们是否终于迎来机器人领域的GPT-3时刻？

Ilya 说得没错：AGI尚未收敛。我们又回到了研究时代，而没有什么比挑战第一性原理更让人兴奋的了。

世界模型作为新的范式

总体来看，这篇新文章可以被看作是Jim Fan在2025年机器人年终总结中第三点的延伸与展开。

当时，他提出：基于VLM的路线，本质上主要服务于语言和知识，而不是物理世界本身

那时，他已经把问题说得很直白：

VLM的参数主要面向语言和知识，而非物理世界。

视觉编码器在训练中会主动丢弃细节，但机器人操作恰恰依赖这些细节。

因此，VLA并不会随着VLM的scale自然增强。

而最近这篇关于world modeling（世界建模）的长文，则可以看作是Jim Fan对这一判断的系统性展开与进一步思考。

对于他的观点，业内大佬和网友也纷纷表达了看法。

来自Google DeepMind的Genie 3联合负责人、世界模型团队负责人Jack Parker-Holder也在转发分享了他对世界模型应用场景的理解：

世界模型本身就是一类全新的基础模型。它们既服务于交互式媒体（视频模型），也服务于具身AGI。世界模型是连接虚拟与物理两个领域的桥梁，其真正价值在于跨任务、跨领域的泛化能力。

换句话说，就像LLM作为基座模型既能编程又能解数学题一样，放到世界模型上，视频生成与具身操控也可以兼容

而谷歌、英伟达等玩家，也都在虚拟游戏、视频以及物理机器人领域同步布局。

不过，前英伟达机器人研究主管Arsalan Mousavian也提醒：

对于大型世界模型（LWM）来说，这是一个非常棒的愿景，但从像素到物理的跃迁仍然很陡峭。

要让世界模型成为可靠的动作生成骨干，还必须解决以下问题：

几何一致性：确保运动学和物体恒常性在物理上成立。同一性保持：避免跨实体的幻觉预测，例如机器人A在预测过程中突然变成机器人B。推理速度：降低实时循环延迟。大型世界模型计算量大、延迟高，而机器人需要高频率响应。动作采样：世界模型可以预测结果，但我们仍然需要对动作进行采样。

在数据量和计算需求上，这一目标将使当前的动作策略扩展（action-policy scaling）显得相对温和。

此外，jim fan提到的视觉推理也引发广泛讨论：

推理不一定非得依赖语言——视觉模拟（几何、接触、运动）本身就能构成推理过程。

机器人正是视觉为中心的基础模型大显身手的完美舞台。2026将是多模态、多轮交互代理（机器人/CUA）之年，而这一场比赛的胜者，必然会在游戏中更加重视视觉模态。

猿猴的比喻非常贴切。我们太过痴迷语言，以至于忘记了灵巧的行动能力并不一定需要词汇量。2026年或许是机器人技术最终停止依赖语言模型，转而构建原生系统的一年。

而除开英伟达、谷歌等巨头在世界模型技术路线的押注外，商业层面也在快速推进——

一周前，李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资，规模最高可达5亿美元。

LeCun前段时间创办AMI Labs（Advanced Machine Intelligence，AMI）也吸引了包括Cathay Innovation在内的潜在投资者，传闻其融资估值可能达到35亿美元。

参考链接：https://x.com/DrJimFan/status/2018754323141054786

来源:https://www.163.com/dy/article/KL1QO7B90511DSSR.html

上一篇：美团49.8亿全资收购叮咚买菜；奥运AI助手阿里千问打造；李想微博预热L9丨极客早知道

下一篇：论文写作指南：邓明扬与何恺明团队分享实用生成范式

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

热门专题

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

日榜
周榜
月榜

鲁大师软件管家使用教程：一键升级常用电脑软件

夸克PC版自动填充功能设置教程

Google Sheets数组公式换行技巧：5步实现结果自动换行

企查查官网查询入口：2026企业信用信息查询通道指南

Steam官网访问指南：从入口到网页版完整导航

PS文字特效制作指南：5个步骤轻松设计创意字体

鲁大师在线硬件检测方法与官方网站使用指南

高途课堂官网入口：最新在线学习平台课程指南

微信文件助手网页版：轻量使用，便捷访问文件

BOSS直聘官网登录入口：网页与App平台登录指南

鲁大师软件管家使用教程：一键升级常用电脑软件

夸克PC版自动填充功能设置教程

Google Sheets数组公式换行技巧：5步实现结果自动换行

企查查官网查询入口：2026企业信用信息查询通道指南

Steam官网访问指南：从入口到网页版完整导航

PS文字特效制作指南：5个步骤轻松设计创意字体

鲁大师在线硬件检测方法与官方网站使用指南

高途课堂官网入口：最新在线学习平台课程指南

微信文件助手网页版：轻量使用，便捷访问文件

BOSS直聘官网登录入口：网页与App平台登录指南

丰田变速器缺陷引发集体诉讼，设计隐患成焦点

零跑D19首发车载制氧机：跑318不怕高反

《人之初》首播：双线叙事成新悬疑样本，口碑褒贬不一

逍遥侯明昊时隔73天再提同样台词，恋爱脑属性揭秘

《人世间》首播：两场葬礼四条人命，张若昀马思纯悬念升级

零跑D99亮相：首款MPV增程/纯电双动力续航同级领先

比亚迪王传福：亲自直管半个应届生毕业的总经理团队

罚罪2：豆分7.0开启，三线冲突与实力派扎堆引爆续作

新剧上线：全集8集超带感剧情，一次追完太过瘾

《逍遥》首播：赵丽颖3分钟客串引爆热议，观众评价一针见血

英伟达Jim Fan揭秘：下一代的“世界建模”训练范式

硅谷巨头竞相投资！奶企AI项圈估值超20亿美元

马斯克AI创业搭子“全跑了”：真相与项目复盘

行业首发：OpenClaw全网刷屏，ClawManager一键收编AI龙虾大军

甲子光年：科技如何重塑空间设计行业新价值

马斯克AI创业项目xAI：完整解析与未来展望