当前位置: 首页
AI
英伟达Jim Fan揭秘:下一代的“世界建模”训练范式

英伟达Jim Fan揭秘:下一代的“世界建模”训练范式

热心网友 时间:2026-02-09
转载

henry 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

继“下一个词预测”之后,世界建模将成为新的预训练范式。

这是英伟达机器人主管Jim Fan给出的最新判断。



他认为,2026年将成为大世界模型(Large World Models)真正为机器人领域以及更广义的多模态AI奠定基础的第一年。

谢赛宁随即转发表示赞同:“事后看来显而易见”。



在这篇长文中,Jim Fan讨论了世界模型的定义与应用,尤其聚焦于物理AI领域的发展,同时展望了新的推理形式:

世界建模(world modeling)是在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态)。当前世界模型的主要炒作集中在AI视频领域,而2026年将迎来物理AI的爆发。世界模型需要更广义的预训练目标:下一个世界状态不应只包含RGB,还必须覆盖3D运动、本体感觉与触觉。将出现一种新的推理形式:在视觉空间中的思维链,而非语言空间中的思维链。

以下为分享全文:

第二个预训练范式

下一个词预测(Next word prediction )曾是第一个预训练范式,而现在我们正在经历第二次范式转变:

世界建模(world modeling),或者说“下一个物理状态预测”

很少有人真正理解这一转变的深远意义。不幸的是,目前世界模型最被炒作的应用仍然是AI视频(接下来可能是游戏)。

我非常有信心地说:2026年将成为大世界模型(Large World Models)首次为机器人领域,以及更广义的多模态 AI 奠定真实基础的一年。

在这个背景下,我将世界建模定义为:在给定一个动作的条件下,预测下一个合理的世界状态(或一段更长时间范围内的状态)。

视频生成模型是其中的一种实现形式,其中“下一个状态”是一系列RGB帧(通常为 8–10 秒,最长可达数分钟),而“动作”是一段描述要执行什么的文本。

训练过程就是对数十亿小时视频像素的未来变化进行建模。

本质上,视频世界模型就是可学习的物理模拟器和渲染引擎。

它们能够捕捉反事实情景(counterfactuals),即预测如果采取不同动作,未来可能会如何不同——这就是推理。世界模型从根本上以视觉为中心。

相比之下,VLM本质上是以语言为中心的。从最早的原型(e.g. LLaVA, Liu et al. 2024)开始,整体路径基本一致:视觉在编码器处进入,然后被送入语言主干网络。

随着时间推移,编码器不断改进,架构变得更简洁,视觉试图变得更加“原生”(如全模态模型)。

然而,视觉仍然是二等公民,无法与领域多年构建的LLM能力相比。(LLM)这条路线方便,因为我们熟LLM的扩展性,架构设计、数据配方、评测指标(如 VQA)都高度优化为语言服务。

对于物理AI来说,2025年以VLA为主:在预训练VLM上接入机器人动作解码器。

严格来说,它更像是 “LVA”:语言 > 视觉 > 动作,等级递减。

方便是方便,但VLM中大多数参数用于知识(例如“这一团像素是可口可乐品牌”),而不是物理(“如果你倾倒可乐瓶,它会洒成棕色水洼,弄脏白色桌布,还可能损坏电机”)。

VLA的设计在知识检索上很强,但物理能力分配不足。多阶段嫁接的设计,也违背我对简洁优雅的偏好。

从生物学角度看,视觉主导了我们的皮层计算。大约三分之一的大脑皮层用于在枕叶、颞叶和顶叶区域处理像素。

相比之下,语言依赖于一个相对紧凑的区域。视觉是连接我们大脑、运动系统和物理世界的最高带宽通道。它闭合了“感知—运动回路(sensorimotor loop)”——这是机器人最需要解决的回路,而且在中间不需要语言。

自然界给了我们一个最具说服力的例证:高灵巧物理智能几乎不依赖语言——猿类。

我见过猿类驾驶高尔夫球车,用螺丝刀更换刹车片,动作就像人类机械师一样。

它们的语言理解能力不超过BERT或GPT-1,但它们的物理技能远远超过我们当前最先进的机器人。

猿类可能没有优秀的语言模型,但它们显然拥有对“如果……会怎样”的稳健心理表征:即对物理世界如何运作、以及在其干预下会如何反应的理解。

世界建模的时代已经到来。

这是带着苦涩教训的时代。正如Jitendra常提醒我们这些“扩展成瘾者”:

监督是AI研究者的鸦片。

YouTube的海量视频和智能眼镜的兴起,将以远超文本训练规模的原始视觉流捕捉世界。

我们将看到一种新的预训练形式:下一个世界状态将不只包含RGB——3D空间运动、本体感觉和触觉感知才刚刚开始。

我们将看到一种新的推理形式:在视觉空间中的思维链,而不是语言空间中的思维链。

你可以通过模拟几何关系和接触来解决物理谜题,想象物体如何移动和碰撞,而无需将其翻译成字符串。语言是一种瓶颈,是一种脚手架,而不是基础。

我们将面临一系列新的潘多拉盒问题:即便未来模拟完美,动作该如何解码?

像素重建真的是最优目标,还是应该进入其他潜在空间?需要多少机器人数据?远程操作的扩展是否仍然可行?

完成这些之后,我们是否终于迎来机器人领域的GPT-3时刻?

Ilya 说得没错:AGI尚未收敛。我们又回到了研究时代,而没有什么比挑战第一性原理更让人兴奋的了。

世界模型作为新的范式

总体来看,这篇新文章可以被看作是Jim Fan在2025年机器人年终总结中第三点的延伸与展开。

当时,他提出:基于VLM的路线,本质上主要服务于语言和知识,而不是物理世界本身



那时,他已经把问题说得很直白:

VLM的参数主要面向语言和知识,而非物理世界。

视觉编码器在训练中会主动丢弃细节,但机器人操作恰恰依赖这些细节。

因此,VLA并不会随着VLM的scale自然增强。

而最近这篇关于world modeling(世界建模) 的长文,则可以看作是Jim Fan对这一判断的系统性展开与进一步思考。

对于他的观点,业内大佬和网友也纷纷表达了看法。

来自Google DeepMind的Genie 3联合负责人、世界模型团队负责人Jack Parker-Holder也在转发分享了他对世界模型应用场景的理解:

世界模型本身就是一类全新的基础模型。它们既服务于交互式媒体(视频模型),也服务于具身AGI。世界模型是连接虚拟与物理两个领域的桥梁,其真正价值在于跨任务、跨领域的泛化能力。



换句话说,就像LLM作为基座模型既能编程又能解数学题一样,放到世界模型上,视频生成与具身操控也可以兼容

而谷歌、英伟达等玩家,也都在虚拟游戏、视频以及物理机器人领域同步布局。

不过,前英伟达机器人研究主管Arsalan Mousavian也提醒:

对于大型世界模型(LWM)来说,这是一个非常棒的愿景,但从像素到物理的跃迁仍然很陡峭。



要让世界模型成为可靠的动作生成骨干,还必须解决以下问题:

几何一致性:确保运动学和物体恒常性在物理上成立。同一性保持:避免跨实体的幻觉预测,例如机器人A在预测过程中突然变成机器人B。推理速度:降低实时循环延迟。大型世界模型计算量大、延迟高,而机器人需要高频率响应。动作采样:世界模型可以预测结果,但我们仍然需要对动作进行采样。

在数据量和计算需求上,这一目标将使当前的动作策略扩展(action-policy scaling)显得相对温和。

此外,jim fan提到的视觉推理也引发广泛讨论:

推理不一定非得依赖语言——视觉模拟(几何、接触、运动)本身就能构成推理过程。



机器人正是视觉为中心的基础模型大显身手的完美舞台。2026将是多模态、多轮交互代理(机器人/CUA)之年,而这一场比赛的胜者,必然会在游戏中更加重视视觉模态。



猿猴的比喻非常贴切。我们太过痴迷语言,以至于忘记了灵巧的行动能力并不一定需要词汇量。2026年或许是机器人技术最终停止依赖语言模型,转而构建原生系统的一年。



而除开英伟达、谷歌等巨头在世界模型技术路线的押注外,商业层面也在快速推进——

一周前,李飞飞创办的World Labs正以约50亿美元估值进行新一轮融资,规模最高可达5亿美元。

LeCun前段时间创办AMI Labs(Advanced Machine Intelligence,AMI)也吸引了包括Cathay Innovation在内的潜在投资者,传闻其融资估值可能达到35亿美元。

参考链接:https://x.com/DrJimFan/status/2018754323141054786

来源:https://www.163.com/dy/article/KL1QO7B90511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
硅谷巨头竞相投资!奶企AI项圈估值超20亿美元

硅谷巨头竞相投资!奶企AI项圈估值超20亿美元

新智元报道编辑:倾倾【新智元导读】这家新西兰的公司给奶牛戴上AI项圈,估值一年飙升20亿美元!Founders Fund领投,投资人抢到超额认购。它的秘密武器叫「Cowgorithm」——一套让牛自

时间:2026-03-29 18:49
马斯克AI创业搭子“全跑了”:真相与项目复盘

马斯克AI创业搭子“全跑了”:真相与项目复盘

智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此,xAI最初的12名联合创始人中,仅剩马斯克一人。诺丁的x

时间:2026-03-29 16:49
行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

行业首发:OpenClaw全网刷屏,ClawManager一键收编AI龙虾大军

新智元报道编辑:KingHZ【新智元导读】研究员三个月科研对话记录一夜清零,企业敏感数据公网裸奔……全行业首个企业级OpenClaw服务器部署管理方案ClawManager问世,让OpenClaw真

时间:2026-03-29 14:55
甲子光年:科技如何重塑空间设计行业新价值

甲子光年:科技如何重塑空间设计行业新价值

当“好看”成为基础门槛,头部设计公司开始把自己改造成一种新的组织:它既做创意,也做设计开源;既做项目,也做科技能力构建。矩阵纵横(Matrix Design)上海新总部的落成,正是这一产业价值锚点变

时间:2026-03-29 14:49
马斯克AI创业项目xAI:完整解析与未来展望

马斯克AI创业项目xAI:完整解析与未来展望

智东西作者 陈骏达编辑 李水青智东西3月29日报道,今天,xAI联合创始人罗斯·诺丁(Ross Nordeen)在社交平台X上悄然移除了自己的xAI员工认证,离开了这家以马斯克为首的AI独角兽。至此

时间:2026-03-29 12:49
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程