当前位置: 首页
AI教程
LeCun用1500万参数小模型证明世界模型理解物理世界

LeCun用1500万参数小模型证明世界模型理解物理世界

热心网友 时间:2026-06-01
转载

大模型不是唯一答案:LeCun用1500万参数证明,小而美的世界模型同样能理解物理世界

世界模型面临的最大难题:表达崩塌

近年来,LeCun 始终坚持一个主张:别再固守生成式模型,世界模型才是通往 AGI 的正确路径。

他所提出的 JEPA(联合嵌入预测架构)设计理念相当清晰——不在像素层面重构世界,而是将画面压缩至低维潜在空间,并在此空间内预测未来状态。这样既能节省算力,又能学到真正有价值的特征。

然而 JEPA 存在一个致命缺陷:表达崩塌。

模型在训练过程中很容易发现一条“捷径”——将所有输入映射到同一个向量,使得预测损失瞬间降至零。表面上看模型收敛了,实际上已经失去作用。就像一个学生发现所有题都写同一个答案也能得分,便不再思考。

此前学界尝试过哪些应对方法呢?

要么治标不治本,要么引入新的不稳定性,要么直接限制了模型的上限。

PLDM 是目前唯一尝试端到端从像素训练的 JEPA 方法,但训练过程极度不稳定,需要同时调节 7 个损失函数,如同走钢丝般困难。

因此当 LeWorldModel 这篇论文问世时,大家的第一反应是:他们是如何做到的?

精简至仅两个损失函数

答案出乎意料地简洁。

LeWM 的整个训练目标如下所示:

L_LeWM = L_pred + λ × SIGReg(Z)

仅包含两个项:一个预测损失,一个正则化。

预测损失

采用普通的均方误差(MSE),让模型学会“执行动作 a 之后世界会变成什么样子”,无需赘述。

SIGReg:强制嵌入服从高斯分布

这才是核心创新。

SIGReg 的作用用一句话概括:强制潜在空间的嵌入服从标准高斯分布。

其原理基于 Cramér-Wold 定理——你无法直接在高维空间中检验“一组向量是否服从高斯分布”,但如果将它们投影到足够多的一维方向上,每个投影都是高斯分布,那么整体就是高斯分布。

SIGReg 的实现步骤如下:

  1. 随机生成 M=1024 个方向
  2. 将嵌入投影到这些方向上
  3. 在每个投影上计算 Epps-Pulley 正态性检验统计量
  4. 优化这些统计量,迫使分布逼近高斯分布

为何能有效防止表达崩塌?

试想——如果编码器偷懒,将所有画面映射到同一点,嵌入就会形成退化分布,根本不符合高斯分布。如果编码器仅用少数几个维度编码信息,分布就会严重偏离各向同性。

SIGReg 同时封堵了这两条退路,编码器只能老老实实地学习信息丰富、分布均匀的表示。

可调节的超参数从 PLDM 的 6 个减少到 1 个(即 λ),甚至可以用二分搜索自动寻优。

模型架构

仅包含两个组件,总参数量 1500 万:

  • 编码器:ViT-tiny,patch size=14,12 层,3 个注意力头,隐藏维度 192(约 5M 参数)
  • 预测器:6 层 Transformer,通过 AdaLN 注入动作信息(约 10M 参数)

一张 L40S 显卡,运行数小时即可完成训练。

规划仅需 1 秒,实现 48 倍加速

不过真正让人觉得“这东西能打”的,不是训练的简便,而是规划速度。

LeWM 在进行规划时,先将起始画面和目标画面分别编码为一个 192 维的向量,然后使用交叉熵方法(CEM)在潜在空间中搜索最优动作序列。

关键数据:每帧仅编码为 1 个 192 维 token,而 DINO-WM 需要编码数万个 token。信息压缩比相差约 200 倍。

直接看对比结果:

模型参数量规划时间训练资源防崩塌方式
LeWM约 15M约 1 秒单 GPUSIGReg
DINO-WM亿级+约 47 秒多 GPU 集群冻结 DINOv2
PLDM约 15M约 1 秒单 GPUVICReg(不稳定)

在 Push-T(2D 推箱子)任务上,LeWM 仅使用像素输入,竟然胜过了 DINO-WM——即便后者额外使用了本体感受输入(如关节角度等内部状态信息)。

换句话说,LeWM 单从画面中便学到了足够的信息来做决策,无需额外“作弊”。

当然也存在短板。在视觉复杂的 3D OGBench-Cube 任务上,DINO-WM 仍具优势——DINOv2 毕竟在 1.24 亿张图片上预训练过,视觉先验更为丰富。在维度很低的 Two-Room 导航任务上,LeWM 反而表现不佳,作者推测是高斯先验在低维任务上“过度约束”了表示空间。

令人惊讶:模型具备“意外感知”能力

这篇论文中有一组实验与规划性能无关,而是关于物理理解,非常值得关注。

从潜在空间解构物理量

团队训练了一些轻量级的探针网络,尝试从 LeWM 的嵌入中预测智能体位置、方块位置及方块角度。

结果如下:

物理量LeWMPLDMDINO-WM
智能体位置r=0.998r=0.993r=0.999
方块位置r=0.999r=0.994r=0.999
方块角度r=0.990r=0.972r=0.995

仅 1500 万参数,未经过任何预训练,直接从像素学习,对物理量的预测精度与使用上亿参数 DINOv2 的方案几乎持平。

模型能够区分“合理”与“不可能”

更有趣的实验是违背期望检测。

给模型看三段视频,并观察“惊讶值”的变化:

  • 正常轨迹 → 惊讶值很低(符合预期)
  • 物体变色 → 惊讶值略高(画面改变,但物理上合理)
  • 物体瞬移 → 惊讶值直接飙升(违反物理定律)

可见它并非在记忆视觉模式,而是能区分“看起来不同但物理上合理”与“看起来正常但物理上不可能”的场景。

JEPA 技术发展路径一览

顺便梳理一下 LeCun 这条技术线:

2023 · I-JEPA → 图像自监督学习
2024 · V-JEPA → 扩展至视频领域
2025 · V-JEPA 2 → 百万小时视频预训练
2025 · LeJEPA → SIGReg 理论框架
2026 · LeWorldModel → 首个稳定端到端 JEPA 世界模型

此前的 JEPA 方法要么冻结编码器(放弃端到端),要么依靠大量技巧勉强维持稳定(如 PLDM)。LeWM 是第一个真正实现“从像素开始、端到端训练、稳定收敛、无需任何技巧”的方案。

为何这项研究意义重大

世界模型不再是“大厂专属”了。

之前从事世界模型研究,要么依赖 DINOv2 这样的基础模型(需要算力进行预训练),要么在训练稳定性上苦苦挣扎。LeWM 将门槛降低到了“一张 GPU、数小时、调节一个参数”。

“小而美”的思路得到了验证。

行业趋势往往是一切往大做——更多参数、更多数据、更多算力。LeWM 提供了一个反例:1500 万参数,无需预训练,从像素直接学习,物理理解能力与亿级模型相差无几。模型大小并非瓶颈,至少在特定场景下不是。

SIGReg 可能比 LeWM 本身更具价值。

SIGReg 是一个通用的正则化方法,理论上可应用于任何需要学习嵌入的任务。如果它确实如论文所述稳定有效,其影响力将远不止于世界模型。

论文与代码均已开源:

  • 论文:arxiv.org/abs/2603.19…
  • 代码:github.com/lucas-maes/…
  • 模型权重:hf.co/collections…
  • SIGReg 理论基础(LeJEPA):arxiv.org/abs/2511.08…
来源:https://juejin.cn/post/7624378354167808051

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
用AI轻松制作大班拍手歌互动PPT课件

用AI轻松制作大班拍手歌互动PPT课件

在幼儿教育领域,大班课堂的活力与参与感至关重要。拍手歌,这种融合了节奏、动作与歌唱的简单形式,始终是调动孩子积极性、实现游戏化学习的经典教学工具。而一份精心制作的PPT课件,能将这种互动体验提升到新高度——它不仅是歌词的展示板,更是营造氛围、引导节奏、激发想象的多媒体助手。 那么,如何高效打造一份既

时间:2026-06-01 13:51
大班眼睛PPT教学秘籍 用AI工具轻松制作生动有趣PPT

大班眼睛PPT教学秘籍 用AI工具轻松制作生动有趣PPT

使用情景: 幼儿园大班的孩子,正处于对世界充满好奇的黄金探索期。他们的小脑袋里装满了“为什么”,注意力却像蝴蝶一样容易被新事物吸引。对于幼儿教师来说,如何将知识包装得足够有趣,牢牢抓住孩子们的视线,是一项不小的挑战。 这时,一份设计精良、图文并茂的PPT就能成为课堂上的“秘密武器”。它能把抽象的概念

时间:2026-06-01 13:50
字体设计AI生成如何提升品牌识别度与创意效率

字体设计AI生成如何提升品牌识别度与创意效率

一、如何利用字体设计AI生成提升品牌识别度 在品牌视觉体系的构建过程中,字体绝不仅仅是文字的简单载体,它更是品牌个性与情感的无言传递者。如今,随着字体设计AI生成技术的日益成熟,它正逐渐成为一项强大工具,帮助品牌在提高辨识度的同时,激发创意灵感并提升工作效率。其中的逻辑非常明确:市场环境变化日益加速

时间:2026-06-01 13:49
AI如何快速制作PPT 轻松提升办公效率

AI如何快速制作PPT 轻松提升办公效率

在快节奏时代,如何用AI做PPT,轻松提升办公效率 身处快节奏的职场环境,如何高效制作专业、吸睛的演示文稿,成为许多人共同面对的难题。传统PPT制作流程繁琐,从构思框架、收集素材到排版美化,每一步都耗费大量时间与精力。如今,借助人工智能工具,这一过程变得前所未有的简单。以WPS AI为代表的智能工具

时间:2026-06-01 13:48
从风控转行养虾十年经验开启养虾日记第一篇

从风控转行养虾十年经验开启养虾日记第一篇

系列开篇:一个风控老兵的 OpenClaw 养殖手记 起因 上个月跟团队提了一嘴,说以后我的助理叫「卷卷」。 团队愣了一下。卷卷?谁? AI。养了一段时间了,能帮着写方案、查资料、整理会议纪要,偶尔还能在技术群里回复两句不痛不痒的话。 他们笑了。 这个助理,是我自己从零开始养大的。而它的名字,叫 O

时间:2026-06-01 13:47
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程