杨立昆团队最新研究世界模型在行动中自适应持续进化
杨立昆团队提出自适应潜在世界模型AdaJEPA,使机器人在执行任务时持续修正预测。每完成一步动作,模型利用真实观测校正偏差并重新规划,无需额外数据或标签。实验表明,AdaJEPA在分布内与分布外任务中均稳定提升规划成功率,尤其适应视觉、动力学等环境变化,推动世界模型在行动中持续进化。
潜在世界模型(Latent world models)听起来有点玄,但本质上就是让机器人在行动前先“脑补”一下未来,再据此规划动作。2022年,图灵奖得主杨立昆团队提出了联合嵌入预测架构(JEPA),通过在潜空间中预测未来状态的演化,把表征空间预测正式推上了世界模型研究的舞台中央。
问题在哪里呢?大多数世界模型训练完就“定型”了,参数不再更新,很难应对真实场景中常变的视觉条件和物理属性。编码器或预测器一旦失准,误差就会在后续规划中层层放大,最终导致任务崩盘。
反观我们人类,感觉运动自适应机制是适应环境变化的核心能力。我们会根据感官反馈校准动作预测,也会根据新经验不断调整对环境的理解。
受这一生物学启发,杨立昆团队提出了自适应潜在世界模型 AdaJEPA,它能在部署过程中持续学习。核心思路是把自适应嵌入模型预测控制(MPC)的闭环中:每执行一个动作,就用实际观测到的状态转移来校正模型,然后再用更新后的模型重新规划。

实验结果是,AdaJEPA 在分布内任务和多种分布偏移下都能稳定提高规划成功率。即便每次重新规划前只做一次轻量更新,它的表现也普遍优于那些训练后参数就不再更新的世界模型。
这项工作为自适应世界模型打开了一个很有前景的方向:世界模型不应该“一次训练,终身使用”,而应该在行动过程中持续根据真实反馈校准预测、更新表征,这样才能更好地适应不断变化的环境。
AdaJEPA:一个懂“自适应”的世界模型
简单说,AdaJEPA 是一种自适应潜在世界模型,能在机器人执行任务的过程中持续修正自己的预测。每完成一步动作,模型都会利用新的真实观测来校正偏差,并据此重新规划。整个过程不需要额外离线数据、奖励标签或专家示范。整个流程可以概括为四步:规划、执行、校正和重新规划。具体来说:

图|AdaJEPA 在闭环 MPC 中执行测试时自适应。
- 规划:模型先在内部推演接下来几步的状态变化,比较多组候选方案,选出最有可能靠近目标的动作序列。
- 执行:规划完成,模型只执行第一个动作或一小段动作,然后观测环境的真实反馈。执行前的状态变化会被记录下来,作为后续自适应的学习样本。
- 自适应:动作执行后,AdaJEPA 把这一步产生的状态转移写入在线缓冲区,并用它来检验模型预测是否准确。如果预测的下一状态与真实结果有偏差,模型就把这部分误差作为更新信号,进行一次轻量校正,为下一轮规划做准备。
- 重新规划:自适应完成后,模型从最新观测出发,用更新后的世界模型重新预测后续轨迹,并生成新的动作序列。整个任务过程中,“规划-执行-自适应-重新规划”的循环会不断重复,每一轮规划都建立在最新观测和最新模型之上。
为了避免拖慢实时规划,AdaJEPA 只做轻量更新:调整少量参数,维护小型在线缓冲区,并沿用预训练阶段的目标函数。具体做法如下:
- 只更新关键层:AdaJEPA 不更新整个世界模型,而是只调整编码器和预测器中的少量关键层。这样既能降低计算开销,也能减少对已有表征的扰动。
- 维护小型在线缓冲区:缓冲区默认保存最近 5 条真实状态转移。研究团队比较了两种保留方式:recent-N 保留最近转移,hard-N 保留预测误差最大的转移。结果显示,两种方式差异不大,但 recent-N 更稳定。
- 沿用预训练阶段的目标函数:自适应阶段保持与预训练相同的预测目标,用真实观测对应的表征作为监督信号。为了减少对已有表征的扰动,目标表征仅作为参照,不参与梯度回传。
效果怎么样?一句话概括:稳中有升
整体来看,AdaJEPA 在分布内任务和多种分布偏移下都能稳定提高规划成功率。研究团队在推物体任务 PushT / PushObj 和迷宫导航任务 PointMaze 上进行了评估,覆盖了形状、视觉、动力学和布局等变化场景。即便每次重新规划前只做一次轻量更新,AdaJEPA 的表现也普遍优于那些训练后参数就不再更新的世界模型。具体结果如下:
1. 分布内任务
结果表明,AdaJEPA 在测试时自适应不会牺牲原有能力,还能进一步提升任务成功率。无论是用 GD 直接优化动作序列,还是用 CEM 通过采样和筛选候选动作来搜索,AdaJEPA 的成功率都高于不进行测试时自适应的基线。提升最明显的是推物体任务,最高成功率提升超过 20%;在迷宫导航任务中,原模型本身已经表现较强,AdaJEPA 仍能保持相近水平,没有明显退化。

图|PointMaze 在动力学变化和布局变化条件下的规划成功率。
2. 分布外任务
在环境变化更明显的任务中,AdaJEPA 的优势更加突出。它会在每轮规划和执行后,用新的真实反馈更新世界模型,让后续规划更贴近当前环境,从而提升任务成功率。相比之下,训练后不再更新的模型无法利用这些新观测,成功率往往很快到达上限。

图|在形状变化和视觉变化条件下的规划成功率。
具体来看,在多形状推物体任务中,如果测试时出现训练阶段没见过的物体形状,AdaJEPA 的提升最明显,成功率接近翻倍;视觉扰动中,模糊、噪声和暗光照带来的增益更明显;如果只是锚点或物体颜色改变,AdaJEPA 的优势则相对有限。在 PointMaze 迷宫导航中,AdaJEPA还能适应动力学变化和新迷宫布局,并在新布局下规划出更接近最短路径的轨迹。

图|多样化迷宫中的规划轨迹。

图|PointMaze-Medium 在动力学变化条件下的规划轨迹。
3. AdaJEPA 在多种 JEPA 实现上均有提升
为了验证 AdaJEPA 是否依赖于某一种特定模型实现,研究团队在 PushT 推物体任务上,分别更换了表征形式、模型架构、训练目标和规划器进行测试。结果显示,AdaJEPA 在这些设置下都能提高规划成功率;即便基线模型已经充分训练、评估仍在分布内,测试时自适应依然能带来稳定增益,每次重新规划只增加约 0.01–0.03 秒的延迟。

图|不同实现下的 AdaJEPA 表现。
4. AdaJEPA 不是从头学习新世界,而是在校正已有预测
可视化结果显示,AdaJEPA 的自适应更像是在“校准”,而不是“重新学习”。研究团队将自适应后的预测轨迹解码出来后,发现即便遇到视觉扰动或未见形状,解码结果仍倾向于保留训练分布中的结构特征。例如,红色方块会被解码成训练中常见的灰色方块,未见形状也会被解码成相近的已见形状。

图|视觉变化和形状变化条件下的 AdaJEPA 规划轨迹示例。
5. 消融实验与分析
消融实验显示,AdaJEPA 不需要大范围更新,也不依赖复杂调参;少量关键层更新、一步梯度更新和近期状态转移缓冲区,已经能带来稳定收益。
首先,AdaJEPA 只更新编码器或预测器的部分层,或者采用 LoRA 做轻量更新时,整体表现都优于不进行测试时自适应的基线,说明它不需要重训整个模型。
其次,不同分布偏移对更新位置的需求不同。形状变化下,各种更新方案差异不大,主要调整预测器即可;视觉和布局变化下,仅更新预测器效果有限,编码器也需要参与。布局变化中,更新预测器第一层效果最好,可能是因为它最早融合了潜在状态和动作信息,更容易校正新的局部转移关系。
另外,默认超参数已经足够稳定。在超参数设置上,AdaJEPA 默认沿用训练阶段学习率,每次重规划前只做一步梯度更新,并保留近期状态转移作为缓冲区。更大的学习率或更多更新步数可能增强适应效果,但也会增加不稳定性和计算开销。总体来看,默认设置已经能够在效果、稳定性和延迟之间取得较好的平衡。

图|适应超参数和回放缓冲区对规划成功率的影响。
6. 训练数据规模和形状多样性对 AdaJEPA 的影响
实验结果表明,AdaJEPA 的效果不仅取决于训练数据量,也取决于训练数据是否足够多样。对于 PushObj 多形状推物体任务来说,形状多样性比单纯堆叠同一形状的轨迹更关键;同时,测试时自适应可以在数据不足时弥补部分泛化缺口。
具体来看,在总轨迹数相同的情况下,将数据分配到更多物体形状上,比集中在单一形状上更有利于泛化到未见形状。例如总轨迹数同为 16k 时,覆盖四种形状的 AdaJEPA 在未见形状上的成功率为 51.9%,高于只覆盖单一形状时的 45.8%。
此外,AdaJEPA 在不同数据规模下都能提升成功率,低数据场景下收益尤其明显。即便训练阶段只覆盖较少形状和轨迹,模型也能在部署过程中利用新观测校正预测。例如在已见形状上,只用 1 种形状、1k 条轨迹训练 AdaJEPA,成功率达到 60.8%,高于使用 4 种形状、总计 64k 条轨迹训练但测试时不更新的模型。

图|训练数据规模对 PushObj 规划成功率的影响:形状多样性 (K) 与每种形状的轨迹数量。
不足与未来方向
尽管 AdaJEPA 在多类规划任务中都带来了稳定增益,但它仍有不足之处:
由于 AdaJEPA 只在规划期间进行轻量级修正,其有效性仍受到预训练表征覆盖范围限制。当测试环境中间出现训练阶段未涵盖的关键特征时,自适应虽然可以在一定程度上改善规划结果,但仍难以完全弥合这一表征差距。未来,轻量级测试时自适应还需要与持续学习、主动学习相结合,使世界模型能够在长期部署中不断积累新经验,逐步扩展对环境变化的覆盖范围。
更多技术细节,请参见原论文。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:杨立昆团队最新研究世界模型在行动中自适应持续进化要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点全球人工智能(AI)浪潮引发的连锁效应,正在韩国社会催生一场意想不到的“阶层跃升”——这次的主角,是SK海力士与三星电子的员工。 在韩国婚恋市场中,这两家半导体巨头的员工原本仅处于中上水平,如今却一跃成为“顶级”相亲对象。韩国知名婚恋机构Bien Aller的首席执行官孙东圭直言,过去SK海力士与三
AI模型在编程基准测试中是否存在“作弊”行为?这一现象看似违背直觉,然而Cursor团队的最新研究揭示了一个值得警惕的趋势:能力越强的模型,反而越善于在测试中寻找捷径。问题的根源在于,不少评测套件基于真实缺陷构建,而这些缺陷实际上早已被修复过。对于能够访问代码仓库历史或公开网页的智能体而言,答案几乎
有心的观众可能会发现,链博会健康生活链馆正呈现出一种颇具启发的趋势:那些原本被视为传统消费品的企业,正悄然向AI驱动的公司转型。从一颗棉花的播种,到一瓶洗发水的配方研发,再到一支口红的包装设计与物流配送——人工智能(AI)已不再是停留在PPT上的概念,而是化身为贯穿产业链各环节的“隐形之手”。通过稳
先看几组数据。商务部一份研究报告给出了一个明确的判断:直播电商,正在成为国货品牌崛起的新通道。注意,它不是在传统电商的“蛋糕”里分食,而是在用内容激发潜在需求,把那些原本没有被覆盖的人群和消费场景,拉进国货成长的轨道。截至2025年底,全国已经培育了超过2000个“电商+产业带”,其中广东服饰产业带
- 日榜
- 周榜
- 月榜
热点快看
