数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

AI热点日报时间：2026-04-15

热点解读

面对复杂连续任务的长程规划，现有的生成式离线强化学习方法往往会暴露短板。它们生成的行动轨迹，常常会陷入一种“局部合理但全局偏航”的窘境。问题出在哪？简单说，就是太关注眼前的每一步，却忘了最终的目的地。针对这一核心痛点，厦门大学与香港科技大学的研究团队提出了一种名为MAGE（Multi-scale

面对复杂连续任务的长程规划，现有的生成式离线强化学习方法往往会暴露短板。

它们生成的行动轨迹，常常会陷入一种“局部合理但全局偏航”的窘境。问题出在哪？简单说，就是太关注眼前的每一步，却忘了最终的目的地。

针对这一核心痛点，厦门大学与香港科技大学的研究团队提出了一种名为MAGE（Multi-scale Autoregressive Generation）的新算法。这个名字很有意思，直译过来就是“魔法师”，其魔力何在？

关键在于，MAGE摒弃了传统的序列生成思路，转而采用一种自顶向下的“由粗到细”生成策略。它先勾勒轨迹的宏观蓝图，再逐步填充微观细节。

MAGE的核心思路：从画大纲到扣细节

这个思路其实非常符合人类的直觉。就像画一幅素描，有经验的画师绝不会一上来就刻画眼睛的睫毛。相反，他会先轻轻几笔，勾勒出整体的身体轮廓和姿态（宏观规划），然后在这个稳固的框架下，逐步细化五官、光影和表情（微观动作）。MAGE所做的，正是将这种“先整体，后局部”的智慧，编码进了算法之中。

△ MAGE的“思考”过程：从宏观轮廓到精细动作

一场“迷宫寻宝”揭示的AI规划盲区

为了直观展示现有模型的缺陷，研究团队设计了一个巧妙的“迷宫吃金币”实验。智能体需要从随机起点出发，它必须理解整个迷宫的空间布局，规划一条长程路径：先吃掉银币，再吃掉金币，最后成功抵达终点。

△ 各个算法在迷宫环境中的表现对比

然而，面对这种需要全局统筹的场景，现有模型纷纷暴露了各自的短板：

Decision Transformer受限于单向自回归的特性，难以获取完整的全局上下文，在长程规划中几乎完全迷失，连终点都未能抵达。
Decision Diffuser虽然基于扩散模型，但其生成过程存在局部偏差，导致轨迹虽能抵达终点，却遗漏了关键的金币，全局连贯性不足。
Hierarchical Diffuser尝试用分层结构建模全局，但其固定的双层架构过于僵硬，高层与底层策略协同不佳，甚至产生了“穿墙”这种物理上不可能的轨迹，全局规划与局部执行严重脱节。

相比之下，MAGE凭借其多尺度“从粗到细”的生成架构，漂亮地完成了任务。它首先在最粗的时间尺度上，勾勒出包含所有关键节点的宏观轮廓，随后利用多尺度Transformer逐层细化，最终规划出一条完整、合理的路径。

MAGE如何工作：两大核心模块与精确控制

那么，MAGE具体是如何实现这一点的呢？其架构主要包含两大核心模块，并辅以精密的控制机制。

△ MAGE的架构图

1. MTAE多尺度轨迹自编码器： 这个模块负责将冗长的连续轨迹，压缩成一系列从粗到细的离散Token。粗尺度的Token掌控全局结构和长程目标，而最细尺度的Token则编码了短期的动态细节。

2. 多尺度条件引导自回归生成： 模型的核心是一个Transformer，它按顺序生成这些多尺度Token。关键在于，在生成每一层时，模型都会严格接受“目标回报”和“初始状态”这两个条件的约束。这就好比给规划过程装上了“指南针”和“锚点”，确保智能体的每一步都朝着最终目标前进，且起点稳固。

3. 条件引导细化与动作决策： 将连续世界离散化难免会丢失信息，普通的生成过程容易导致轨迹起点偏离真实环境。为此，MAGE在解码器中集成了一个轻量级的适配器模块，并引入了条件引导损失函数，强制解码出的初始状态与真实环境精确对齐。最后，通过一个潜在逆动力学模型，将规划好的状态序列转化为最终可执行的动作。

实验表现：长序列任务全面超越，推理速度满足实时控制

为了验证MAGE的有效性，研究团队在Adroit、Franka Kitchen、AntMaze等5个经典的离线强化学习基准测试中，将其与15种代表性基线算法进行了全面对比。

多任务表现出色

在极具挑战性的高维连续控制任务——Adroit机械臂操作中，面对极其稀疏的奖励信号，MAGE实现了显著的性能提升，大幅领先于其他对比方法。而在强调子任务执行顺序的Franka Kitchen组合任务中，MAGE凭借其捕获全局结构和局部细节的卓越能力，以相当大的优势超越了所有竞争算法。

在各类迷宫导航任务中，MAGE在所有测试数据集上均取得了最佳性能，充分证明了其处理长序列、复杂空间规划任务的卓越能力。

极高的推理效率与部署潜力

更令人印象深刻的是，MAGE在保持高性能的同时，实现了出色的计算效率平衡。实验数据显示，MAGE的运行速度比Hierarchical Diffuser快约50倍，比Decision Diffuser快80倍。其单步推理时间稳定在27毫秒左右，完美满足了真实机器人控制所要求的20 Hz实时运行门槛，具备了实际部署的潜力。

结语

总而言之，MAGE成功地将多尺度轨迹建模与条件引导机制相结合，通过“从粗到细”的自回归框架，生成了既连贯又可控的高回报轨迹。这项研究为离线强化学习的长程规划难题提供了一个新颖而有效的解决方案。

可以预见，当未来的机器人或智能体不再需要人类一步步地设计奖励、而是能够自主地审视全局、制定长远计划并流畅执行时，具身智能的发展或许将迎来下一个关键突破。MAGE在这一方向上，迈出了坚实的一步。

论文链接：
https://arxiv.org/abs/2602.23770
开源代码：
https://github.com/xmu-rl-3dv/MAGE
实验室主页：
https://asc.xmu.edu.cn/

作者介绍：
本文第一作者来自厦门大学空间感知与计算实验室（ASC Lab）2024级硕士生林晨兴、2025级硕士生高鑫辉，通讯作者为厦门大学沈思淇副教授，并由张海鹏、李欣然（香港科技大学）、王海涛、梅松竹副研究员、刘伟权副教授（集美大学）、王程教授共同合作完成。研究团队长期聚焦于强化学习，多智能体系统以及大模型智能体。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KPR8PN0L0511DSSR.html

学习方法

上一篇：DeepSeek V4拟4月上线！长期记忆、编程与多模态能力全面跃升值得期待

下一篇：Cold Pitch

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周佑驾创新与乐动机器人达成战略合作共谋发展 02 / 本周Meta出售算力非清库存，市场需求驱动付费意愿 03 / 本周大仓AI工程化实战从Vibe Coding到Harness 04 / 本周MCP Toolbox部署前别急着动手 05 / 本周基金公司遭突击检查传闻被知情人士辟谣

01 / 本月佑驾创新与乐动机器人达成战略合作共谋发展 02 / 本月Meta出售算力非清库存，市场需求驱动付费意愿 03 / 本月大仓AI工程化实战从Vibe Coding到Harness 04 / 本月MCP Toolbox部署前别急着动手 05 / 本月基金公司遭突击检查传闻被知情人士辟谣

热点快看

07-16 23:00佑驾创新与乐动机器人达成战略合作共谋发展 07-16 23:00Meta出售算力非清库存，市场需求驱动付费意愿 07-16 23:00大仓AI工程化实战从Vibe Coding到Harness 07-16 22:59MCP Toolbox部署前别急着动手 07-16 22:59基金公司遭突击检查传闻被知情人士辟谣

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别