让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26
面对复杂连续任务的长程规划,现有的生成式离线强化学习方法往往会暴露短板。
它们生成的行动轨迹,常常会陷入一种“局部合理但全局偏航”的窘境。问题出在哪?简单说,就是太关注眼前的每一步,却忘了最终的目的地。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

针对这一核心痛点,厦门大学与香港科技大学的研究团队提出了一种名为MAGE(Multi-scale Autoregressive Generation)的新算法。这个名字很有意思,直译过来就是“魔法师”,其魔力何在?
关键在于,MAGE摒弃了传统的序列生成思路,转而采用一种自顶向下的“由粗到细”生成策略。它先勾勒轨迹的宏观蓝图,再逐步填充微观细节。
MAGE的核心思路:从画大纲到扣细节
这个思路其实非常符合人类的直觉。就像画一幅素描,有经验的画师绝不会一上来就刻画眼睛的睫毛。相反,他会先轻轻几笔,勾勒出整体的身体轮廓和姿态(宏观规划),然后在这个稳固的框架下,逐步细化五官、光影和表情(微观动作)。MAGE所做的,正是将这种“先整体,后局部”的智慧,编码进了算法之中。

△ MAGE的“思考”过程:从宏观轮廓到精细动作
一场“迷宫寻宝”揭示的AI规划盲区
为了直观展示现有模型的缺陷,研究团队设计了一个巧妙的“迷宫吃金币”实验。智能体需要从随机起点出发,它必须理解整个迷宫的空间布局,规划一条长程路径:先吃掉银币,再吃掉金币,最后成功抵达终点。

△ 各个算法在迷宫环境中的表现对比
然而,面对这种需要全局统筹的场景,现有模型纷纷暴露了各自的短板:
Decision Transformer受限于单向自回归的特性,难以获取完整的全局上下文,在长程规划中几乎完全迷失,连终点都未能抵达。
Decision Diffuser虽然基于扩散模型,但其生成过程存在局部偏差,导致轨迹虽能抵达终点,却遗漏了关键的金币,全局连贯性不足。
Hierarchical Diffuser尝试用分层结构建模全局,但其固定的双层架构过于僵硬,高层与底层策略协同不佳,甚至产生了“穿墙”这种物理上不可能的轨迹,全局规划与局部执行严重脱节。
相比之下,MAGE凭借其多尺度“从粗到细”的生成架构,漂亮地完成了任务。它首先在最粗的时间尺度上,勾勒出包含所有关键节点的宏观轮廓,随后利用多尺度Transformer逐层细化,最终规划出一条完整、合理的路径。
MAGE如何工作:两大核心模块与精确控制
那么,MAGE具体是如何实现这一点的呢?其架构主要包含两大核心模块,并辅以精密的控制机制。

△ MAGE的架构图
1. MTAE多尺度轨迹自编码器: 这个模块负责将冗长的连续轨迹,压缩成一系列从粗到细的离散Token。粗尺度的Token掌控全局结构和长程目标,而最细尺度的Token则编码了短期的动态细节。
2. 多尺度条件引导自回归生成: 模型的核心是一个Transformer,它按顺序生成这些多尺度Token。关键在于,在生成每一层时,模型都会严格接受“目标回报”和“初始状态”这两个条件的约束。这就好比给规划过程装上了“指南针”和“锚点”,确保智能体的每一步都朝着最终目标前进,且起点稳固。
3. 条件引导细化与动作决策: 将连续世界离散化难免会丢失信息,普通的生成过程容易导致轨迹起点偏离真实环境。为此,MAGE在解码器中集成了一个轻量级的适配器模块,并引入了条件引导损失函数,强制解码出的初始状态与真实环境精确对齐。最后,通过一个潜在逆动力学模型,将规划好的状态序列转化为最终可执行的动作。
实验表现:长序列任务全面超越,推理速度满足实时控制
为了验证MAGE的有效性,研究团队在Adroit、Franka Kitchen、AntMaze等5个经典的离线强化学习基准测试中,将其与15种代表性基线算法进行了全面对比。
多任务表现出色

在极具挑战性的高维连续控制任务——Adroit机械臂操作中,面对极其稀疏的奖励信号,MAGE实现了显著的性能提升,大幅领先于其他对比方法。而在强调子任务执行顺序的Franka Kitchen组合任务中,MAGE凭借其捕获全局结构和局部细节的卓越能力,以相当大的优势超越了所有竞争算法。

在各类迷宫导航任务中,MAGE在所有测试数据集上均取得了最佳性能,充分证明了其处理长序列、复杂空间规划任务的卓越能力。
极高的推理效率与部署潜力

更令人印象深刻的是,MAGE在保持高性能的同时,实现了出色的计算效率平衡。实验数据显示,MAGE的运行速度比Hierarchical Diffuser快约50倍,比Decision Diffuser快80倍。其单步推理时间稳定在27毫秒左右,完美满足了真实机器人控制所要求的20 Hz实时运行门槛,具备了实际部署的潜力。
结语
总而言之,MAGE成功地将多尺度轨迹建模与条件引导机制相结合,通过“从粗到细”的自回归框架,生成了既连贯又可控的高回报轨迹。这项研究为离线强化学习的长程规划难题提供了一个新颖而有效的解决方案。
可以预见,当未来的机器人或智能体不再需要人类一步步地设计奖励、而是能够自主地审视全局、制定长远计划并流畅执行时,具身智能的发展或许将迎来下一个关键突破。MAGE在这一方向上,迈出了坚实的一步。
论文链接:
https://arxiv.org/abs/2602.23770
开源代码:
https://github.com/xmu-rl-3dv/MAGE
实验室主页:
https://asc.xmu.edu.cn/
作者介绍:
本文第一作者来自厦门大学空间感知与计算实验室(ASC Lab)2024级硕士生林晨兴、2025级硕士生高鑫辉,通讯作者为厦门大学沈思淇副教授,并由张海鹏、李欣然(香港科技大学)、王海涛、梅松竹副研究员、刘伟权副教授(集美大学)、王程教授共同合作完成。研究团队长期聚焦于强化学习,多智能体系统以及大模型智能体。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
ConversAI
ConversAI是什么 简单来说,ConversAI是一款能让你日常沟通变得更轻松的智能助手。它背后的驱动力是先进的AI技术,目标很明确:帮助个人和企业用户,尤其是那些每天被海量信息淹没的人,用更高效、更自然的方式完成对话。从一键生成回复到自动提炼重点,这款工具直指传统沟通中那些耗时费力的痛点,目
Aurore.ai
Aurore ai是什么 提到AI伴侣,你的第一印象是什么?是冰冷的语音助手,还是简单的任务执行器?Aurore ai的出现,或许会刷新你的认知。这款由Aurore公司精心打造的AI工具,其核心目标在于提供一个深度个性化、多模态的互动体验。它不满足于简单的问答,而是试图成为一位能够“看见”和“听见”
Ask Elle
Ask Elle是什么 简单来说,Ask Elle是一款为青少年量身打造的AI约会助手。它的核心创意很巧妙:借助先进的技术,将TikTok上受欢迎的明星Elle Kristine的智慧人格化,打造出一个能随时对话的虚拟伙伴。用户不再只是翻阅冰冷的文章,而是可以直接向“Elle”提问,并获得量身定制的
AI小聚
AI小聚是什么 提起AI工具,很多人的印象可能还停留在某个单一功能上。但今天要聊的这个产品,有点不一样。AI小聚,这款由聚名科技开发的智能应用,把聊天写作、绘画、音乐、视频等多项AI能力打包在了一起。它的目标很明确:成为用户手边一个高效且趁手的创作与交流伙伴。其核心,尤其是AI绘画和智能对话功能,凭
优势智设
优势智设是什么 如果你正在寻找一款能打通“设计概念-界面-代码”的智能工具,那今天聊的这款产品,或许值得你关注。它就是由杭州优势智设科技有限公司推出的UX AI工具——优势智设。简单来说,它的核心任务,就是利用AI技术,自动化生成产品设计风格、用户界面乃至前端代码。目标用户直指体验设计专家和产品开发
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

