数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26

AI热点日报时间：2026-04-07

热点解读

面对复杂连续任务的长程规划，现有的生成式离线强化学习方法往往会暴露短板。它们生成的轨迹经常陷入局部合理但全局偏航的窘境。它们太关注眼前的每一步，却忘了最终的目的地。针对这一痛点，厦门大学和香港科技大

面对复杂连续任务的长程规划，现有的生成式离线强化学习方法往往会暴露短板。

它们生成的轨迹经常陷入局部合理但全局偏航的窘境。

它们太关注眼前的每一步，却忘了最终的目的地。

针对这一痛点，厦门大学和香港科技大学提出一种名为MAGE（魔法师，Multi-scale Autoregressive Generation）的离线强化学习新算法。

MAGE与现有序列生成方法不同，MAGE采用自顶向下的“由粗到细”生成策略，先建模轨迹的宏观规划，再逐步细化微观细节。

MAGE的核心思路非常符合人类的直觉：“自顶向下、由粗到细”。

这就好比画一幅素描，你不会一上来就描绘眼睛的睫毛，而是先画出整体的身体轮廓（宏观规划），再逐步细化五官和表情

（微观动作）

△MAGE的思考过程

从一场”迷宫寻宝“揭示AI规划的盲区

为了直观展示现有模型的缺陷，研究团队设计了一个迷宫吃金币小实验。智能体需要从随机起点出发，依靠对环境的长程空间理解，先吃银币，再吃金币，最后抵达终点。

△各个算法在迷宫环境的表现

然而，面对这种需要全局规划的场景，现有的模型纷纷暴露了缺陷。

Decision Transformer受限于单向自回归特性带来的全局上下文缺失，它在长程规划中完全迷失方向，最终连终点都未能抵达。Decision Diffuser则由于扩散模型固有的局部生成偏差，生成的轨迹往往只能保证局部合理；虽然智能体抵达了终点，却遗漏了关键的一枚金币，全局连贯性较差。Hierarchical Diffuser虽然尝试通过分层结构建模全局轨迹，但由于其固定的双层结构过于僵硬高低层策略之间缺乏有效协同，生成的轨迹甚至出现了物理违规的“穿墙”现象，全局规划与局部动作严重脱节。

相比之下，MAGE则通过多尺度“从粗到细”的生成架构成功完成了任务。它首先在最粗的时间尺度上勾勒出包含所有关键节点的宏观全局轮廓，随后利用多尺度Transformer在更细的时间尺度上逐层细化，顺利规划出完整的路径。

MAGE的核心思路：从画大纲到扣细节

MAGE采用“自顶向下、由粗到细”的生成方式。MAGE包含两大核心模块，并辅以精确的控制机制：

△MAGE的架构图

MTAE多尺度轨迹自编码器：MAGE将长序列轨迹转化为从粗到细的多尺度离散Token。粗尺度的Token负责掌控全局长程结构，最细尺度的Token则详细建模短期的动态细节。

多尺度条件引导自回归生成：模型使用Transformer序列化地生成这些多尺度Token。在生成每层时，都会严格以“目标回报”和“初始状态”作为条件进行约束，确保智能体的每一步都在朝着最终目标前进。

条件引导细化与动作决策：因为把连续世界变成离散Token会丢失信息，普通的生成过程容易让轨迹起点偏离现实。为此，MAGE在解码器中集成了轻量级的适配器（adapter）模块，并引入了条件引导损失函数Lcond，强制解码出的初始状态与真实环境是精确对齐的。最后，通过潜在逆动力学模型决定最终的动作。

实验表现：长序列任务全面超越，推理速度满足实时控制

研究团队在包含Adroit、Franka Kitchen、AntMaze等5个离线RL基准测试中，将MAGE与15种具有代表性的基线算法进行了广泛的评估。

多任务表现出色

在极具挑战的高维连续控制Adroit机械臂任务中，面对极其稀疏的奖励，MAGE实现了显著的性能提升，大幅优于对比方法。在强调子目标执行顺序的Franka Kitchen组合任务中，MAGE凭借捕获全局结构和局部细节的能力，以相当大的优势超越了所有竞争算法。

在迷宫导航任务中，MAGE在所有数据集上均取得了最佳性能，证明了其处理长序列导航任务的卓越能力。

极高的推理效率与部署潜力

MAGE在保持高性能的同时，实现了出色的计算效率平衡。实验数据表明，MAGE的运行速度比Hierarchical Diffuser快约50倍，比Decision Diffuser快80倍。其每步推理时间保持在27毫秒，完美满足了真实机器人控制所要求的20 Hz实时运行门槛。

结语

MAGE成功地将多尺度轨迹建模与条件引导相结合，通过“从粗到细”的自回归框架生成连贯且可控的高回报轨迹。当有一天，机器人不再需要人类一口一口地“喂”奖励，而是能够自主审视全局，制定长远计划并流畅执行时，也许具身智能的下一个奇点就真正到来了。

论文链接：
https://arxiv.org/abs/2602.23770
开源代码：
https://github.com/xmu-rl-3dv/MAGE
实验室主页：
https://asc.xmu.edu.cn/

作者介绍：
本文第一作者来自厦门大学空间感知与计算实验室（ASC Lab）2024级硕士生林晨兴、2025级硕士生高鑫辉，通讯作者为厦门大学沈思淇副教授，并由张海鹏、李欣然（香港科技大学）、王海涛、梅松竹副研究员、刘伟权副教授（集美大学）、王程教授共同合作完成。研究团队长期聚焦于强化学习，多智能体系统以及大模型智能体。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：让离线强化学习从「局部描摹」变「全局布局」丨ICLR'26要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KPR8PN0L0511DSSR.html

算法序列尺度智能体新论文局部描摹全局布局离线强化学习

上一篇：Claude Code Harness+龙虾科研团来了！金字塔分层架构+多智能体

下一篇：美国犹他州启动新试点项目：AI为患者开具精神类药物处方

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 02 / 本周印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 03 / 本周小米具身智能机器人新工站双侧螺母上件成功率达98% 04 / 本周DeepSeek梁文锋身价360亿美元成AI新首富 05 / 本周DeepSeek获74亿美元融资，梁文锋身家涨至360亿

01 / 本月面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 02 / 本月印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 03 / 本月小米具身智能机器人新工站双侧螺母上件成功率达98% 04 / 本月DeepSeek梁文锋身价360亿美元成AI新首富 05 / 本月DeepSeek获74亿美元融资，梁文锋身家涨至360亿

热点快看

07-14 19:48面壁智能CTO谈端侧AI：从打字机到大模型的进化突围 07-14 19:48印度IT巨头HCL Tech投350亿卢比建50MW AI数据中心 07-14 19:48小米具身智能机器人新工站双侧螺母上件成功率达98% 07-14 19:48DeepSeek梁文锋身价360亿美元成AI新首富 07-14 19:48DeepSeek获74亿美元融资，梁文锋身家涨至360亿

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别