强化学习突破传统UED瓶颈 精准定位最近发展区
本文第一作者来自国防科技大学数智建模与仿真国家级重点实验室(State Key Laboratory of Digital Intelligent Modeling and Simulation)2024 级博士生原方,通讯作者为国防科技大学曾俊杰助理研究员、李庆伦博士,并由尹全军研究员、秦龙副教授、沈思淇长聘副教授(厦门大学)、谢毓湘教授、杨俊强副研究员共同合作完成。研究团队长期聚焦建模仿真、强化学习等相关方向研究。

训练强化学习智能体时,我们常常会遇到一个两难的局面:有些关卡太简单,智能体跑几遍就完全掌握了;有些关卡又太难,智能体几乎得不到任何有效反馈。前者只是在重复已有能力,后者则会把宝贵的训练预算消耗在无效的探索上。真正有价值的训练环境,往往位于二者之间——它刚好超出智能体当前的能力边界,但又没有难到完全学不会。换句话说,强化学习训练也存在一个“最近发展区”:高效训练的关键,不只是生成更多关卡,而是找到当前阶段最值得学习的那个。
无监督环境设计(Unsupervised Environment Design, UED)正是围绕这一问题展开的。UED不再把训练环境看作固定的数据集,而是通过自动生成、选择或重放关卡,动态塑造训练分布,让智能体在持续学习中提升泛化能力。但UED面临一个核心难题:系统如何知道,哪些关卡真正推动了智能体的学习?
近日,来自国防科技大学、厦门大学等机构的研究者提出了PACE(Parameter Change Environment Design)。PACE使用关卡诱导的策略参数变化作为训练价值信号,直接衡量该关卡是否带来了实际的学习进展。这项研究已被ICML 2026接收。
论文题目:PACE: Parameter Change for Unsupervised Environment Design
论文链接:https://doi.org/10.48550/arXiv.2605.01358
UED:让训练环境自己形成课程
UED的出发点其实很直观。传统强化学习通常先给定一批训练环境,再让智能体在其中反复学习。但训练环境并非越多越好,也不是越难越好。如果关卡太简单,智能体很快进入“舒适区”,只能巩固已经掌握的行为;如果关卡太难,智能体又会陷入“恐慌区”,长期得不到有效奖励。这两种情况都会削弱学习效率和最终的泛化能力。
在UED之前,领域随机化(Domain Randomization)已经表明,环境多样性有助于提升泛化能力。但这类方法通常只是静态地随机采样环境参数,难以根据智能体当前的学习状态动态调整训练内容。
UED则更进一步,将“训练什么”也纳入了学习过程。系统不再把训练环境视为固定背景,而是动态生成、选择或重放关卡,并根据某种评价信号来决定哪些关卡更值得保留、重放或进一步编辑。理想情况下,这些关卡应该持续贴近智能体当前的能力边界:既不轻易被解决,也不完全超出可学习的范围。
现有的UED方法通常需要一个分数(score)来评价关卡。常见的做法包括基于遗憾(regret)、广义优势估计(GAE)、最大蒙特卡洛回报(MaxMC)等。这些信号在实践中有效,但它们更多是从可解性差距、价值估计误差或回报估计出发,并没有直接评估“这次训练到底带来了多少策略上的改进”。另一类方法更直接,例如边际效益(Marginal Benefit)会比较策略更新前后的表现变化,因此更接近真实的学习进步。但它需要额外的环境交互(rollout)来估计更新前后的回报,计算开销更高,估计的方差也更大。
因此,UED的核心问题就变成了:如何简单而准确地判断一个关卡是否真正推动了智能体的学习?
PACE:用参数变化衡量学习进步
PACE的核心思路非常直接:如果一个关卡真正促成了学习,那么智能体在这个关卡上训练后,其策略参数应该发生有意义的变化。也就是说,PACE不再将关卡的价值建立在遗憾、GAE或蒙特卡洛回报等间接信号上,而是直接观察该关卡所诱导的策略更新。
首先,对于某个关卡,研究关心的是策略更新前后的目标函数提升。假设当前策略参数为θ,在该关卡上完成一次局部策略更新后,参数变为θ‘。如果直接估计目标提升,通常需要分别评估更新前后的策略表现,这意味着额外的环境交互。这会带来更高的计算开销,并在稀疏奖励或长时程任务中引入较大的估计方差。
PACE选择从优化过程本身入手。在当前参数θ附近,对目标函数J(θ)做一阶泰勒展开。进一步假设这一步更新是沿着局部梯度方向进行的,即更新量Δθ与梯度∇J(θ)成正比。经过推导,可以得到目标提升的一个近似表达式,该表达式与策略参数变化量的平方范数成正比。
于是,PACE将关卡的分数定义为该参数变化量的范数。直观地说,如果一个关卡诱导了更大的有效参数更新,它就更有价值,因为它更可能包含了当前策略尚未掌握、但又能够提供学习信号的内容。PACE关注的不是这个关卡看起来有多难,而是它是否真的让策略朝着更优的方向前进了一步。
图 1:PACE 工作流程图。
基于这一分数,PACE的运行过程可以分为两个部分:关卡评分(level scoring)和策略训练(policy training)(见图1)。
在关卡评分阶段,系统先从关卡生成器中生成一个候选关卡,并用当前策略在该关卡上收集数据。随后,PACE执行一次临时的策略更新,得到新的参数。这一步仅用于计算分数,并不直接写回当前策略。接着,PACE根据上述公式计算该关卡的分数。
如果关卡缓冲区尚未填满,PACE会将该关卡直接加入;如果缓冲区已满,则当当前关卡的分数高于缓冲区中最低分关卡时,就用当前关卡替换那个低分关卡。这样,缓冲区就能持续保留那些更能诱导策略更新的关卡。
在策略训练阶段,PACE从关卡缓冲区中采样关卡,并使用这些关卡正式更新策略参数。采样时,PACE会根据分数构造优先级分布,让高分关卡更容易被重放。
整个过程不断交替进行:新关卡被生成并打分,高价值关卡被写入缓冲区,缓冲区中的关卡又被优先重放以训练策略。由此,PACE利用策略参数变化构造出一种内生的学习进步信号,并用它来驱动训练课程随着智能体能力的提升而动态演化。
实验结果:从迷宫泛化到开放式任务
研究在MiniGrid和Craftax两个基准上验证了PACE的有效性,分别考察了其在结构化迷宫中的零样本泛化能力,以及在长时程、非平稳任务中的持续学习能力。对比方法包括领域随机化(DR)、优先级别重放(PLR)、PLR的变体以及ACCEL。
在MiniGrid实验中,所有方法都在相同的训练迷宫中学习,测试时直接迁移到12个未见过的、由人类设计的关卡,不进行任何额外微调。这一设置主要检验零样本泛化能力。如图2所示,在较简单的FourRooms迷宫中,各方法都能取得较高的成功率;但随着关卡结构变得复杂,差距开始明显扩大。在Labyrinth、Maze3等更具挑战性的关卡上,PACE不仅成功率更高,结果的方差也更小。
研究者进一步使用rliable库评估整体表现。表1显示,PACE的IQM(四分位均值)达到了0.964,明显高于最强基线PLR的0.808;其最优性差距(Optimality Gap)降至0.172,也优于DR、PLR及其变体和ACCEL。这说明PACE带来的提升并非源于少数特定关卡,而是体现为更稳定的整体泛化能力。
图 2:MiniGrid 上的零样本迁移性能。
表 1:MiniGrid 上的整体泛化指标。
为了进一步检验PACE在更复杂任务中的适用性,论文还在Craftax上进行了实验。Craftax是一个面向开放式强化学习的JAX基准。随着探索的推进,智能体会遇到新的区域、机制和目标,任务分布也会持续变化,因此更能检验UED方法是否能在长训练过程中持续提供有效的课程。
实验遵循Craftax-1B设置,训练预算约为10亿次环境交互。评估时,研究者在20个未见过的Craftax关卡上比较最终策略的回合奖励。如表2所示,PACE在相同训练预算下取得了最高的评估回报,平均奖励达到0.61,高于DR的0.52,也优于PLR及其变体和ACCEL。
表 2:Craftax 上 20 个未见过 levels 上的平均回报和标准差。
结语与展望
在强化学习智能体需要持续适应未见环境的背景下,如何准确识别真正推动学习的关卡是UED的关键问题。PACE通过参数变化这一简单、低方差、计算友好的内生信号,将环境评价直接建立在“已实现的学习进步”之上。这一思路有助于减少袋里指标偏差、高方差估计和额外环境交互开销的影响,为构建更稳定、更可扩展的自适应训练课程提供了新的方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
五菱缤果Pro威海上市 续航长配置全5.68万起预售火爆
五菱缤果Pro新能源车正式上市,售价5 68万至7 08万元,提供330公里与403公里两种续航版本。新车采用五门五座布局,空间利用率高,并配备快充技术。车身结构强调安全,高强度钢占比达72%。智能座舱搭载大模型与多互联方式,兼顾舒适与便利性。预售订单已突破5万台。
Trae在Python数据分析与机器学习项目中的实际应用评测
Trae在Python数据分析与机器学习项目中主要通过四种方式提供支持:利用Auto模式自动生成并执行端到端分析脚本;通过AgentCLI命令行自动化机器学习建模流程;对现有代码进行智能调试与优化;借助语音交互快速构建数据处理函数。这些功能覆盖了从需求描述到代码生成、模型构建及代码优化的全流程。
吉利银河星耀7 MAX四驱版上市 售价10.88万起性能解析
吉利银河星耀7正式上市,共五款配置,售价10 88万元起。新车定位中型SUV,提供MAX四驱版本,搭载e-AWD智电四驱系统,零百加速5 4秒。设计延续“涟漪美学”,配备发光格栅与贯穿式尾灯。内饰采用环抱式座舱,配备智慧中岛扶手与Eva车载机器人。智能驾驶方面搭载千里浩瀚H3方案,支持高速NOA与自动泊车功能。
AI视频教程:如何制作镜头推进效果
在即梦AI中实现镜头推进效果,可通过慢推模板或手动运镜控制来设置轨道距离与速度。结合运动笔刷可增强局部动态,利用分镜与预设指令库能优化节奏与效率。需注意主体描述明确,参数匹配画面比例。
通义万象制作壁纸与头像的图片效果实测
通义万相生成图像时,主体模糊、比例失调等问题多因指令不精准。优化方法包括:严格按“主体-特征-场景-风格-参数”五要素构建清晰提示词,细节越具体效果越可控;生成前根据用途手动设定正确画幅比例,避免拉伸或裁切,确保成品直接可用。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

