DeepMind研究突破：AI自主发现RL算法，性能超人工设计70%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

DeepMind研究突破：AI自主发现RL算法，性能超人工设计70%

热心网友时间：2025-10-28

转载

长久以来，人工智能领域一直致力于构建能够在复杂动态环境中自主决策并达成目标的智能体。强化学习作为实现这一目标的关键技术，虽已历经数十年研究，但如何让智能体自主设计出高效学习算法这一核心难题始终悬而未决。近日，Google DeepMind团队提出突破性解决方案，采用多智能体在不同环境中交互学习的方式，实现了强化学习规则的自我发现。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

团队研发的DiscoRL系统在多轮基准测试中展现出令人瞩目的能力。在经典Atari游戏测试环节，该系统训练出的Disco57规则以13.86的四分位均值（IQM）超越MuZero、Dreamer等主流算法，其运算效率也显著优于同类技术。更值得关注的是，该规则在从未接触过的ProcGen二维游戏、Crafter生存挑战以及NetHack迷宫探索等测试中，均展现出超越人工设计算法的泛化能力。

这项突破的核心在于其独特的双重优化机制。在智能体优化层面，系统采用Kullback-Leibler散度确保训练稳定性，通过元网络生成的策略、观测预测和动作预测目标，持续改进决策模型。在元优化层面，多个智能体在不同环境中并行学习，元网络根据整体表现计算元梯度，动态调整学习规则。这种设计使算法能在有限训练步数内快速收敛，同时保持对未知环境的适应能力。

实验数据显示，算法性能与环境复杂度呈现显著正相关。基于103个环境训练的Disco103规则，不仅在Atari测试中保持竞争力，更在Crafter生存挑战中达到人类水平表现，在推箱子任务中接近MuZero的顶尖性能。研究团队特别指出，当训练环境数量从57个增至103个时，算法在全新测试场景中的表现提升达37%，充分证明数据多样性对算法泛化能力的关键作用。

在效率维度上，DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练（相当于57个游戏3轮实验），即可发现高性能规则。相比之下，传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加，系统在未知测试场景中的表现呈现指数级增长。

技术细节方面，智能体结构包含策略输出、多模态预测和价值评估模块，元网络则通过反向传播与优势行动者-评论家算法实现参数优化。特别设计的辅助损失函数，有效平衡了探索与利用的矛盾，使学习过程既稳定又高效。在NetHack挑战赛中，未使用任何领域知识的Disco57仍取得第三名，验证了算法的普适性。

这项发表于《自然》杂志的研究成果引发学术界广泛关注。专家指出，该成果标志着强化学习从人工设计向自动发现的范式转变，未来高级AI系统的核心算法可能完全由机器自主生成。不过，技术突破带来的伦理与社会影响同样值得深思——当算法设计权从人类转移至机器，现有监管框架和技术治理体系将面临全新挑战。

来源:https://www.itbear.com.cn/html/2025-10/1000493.html

上一篇： Groq CEO：沙特低成本能源优势，抢占AI数据中心新机遇

下一篇：谷歌Gemini Canvas升级：输入提示或文件，轻松生成可编辑幻灯片