首页
AI
DeepMind研究突破:AI自主发现RL算法,性能超人工设计70%

DeepMind研究突破:AI自主发现RL算法,性能超人工设计70%

热心网友
转载
2025-10-28

长久以来,人工智能领域一直致力于构建能够在复杂动态环境中自主决策并达成目标的智能体。强化学习作为实现这一目标的关键技术,虽已历经数十年研究,但如何让智能体自主设计出高效学习算法这一核心难题始终悬而未决。近日,Google DeepMind团队提出突破性解决方案,采用多智能体在不同环境中交互学习的方式,实现了强化学习规则的自我发现。

团队研发的DiscoRL系统在多轮基准测试中展现出令人瞩目的能力。在经典Atari游戏测试环节,该系统训练出的Disco57规则以13.86的四分位均值(IQM)超越MuZero、Dreamer等主流算法,其运算效率也显著优于同类技术。更值得关注的是,该规则在从未接触过的ProcGen二维游戏、Crafter生存挑战以及NetHack迷宫探索等测试中,均展现出超越人工设计算法的泛化能力。

这项突破的核心在于其独特的双重优化机制。在智能体优化层面,系统采用Kullback-Leibler散度确保训练稳定性,通过元网络生成的策略、观测预测和动作预测目标,持续改进决策模型。在元优化层面,多个智能体在不同环境中并行学习,元网络根据整体表现计算元梯度,动态调整学习规则。这种设计使算法能在有限训练步数内快速收敛,同时保持对未知环境的适应能力。

实验数据显示,算法性能与环境复杂度呈现显著正相关。基于103个环境训练的Disco103规则,不仅在Atari测试中保持竞争力,更在Crafter生存挑战中达到人类水平表现,在推箱子任务中接近MuZero的顶尖性能。研究团队特别指出,当训练环境数量从57个增至103个时,算法在全新测试场景中的表现提升达37%,充分证明数据多样性对算法泛化能力的关键作用。

在效率维度上,DiscoRL展现出显著优势。最优版本仅需在每个Atari游戏进行约6亿步训练(相当于57个游戏3轮实验),即可发现高性能规则。相比之下,传统人工设计方法需要数十倍实验次数和人力投入。这种效率提升源于算法对计算资源的智能利用——随着参与训练的环境数量增加,系统在未知测试场景中的表现呈现指数级增长。

技术细节方面,智能体结构包含策略输出、多模态预测和价值评估模块,元网络则通过反向传播与优势行动者-评论家算法实现参数优化。特别设计的辅助损失函数,有效平衡了探索与利用的矛盾,使学习过程既稳定又高效。在NetHack挑战赛中,未使用任何领域知识的Disco57仍取得第三名,验证了算法的普适性。

这项发表于《自然》杂志的研究成果引发学术界广泛关注。专家指出,该成果标志着强化学习从人工设计向自动发现的范式转变,未来高级AI系统的核心算法可能完全由机器自主生成。不过,技术突破带来的伦理与社会影响同样值得深思——当算法设计权从人类转移至机器,现有监管框架和技术治理体系将面临全新挑战。

来源:https://www.itbear.com.cn/html/2025-10/1000493.html

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章

OpenAI印度开发者大会首秀:免费赠送一年ChatGPT Go订阅

10 月 28 日消息,OpenAI 今日宣布将首次在印度举办开发者大会“DevDay Exchange”,将公布更多面向本地开发者和企业的计划,被视为公司在这一关键市场持续扩展的重要步骤。为庆祝

2025-10-29.

进军衣物护理市场:P7蒸汽挂烫机亮点解析与选购指南

10 月 28 日消息,追觅现已进军衣物护理市场,推出首款产品 P7 蒸汽挂烫机,主打 90° 旋转蝶翼、双核增压设计,拥有 5 大模式实现干湿双熨,售价 635 元。据最新介绍,这款产品外观号称

2025-10-29.

全球首款机器人教师在合肥小学开课,AI教育落地实践

10 月 28 日消息,据“合肥发布”消息,10 月 27 日,全球首款进入课堂教学场景的全尺寸仿生机器人,在合肥市师范附属小学的科学教育课上正式“开讲”。此举标志着由合肥本土企业研发的人工智能教

2025-10-29.

360企业级智能体平台:全阶段能力覆盖,驱动政企智能化转型

在近日举办的一场聚焦人工智能与产业融合的盛会上,360集团正式推出全球首个覆盖L2至L4全阶段能力的企业级智能体构建与运营平台。该平台旨在为政企用户提供从智能体创建、应用到管理的全链路解决方案,通过

2025-10-29.

王悦闯音综21强后主动退赛:零基础自学AI音乐实战经验分享

一位来自内蒙古包头市的非专业音乐人王悦,凭借对人工智能生成内容(AIGC)的浓厚兴趣,以自学AI技术的方式闯入音乐创作领域,并在芒果TV原创音乐综艺《原创新声2025》中引发广泛关注。作为国内首位登

2025-10-29.

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
率土之滨网易
率土之滨网易 棋牌策略 2025-10-29更新
查看
率土之滨360
率土之滨360 棋牌策略 2025-10-29更新
查看
宝宝巴士奇妙传统节日游戏
宝宝巴士奇妙传统节日游戏 休闲益智 2025-10-29更新
查看
率土之滨腾讯
率土之滨腾讯 棋牌策略 2025-10-29更新
查看
率土之滨应用宝
率土之滨应用宝 棋牌策略 2025-10-29更新
查看
率土之滨正
率土之滨正 棋牌策略 2025-10-29更新
查看
篮球战役
篮球战役 体育竞技 2025-10-29更新
查看
波兰球之战二战
波兰球之战二战 棋牌策略 2025-10-29更新
查看
率土之滨华为
率土之滨华为 棋牌策略 2025-10-29更新
查看
率土之滨无界
率土之滨无界 棋牌策略 2025-10-29更新
查看