DeepMind新突破:AI智能体自主发现RL算法,性能超越人类设计
当人工智能开始具备自主“进化”能力时,人类在技术发展中的定位将面临重新定义。近日,Google DeepMind团队在顶尖期刊《自然》上发表了一项突破性研究,提出名为DiscoRL的全新方法,让智能体能够在多样化环境交互中自主发现强化学习规律,无需依赖人类预设算法框架。实验数据显示,该方法在Atari游戏基准测试中的表现超越了MuZero等主流强化学习算法,并且在陌生环境中依然保持卓越的稳定性。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
作为实现智能决策的核心技术,强化学习长期面临的关键挑战在于如何让智能体自主开发高效学习算法。传统方法依赖专家设计算法架构,不仅耗费大量人力资源,更难以适应复杂多变的环境场景。DeepMind团队提出的DiscoRL通过多个智能体在不同环境中的交互经验,实现了学习规则的自适应演化。该技术的核心突破在于融合了智能体优化与元学习机制:智能体通过策略更新和预测优化来调整自身参数,元网络则通过动态调整学习目标,持续优化智能体的长期累积回报。
具体实施过程中,智能体的训练包含双重优化机制:在智能体优化阶段,研究团队采用KL散度来平衡策略更新与预测精度,确保训练过程的稳定性。智能体会同步输出策略函数、状态预测与动作价值评估,元网络则据此生成动态学习目标,智能体再根据这些目标调整内部参数。与此同时,模型引入辅助损失函数,通过优化动作价值与策略预测来提升学习效率。在元优化阶段,多个智能体在不同环境中独立学习,元网络根据整体表现计算元梯度,调整参数以最大化长期收益。通过定期重置智能体参数,确保学习规则能在有限时间内快速提升性能。
为验证DiscoRL的有效性,研究团队采用四分位数均值作为综合性能指标,在Atari基准测试体系中进行了系统评估。基于57款Atari游戏训练得到的Disco57规则,在相同游戏中的IQM得分达到13.86,显著超越MuZero、Dreamer等现有算法,其实际运行效率更是明显优于MuZero。进一步测试表明,Disco57在16个ProcGen二维游戏和Crafter基准测试中均表现优异,并在NetHack NeurIPS 2024挑战赛中荣获第三名,且未使用任何领域特定知识。
研究还发现,环境复杂度与多样性对学习规则的泛化能力具有重要影响。基于Atari、ProcGen和DMLab-30三个基准(共103个环境)演化出的Disco103规则,在Crafter基准上达到了人类水平表现,同时在Sokoban任务中接近MuZero的最优性能。这表明参与训练的环境越复杂多样,所发现的学习规则就越强大,即使面对全新环境也能保持高效适应。
在效率与稳定性方面,DiscoRL同样表现突出。最优版本的Disco57规则在每款Atari游戏约60亿步内即可被发现,相当于在57款游戏中仅进行3轮实验,远低于传统人工设计算法所需的研究周期和人力投入。随着训练环境数量的增加,DiscoRL在陌生ProcGen基准上的性能持续提升,展现出卓越的扩展性。
DeepMind团队指出,未来高级人工智能的强化学习算法设计可能将由机器主导,通过高效扩展数据与计算能力实现自动化演进,无需人类持续干预。这项突破虽为学术领域带来新的可能性,但也引发了人们对技术社会影响的思考——当前社会尚未完全准备好应对此类技术的广泛应用。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
“下一代核心技术专利申请,中国首超日本”
中国钙钛矿电池专利申请量首超日本,产业化进程领跑全球 在可再生能源领域,被视为下一代核心技术的钙钛矿太阳能电池,最近传来一个标志性消息。根据《日经亚洲》5日的报道,一项专项研究显示,中国在该领域的专利申请总量,首次超越了长期占据榜首的日本。 什么是钙钛矿太阳能电池?简单来说,它是一种利用特殊钙钛矿材
水滴公司股权曝光:沈鹏持股22%有72%投票权 腾讯是大股东
水滴公司2025年报解读:股权结构稳固,盈利曲线持续上扬 近日,水滴公司(NYSE: WDH)发布了2025年度报告,为我们揭开了这家健康保障科技平台最新的运营面貌与权力架构。一份年报,几组关键数据,背后是业务重心的变迁与财务健康的晴雨表。 先看最核心的股权与控制权。截至2026年3月31日,创始人
中国移动官宣将推AI-eSIM产品
2026移动云大会前瞻:中国移动官宣AI-eSIM,为智能终端装上“大脑”与“身份证” 5月的苏州金鸡湖,即将迎来一场科技盛会。根据官方消息,2026移动云大会定于5月7日至9日在苏州金鸡湖国际会议中心举行。就在大会前夕,中国移动正式官宣了一项重磅产品——AI-eSIM,旨在为下一代智能设备带来变革
推动“人工智能+制造”走深走实
推动“人工智能+制造”走深走实 来源:人民日报海外版 制造业的智能化转型,最近又迎来了一剂强心针。工业和信息化部与国家数据局联合出手,正式启动了2026年的“模数共振”行动。这项行动瞄准了制造业的20个重点行业,计划在一批重点城市先行先试,目标很明确:要探索出一条能持续产出场景、模型、智能体、数据集
Anthropic:成立AI服务公司,面向中型企业落地Claude
Anthropic联手顶级资本,成立AI服务公司专攻中型企业市场 一则重磅消息在科技圈传开。当地时间5月4日,AI领域的明星公司Anthropic正式宣布,将与黑石集团、赫尔曼与弗里德曼以及高盛共同成立一家全新的人工智能服务公司。 那么,这家新公司究竟要做什么?根据官方新闻稿,其核心目标非常明确:与
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

