首页科技资讯软件教程游戏攻略手机游戏

首页

科技

小扎「梦之队」首批论文上线，LLM自举进化，单步性能狂飙22%

小扎「梦之队」首批论文上线，LLM自举进化，单步性能狂飙22%

热心网友

172

转载

2025-09-09

来源:https://36kr.com/p/3458963097703817

真Meta Superintelligence Labs新作来了！LLM学会「自我改进」：只做单步训练，推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上，ExIt持续拔高模型表现，其中MLE-bench相对GRPO提升约22%。

麻将

Meta超级实验室「Meta Superintelligence Labs，MSL」发了新论文！

如果你不断让大语言模型回答「把它改进一下」，会发生什么？

上周，MSL的三位成员上传了一篇ArXiv论文，探索了如何利用强化学习（RL）高效地微调大语言模型。

传送门：https://www.arxiv.org/abs/2509.04575

在推理时，LLM这次实现了迭代自我改进。

自我改进决策过程+GRPO

训练具备迭代自我改进能力的模型，代价不菲。

最直接的做法是训练模型执行K步自我改进，但这会让每个训练回合的轨迹步数（rollout步数）膨胀为原来的K倍。

他们提出了一种新的方法——探索迭代（Exploratory Iteration，ExIt）。

这是一个基于RL的自动课程学习方法。

通过「回收利用」大语言模型先前回合中生成的回答，新方法把这些回答作为新的起点，用于自我改进（self-improvement）或自我发散（self-divergence），从而逐步扩展和多样化训练分布。

探索迭代（ExIt）策略概览

DeepSeek的强化学习微调方法GRPO，性能强大，而且与之前的PPO方法相比减少了资源需求。

与PPO不同，GRPO不使用学习到的价值函数来计算基线项，而是使用一组G条蒙特卡洛轨迹，估计每个初始提示m的基线。

在此过程中，「可学习性分数」在训练过程中自然产生。

在决定下一个训练任务时，ExIt的课程机制会优先抽取那些在GRPO表现出更高回报方差的部分历史。

通过这种自举任务空间的自动课程，模型学会多步自我改进，但训练仅需单步任务。

为了抵消强化学习减少输出多样性的倾向，研究者直接纳入了寻求多样性的组件：发散改进（self-divergence）。

以概率p_div，自我迭代步成为自我发散步。

在这一步中，策略被提示在先前解决方案的基础上进行改进，同时显著偏离它（见下列提示）。

他们发现：

发散步能够从模型中诱导出有意义的不同响应，当整合到ExIt策略中时，可以增加任务空间的覆盖范围。

机器学习工程MLE-Bench比GRPO强22%

在单轮（竞赛数学问题）和多轮（BFCLv3多轮任务）场景中，以及MLE-bench中，研究者考察了ExIt的影响。

表1：在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估。数学结果是对所有测试分割的平均值。所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差，以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)

在MLE-bench中，大语言模型在搜索框架下运行，以产生针对真实Kaggle竞赛的解决方案。

在这些评估设置中，与GRPO相比，ExIt产生的模型在推理时具有更强的自我改进能力。

值得注意：在测试时，ExIt可进行超过训练典型深度的自我迭代；在MLE-bench上，对GRPO的相对提升约22%（58.6vs48.0）。

尽管在MLE-bench上，这次研究者使用简单的贪心搜索框架评估了ExIt，但这里的核心思想也可以应用于其他搜索框架。

实际上，其中许多都是while循环，在给定合适上下文的情况下，指示LLM对先前的解决方案进行自我改进。

作者进一步分析了不同方法在训练过程中所采样到的任务实例的多样性。

下图展示了各方法采样到的训练任务实例数量，相对于GRPO使用的基础训练集的比例。

实验结果表明：

1. 仅使用课程学习的基线方法会显著减少训练中遇到的不同任务实例数量。这说明优先级采样会导致同一训练实例被大量重复，从而压缩了任务多样性。

2. 这种任务多样性的降低，可能正是该基线方法表现逊色于ExIt变体的原因。而在ExIt中，自我迭代步骤有效地恢复了相当一部分丢失的多样性。

3. 对于完整的ExIt方法，我们观察到在课程机制下提升的多样性，与其在测试集上性能的提升相对应。

此外，在GRPO的基础分布中，所有MLE-bench任务起始点相同（同一个空Python模板）；但ExIt下起始代码多样性大幅增加。

上图的右侧的UMAP降维结果进一步凸显了ExIt变体与基础任务集之间的差异：

在嵌入空间中，基础任务集几乎只是单一的一个点，而ExIt所产生的任务实例分布则显著更为分散。

直接追求新颖性的ExIt变体，能够在发现的任务实例中实现更高的平均余弦距离与L2距离。

其中，完整的ExIt方法达到了最大化的平均两两距离，这说明它在任务空间探索中最具多样性。

作者简介

第一作者，Minqi Jiang今年1月加入Meta，担任高级研究科学家，构建超级智能体。

从泛化（generalization）、人机协同（human-AI coordination）与开放式学习（open-ended learning）三个视角，他研究「既有用、又符合人类价值」的智能体。

他在谷歌的DeepMind人研究科学家期间，在Autonomous Assistants（自主助理）团队开始了这项研究。

他与Meta的渊源则更深。在2024年9月–2024年12月，他担任了Meta的访问研究员（Visiting Researcher），之后加入谷歌，直到今年1月再次入职Meta。

更早之前，他有多段创业和工作经历。

2008年-2012年，他就读于普林斯顿大学（Princeton University），获得了计算机科学、应用数学、创意写作学士学位。

2019年–2024年，他在伦敦大学学院（UCL）攻读计算机科学人工智能方向博士学位。

2024年1月–2024年6月，他还是牛津大学（University of Oxford）的访问研究员。

上一篇：芯片巨头重大高管变动，产品主管离职

下一篇：字节跳动发布 Seedream 4.0 图像创作模型，豆包、即梦可免费体验

免责声明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

最新文章

长安深蓝 S09 新品上市，售价 23.99 万起，续航升级配置丰富

在近期举行的深蓝汽车新品发布会上，长安深蓝 S09 正式推向市场，新车共推出多个配置版本，售价区间为 23 99 万元至 30 88 万元。外观设计方面，深蓝 S09 的超长续航超充版延续了现款在售

2025-09-09.

4172

芥见下下续作咒术回战 MODULO引发宿傩外星血统猜想

近日，芥见下下推出咒术回战续作咒术回战 MODULO，作品一经发布便引发热议。不少读者在仔细阅读后注意到一些值得注意的细节，并由此展开联想，认为故事中的角色宿傩可能与外星生命存在关联。首先，续篇中提

2025-09-09.

8029

开球！Rematch更新引争议：操作调整与玩法删减激怒玩家群体

一款以街机风格为特色的足球游戏开球！Rematch在9月初迎来了一次大规模更新，原本预期是一次令人振奋的新版本发布，却意外在玩家群体中引发了激烈争论。此次更新带来了多项新内容，包括跨平台联机功能、玩

2025-09-09.

4839

零跑Lafa5全球首秀，高性能版同步亮相

9月8日消息，在慕尼黑车展期间，零跑汽车推出了旗下全新车型Lafa5，这款被称作“高颜值运动轿跑”的新车同步开启全球首秀及盲订，并计划于今年第四季度在中国市场正式发布，随后在2026年陆续面向全球市

2025-09-09.

8856

苹果秋季发布会定档，iPhone 17系列全系电池容量曝光

苹果公司已正式发出今年秋季新品发布会的邀请函，活动定于太平洋时间9月9日上午10点举行，换算为北京时间则为9月10日凌晨1点。届时，包括全新iPhone 17系列在内的多款产品将正式亮相。此前已有消

2025-09-09.

9254

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门推荐

苹果首发！曝iPhone 17系列国行版将落地eSIM 从“响应式”到“协作级”，联想百应智能体2.0重磅升级，开启企业AI服务新范式捷达VS8正式上市，定位家用SUV，预售价9.9万起华为Mate XTs发布，金铲铲之战鸿蒙版9月25日上线密码策略不设防？等保 2.0 下，这些 Linux 加固配置你必须知道！领峰环球：非农之夜行情波动加剧，专业黄金交易平台为投资保驾护航！单用户模式密码重置，运维人最最最基本技能，别说你不懂！《明末：渊虚之羽》少女刀剑度众生网络性能提升实战：单队列vs多队列性能实测对比库克、扎克伯格都去了特朗普宴请科技大佬：马斯克缺席

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

十三号病院怎么拿到痒痒挠十三号病院拿痒痒挠详细攻略

十三号病院怎么拿到痒痒挠十三号病院拿痒痒挠详细攻略发布于 2025-09-09

地下城与勇士手游攻略选择哪个角色好后期 dnf手游后期强力职业推荐

地下城与勇士手游攻略选择哪个角色好后期 dnf手游后期强力职业推荐发布于 2025-09-09

占山为王2游戏怎么玩占山为王2开局详细攻略

占山为王2游戏怎么玩占山为王2开局详细攻略发布于 2025-09-09

永远的蔚蓝星球攻略90关永远的蔚蓝星球90关速通攻略

永远的蔚蓝星球攻略90关永远的蔚蓝星球90关速通攻略发布于 2025-09-09

永远的蔚蓝星球攻略75关怎么打永远的蔚蓝星球75关攻略

永远的蔚蓝星球攻略75关怎么打永远的蔚蓝星球75关攻略发布于 2025-09-09

育碧揭秘：Switch 2 实体版采用钥匙卡，非为省钱而是性能受限

育碧揭秘：Switch 2 实体版采用钥匙卡，非为省钱而是性能受限发布于 2025-09-09

《空洞骑士：丝之歌》热度爆棚，Steam 预估销量突破 250 万份大关

《空洞骑士：丝之歌》热度爆棚，Steam 预估销量突破 250 万份大关发布于 2025-09-09

《三角洲行动》主机版发售引爆热潮 Steam同时在线破21.3万创新高

《三角洲行动》主机版发售引爆热潮 Steam同时在线破21.3万创新高发布于 2025-09-09

苏联传奇防空利器 “入驻”《战争雷霆》，山毛榉 - M3 正式亮相

苏联传奇防空利器 “入驻”《战争雷霆》，山毛榉 - M3 正式亮相发布于 2025-09-09

魔灵召唤： SWC2025中国选拔赛冠军 “Kangjing”，晋级巴黎总决赛

魔灵召唤： SWC2025中国选拔赛冠军 “Kangjing”，晋级巴黎总决赛发布于 2025-09-09

iPhone 17 Pro Max电池容量首破5000mAh，但国行版因物理卡槽略有缩水

iPhone 17 Pro Max电池容量首破5000mAh，但国行版因物理卡槽略有缩水发布于 2025-09-09

消息称苹果 Apple Watch SE 3 本周发布：全新 S11 芯片、同步配大尺寸显示屏

消息称苹果 Apple Watch SE 3 本周发布：全新 S11 芯片、同步配大尺寸显示屏发布于 2025-09-09

消息称苹果今年将量产 1 亿部 iPhone 17 系列手机：Pro Max 领跑，Air 产量最低

消息称苹果今年将量产 1 亿部 iPhone 17 系列手机：Pro Max 领跑，Air 产量最低发布于 2025-09-09

苹果 iPhone 17 / Pro 系列电池容量曝光：国行小于美版，Pro Max 首破 5000mAh

苹果 iPhone 17 / Pro 系列电池容量曝光：国行小于美版，Pro Max 首破 5000mAh 发布于 2025-09-09

堪比尼区远低土区：苹果 iCloud+ 国区限时 8.5 折，iPhone 17 系列官方云上扩容

堪比尼区远低土区：苹果 iCloud+ 国区限时 8.5 折，iPhone 17 系列官方云上扩容发布于 2025-09-09

宏碁新款Swift 16亮相：首发英特尔Panther Lake AI处理器

宏碁新款Swift 16亮相：首发英特尔Panther Lake AI处理器发布于 2025-09-05

罗技Signature Slim太阳能键盘亮相：10年续航无线体验

罗技Signature Slim太阳能键盘亮相：10年续航无线体验发布于 2025-09-05

英伟达或将削减RTX 5060系列显卡供货量

英伟达或将削减RTX 5060系列显卡供货量发布于 2025-09-03

Framework推出定制散热配件：猫头鹰升级款降低7dB噪音风扇

Framework推出定制散热配件：猫头鹰升级款降低7dB噪音风扇发布于 2025-09-03

【新品速递】BYONE BAX16三屏笔记本上架：16英寸主屏+双10.5英寸副屏，672美元起

【新品速递】BYONE BAX16三屏笔记本上架：16英寸主屏+双10.5英寸副屏，672美元起发布于 2025-09-03

最新下载

牧场割草模拟器

牧场割草模拟器休闲益智 2025-09-09更新

查看

卡通飞机游戏

卡通飞机游戏休闲益智 2025-09-09更新

查看

pool break lite

pool break lite 体育竞技 2025-09-09更新

查看

解压饮料模拟器

解压饮料模拟器休闲益智 2025-09-09更新

查看

美味星球2正

美味星球2正休闲益智 2025-09-09更新

查看

我要当元帅

我要当元帅休闲益智 2025-09-09更新

查看

蹦蹦也疯狂

蹦蹦也疯狂休闲益智 2025-09-09更新

查看

模拟农场14

模拟农场14 休闲益智 2025-09-09更新

查看

房屋设计师

房屋设计师休闲益智 2025-09-09更新

查看

西蒙的猫跑酷手游

西蒙的猫跑酷手游休闲益智 2025-09-09更新

查看

热门话题

魔术游戏鸣人的假期刀塔传奇饥荒拉布布游戏洛克王国神魔幻想思美人疯狂越野