小扎「梦之队」首批论文上线,LLM自举进化,单步性能狂飙22%

真Meta Superintelligence Labs新作来了!LLM学会「自我改进」:只做单步训练,推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上,ExIt持续拔高模型表现,其中MLE-bench相对GRPO提升约22%。
麻 将Meta超级实验室「Meta Superintelligence Labs,MSL」发了新论文!
如果你不断让大语言模型回答「把它改进一下」,会发生什么?
上周,MSL的三位成员上传了一篇ArXiv论文,探索了如何利用强化学习(RL)高效地微调大语言模型。
传送门:https://www.arxiv.org/abs/2509.04575
在推理时,LLM这次实现了迭代自我改进。
自我改进决策过程+GRPO
训练具备迭代自我改进能力的模型,代价不菲。
最直接的做法是训练模型执行K步自我改进,但这会让每个训练回合的轨迹步数(rollout步数)膨胀为原来的K倍。
他们提出了一种新的方法——探索迭代(Exploratory Iteration,ExIt)。
这是一个基于RL的自动课程学习方法。
通过「回收利用」大语言模型先前回合中生成的回答,新方法把这些回答作为新的起点,用于自我改进(self-improvement)或自我发散(self-divergence),从而逐步扩展和多样化训练分布。
探索迭代(ExIt)策略概览
DeepSeek的强化学习微调方法GRPO,性能强大,而且与之前的PPO方法相比减少了资源需求。
与PPO不同,GRPO不使用学习到的价值函数来计算基线项,而是使用一组G条蒙特卡洛轨迹,估计每个初始提示m的基线。
在此过程中,「可学习性分数」在训练过程中自然产生。
在决定下一个训练任务时,ExIt的课程机制会优先抽取那些在GRPO表现出更高回报方差的部分历史。
通过这种自举任务空间的自动课程,模型学会多步自我改进,但训练仅需单步任务。
为了抵消强化学习减少输出多样性的倾向,研究者直接纳入了寻求多样性的组件:发散改进(self-divergence)。
以概率p_div,自我迭代步成为自我发散步。
在这一步中,策略被提示在先前解决方案的基础上进行改进,同时显著偏离它(见下列提示)。
他们发现:
发散步能够从模型中诱导出有意义的不同响应,当整合到ExIt策略中时,可以增加任务空间的覆盖范围。
机器学习工程MLE-Bench比GRPO强22%
在单轮(竞赛数学问题)和多轮(BFCLv3多轮任务)场景中,以及MLE-bench中,研究者考察了ExIt的影响。
表1:在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估。数学结果是对所有测试分割的平均值。所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差,以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)
在MLE-bench中,大语言模型在搜索框架下运行,以产生针对真实Kaggle竞赛的解决方案。
在这些评估设置中,与GRPO相比,ExIt产生的模型在推理时具有更强的自我改进能力。
值得注意:在测试时,ExIt可进行超过训练典型深度的自我迭代;在MLE-bench上,对GRPO的相对提升约22%(58.6vs48.0)。
尽管在MLE-bench上,这次研究者使用简单的贪心搜索框架评估了ExIt,但这里的核心思想也可以应用于其他搜索框架。
实际上,其中许多都是while循环,在给定合适上下文的情况下,指示LLM对先前的解决方案进行自我改进。
作者进一步分析了不同方法在训练过程中所采样到的任务实例的多样性。
下图展示了各方法采样到的训练任务实例数量,相对于GRPO使用的基础训练集的比例。
实验结果表明:
1. 仅使用课程学习的基线方法会显著减少训练中遇到的不同任务实例数量。这说明优先级采样会导致同一训练实例被大量重复,从而压缩了任务多样性。
2. 这种任务多样性的降低,可能正是该基线方法表现逊色于ExIt变体的原因。而在ExIt中,自我迭代步骤有效地恢复了相当一部分丢失的多样性。
3. 对于完整的ExIt方法,我们观察到在课程机制下提升的多样性,与其在测试集上性能的提升相对应。
此外,在GRPO的基础分布中,所有MLE-bench任务起始点相同(同一个空Python模板);但ExIt下起始代码多样性大幅增加。
上图的右侧的UMAP降维结果进一步凸显了ExIt变体与基础任务集之间的差异:
在嵌入空间中,基础任务集几乎只是单一的一个点,而ExIt所产生的任务实例分布则显著更为分散。
直接追求新颖性的ExIt变体,能够在发现的任务实例中实现更高的平均余弦距离与L2距离。
其中,完整的ExIt方法达到了最大化的平均两两距离,这说明它在任务空间探索中最具多样性。
作者简介
第一作者,Minqi Jiang今年1月加入Meta,担任高级研究科学家,构建超级智能体。
从泛化(generalization)、人机协同(human-AI coordination)与开放式学习(open-ended learning)三个视角,他研究「既有用、又符合人类价值」的智能体。
他在谷歌的DeepMind人研究科学家期间,在Autonomous Assistants(自主助理)团队开始了这项研究。
他与Meta的渊源则更深。在2024年9月–2024年12月,他担任了Meta的访问研究员(Visiting Researcher),之后加入谷歌,直到今年1月再次入职Meta。
更早之前,他有多段创业和工作经历。
2008年-2012年,他就读于普林斯顿大学(Princeton University),获得了计算机科学、应用数学、创意写作学士学位。
2019年–2024年,他在伦敦大学学院(UCL)攻读计算机科学人工智能方向博士学位。
2024年1月–2024年6月,他还是牛津大学(University of Oxford)的访问研究员。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
最新文章
长安深蓝 S09 新品上市,售价 23.99 万起,续航升级配置丰富
在近期举行的深蓝汽车新品发布会上,长安深蓝 S09 正式推向市场,新车共推出多个配置版本,售价区间为 23 99 万元至 30 88 万元。外观设计方面,深蓝 S09 的超长续航超充版延续了现款在售
芥见下下续作咒术回战 MODULO引发宿傩外星血统猜想
近日,芥见下下推出咒术回战续作咒术回战 MODULO,作品一经发布便引发热议。不少读者在仔细阅读后注意到一些值得注意的细节,并由此展开联想,认为故事中的角色宿傩可能与外星生命存在关联。首先,续篇中提
开球!Rematch更新引争议:操作调整与玩法删减激怒玩家群体
一款以街机风格为特色的足球游戏开球!Rematch在9月初迎来了一次大规模更新,原本预期是一次令人振奋的新版本发布,却意外在玩家群体中引发了激烈争论。此次更新带来了多项新内容,包括跨平台联机功能、玩
零跑Lafa5全球首秀,高性能版同步亮相
9月8日消息,在慕尼黑车展期间,零跑汽车推出了旗下全新车型Lafa5,这款被称作“高颜值运动轿跑”的新车同步开启全球首秀及盲订,并计划于今年第四季度在中国市场正式发布,随后在2026年陆续面向全球市
苹果秋季发布会定档,iPhone 17系列全系电池容量曝光
苹果公司已正式发出今年秋季新品发布会的邀请函,活动定于太平洋时间9月9日上午10点举行,换算为北京时间则为9月10日凌晨1点。届时,包括全新iPhone 17系列在内的多款产品将正式亮相。此前已有消
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















