小扎「梦之队」首批论文上线,LLM自举进化,单步性能狂飙22%
真Meta Superintelligence Labs新作来了!LLM学会「自我改进」:只做单步训练,推理却能多步迭代。在数学、工具调用、多轮任务到MLE-bench上,ExIt持续拔高模型表现,其中MLE-bench相对GRPO提升约22%。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
麻 将Meta超级实验室「Meta Superintelligence Labs,MSL」发了新论文!
如果你不断让大语言模型回答「把它改进一下」,会发生什么?
上周,MSL的三位成员上传了一篇ArXiv论文,探索了如何利用强化学习(RL)高效地微调大语言模型。

传送门:https://www.arxiv.org/abs/2509.04575
在推理时,LLM这次实现了迭代自我改进。
自我改进决策过程+GRPO
训练具备迭代自我改进能力的模型,代价不菲。
最直接的做法是训练模型执行K步自我改进,但这会让每个训练回合的轨迹步数(rollout步数)膨胀为原来的K倍。
他们提出了一种新的方法——探索迭代(Exploratory Iteration,ExIt)。
这是一个基于RL的自动课程学习方法。
通过「回收利用」大语言模型先前回合中生成的回答,新方法把这些回答作为新的起点,用于自我改进(self-improvement)或自我发散(self-divergence),从而逐步扩展和多样化训练分布。

探索迭代(ExIt)策略概览
DeepSeek的强化学习微调方法GRPO,性能强大,而且与之前的PPO方法相比减少了资源需求。
与PPO不同,GRPO不使用学习到的价值函数来计算基线项,而是使用一组G条蒙特卡洛轨迹,估计每个初始提示m的基线。
在此过程中,「可学习性分数」在训练过程中自然产生。

在决定下一个训练任务时,ExIt的课程机制会优先抽取那些在GRPO表现出更高回报方差的部分历史。

通过这种自举任务空间的自动课程,模型学会多步自我改进,但训练仅需单步任务。
为了抵消强化学习减少输出多样性的倾向,研究者直接纳入了寻求多样性的组件:发散改进(self-divergence)。
以概率p_div,自我迭代步成为自我发散步。
在这一步中,策略被提示在先前解决方案的基础上进行改进,同时显著偏离它(见下列提示)。

他们发现:
发散步能够从模型中诱导出有意义的不同响应,当整合到ExIt策略中时,可以增加任务空间的覆盖范围。
机器学习工程MLE-Bench比GRPO强22%
在单轮(竞赛数学问题)和多轮(BFCLv3多轮任务)场景中,以及MLE-bench中,研究者考察了ExIt的影响。

表1:在保留的任务实例上对ExIt及其消融实验和GRPO基线的评估。数学结果是对所有测试分割的平均值。所有结果都是在3次训练运行后经过16次改进步骤的性能的均值和标准差,以及从初始响应到经过K次自我改进步骤后的最终响应之间的净百分比改进(ΔK)
在MLE-bench中,大语言模型在搜索框架下运行,以产生针对真实Kaggle竞赛的解决方案。
在这些评估设置中,与GRPO相比,ExIt产生的模型在推理时具有更强的自我改进能力。
值得注意:在测试时,ExIt可进行超过训练典型深度的自我迭代;在MLE-bench上,对GRPO的相对提升约22%(58.6vs48.0)。
尽管在MLE-bench上,这次研究者使用简单的贪心搜索框架评估了ExIt,但这里的核心思想也可以应用于其他搜索框架。
实际上,其中许多都是while循环,在给定合适上下文的情况下,指示LLM对先前的解决方案进行自我改进。

作者进一步分析了不同方法在训练过程中所采样到的任务实例的多样性。
下图展示了各方法采样到的训练任务实例数量,相对于GRPO使用的基础训练集的比例。

实验结果表明:
1. 仅使用课程学习的基线方法会显著减少训练中遇到的不同任务实例数量。这说明优先级采样会导致同一训练实例被大量重复,从而压缩了任务多样性。
2. 这种任务多样性的降低,可能正是该基线方法表现逊色于ExIt变体的原因。而在ExIt中,自我迭代步骤有效地恢复了相当一部分丢失的多样性。
3. 对于完整的ExIt方法,我们观察到在课程机制下提升的多样性,与其在测试集上性能的提升相对应。
此外,在GRPO的基础分布中,所有MLE-bench任务起始点相同(同一个空Python模板);但ExIt下起始代码多样性大幅增加。
上图的右侧的UMAP降维结果进一步凸显了ExIt变体与基础任务集之间的差异:
在嵌入空间中,基础任务集几乎只是单一的一个点,而ExIt所产生的任务实例分布则显著更为分散。
直接追求新颖性的ExIt变体,能够在发现的任务实例中实现更高的平均余弦距离与L2距离。
其中,完整的ExIt方法达到了最大化的平均两两距离,这说明它在任务空间探索中最具多样性。
作者简介
第一作者,Minqi Jiang今年1月加入Meta,担任高级研究科学家,构建超级智能体。

从泛化(generalization)、人机协同(human-AI coordination)与开放式学习(open-ended learning)三个视角,他研究「既有用、又符合人类价值」的智能体。
他在谷歌的DeepMind人研究科学家期间,在Autonomous Assistants(自主助理)团队开始了这项研究。

他与Meta的渊源则更深。在2024年9月–2024年12月,他担任了Meta的访问研究员(Visiting Researcher),之后加入谷歌,直到今年1月再次入职Meta。
更早之前,他有多段创业和工作经历。

2008年-2012年,他就读于普林斯顿大学(Princeton University),获得了计算机科学、应用数学、创意写作学士学位。
2019年–2024年,他在伦敦大学学院(UCL)攻读计算机科学人工智能方向博士学位。
2024年1月–2024年6月,他还是牛津大学(University of Oxford)的访问研究员。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
“下一代核心技术专利申请,中国首超日本”
中国钙钛矿电池专利申请量首超日本,产业化进程领跑全球 在可再生能源领域,被视为下一代核心技术的钙钛矿太阳能电池,最近传来一个标志性消息。根据《日经亚洲》5日的报道,一项专项研究显示,中国在该领域的专利申请总量,首次超越了长期占据榜首的日本。 什么是钙钛矿太阳能电池?简单来说,它是一种利用特殊钙钛矿材
水滴公司股权曝光:沈鹏持股22%有72%投票权 腾讯是大股东
水滴公司2025年报解读:股权结构稳固,盈利曲线持续上扬 近日,水滴公司(NYSE: WDH)发布了2025年度报告,为我们揭开了这家健康保障科技平台最新的运营面貌与权力架构。一份年报,几组关键数据,背后是业务重心的变迁与财务健康的晴雨表。 先看最核心的股权与控制权。截至2026年3月31日,创始人
中国移动官宣将推AI-eSIM产品
2026移动云大会前瞻:中国移动官宣AI-eSIM,为智能终端装上“大脑”与“身份证” 5月的苏州金鸡湖,即将迎来一场科技盛会。根据官方消息,2026移动云大会定于5月7日至9日在苏州金鸡湖国际会议中心举行。就在大会前夕,中国移动正式官宣了一项重磅产品——AI-eSIM,旨在为下一代智能设备带来变革
推动“人工智能+制造”走深走实
推动“人工智能+制造”走深走实 来源:人民日报海外版 制造业的智能化转型,最近又迎来了一剂强心针。工业和信息化部与国家数据局联合出手,正式启动了2026年的“模数共振”行动。这项行动瞄准了制造业的20个重点行业,计划在一批重点城市先行先试,目标很明确:要探索出一条能持续产出场景、模型、智能体、数据集
Anthropic:成立AI服务公司,面向中型企业落地Claude
Anthropic联手顶级资本,成立AI服务公司专攻中型企业市场 一则重磅消息在科技圈传开。当地时间5月4日,AI领域的明星公司Anthropic正式宣布,将与黑石集团、赫尔曼与弗里德曼以及高盛共同成立一家全新的人工智能服务公司。 那么,这家新公司究竟要做什么?根据官方新闻稿,其核心目标非常明确:与
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

