GRPO模型在《时空谜题》评测中超越o1与o3-mini及R1
近日,海外知名大模型服务平台OpenPipe发布了一项突破性研究,详细展示了如何通过GRPO强化学习技术,在复杂逻辑推理游戏《时空谜题》上,让开源模型的性能超越了DeepSeek R1、OpenAI o1、o3-mini等一众顶尖推理模型。这项由Ender Research强化学习专家Brad Hilton与OpenPipe创始人Kyle Corbitt共同主导的研究,不仅大幅缩小了与当前最强模型Claude Sonnet 3.7的性能差距,更实现了超过100倍的推理成本优化。报告完整分享了从任务设计到超参数调优的全套经验,并开源了基于torchtune框架构建的训练方案。
一、背景介绍:推理模型的演进与挑战
自OpenAI推出具有划时代意义的o系列推理模型以来,采用强化学习技术训练的大语言模型迎来了高速发展期。从谷歌DeepMind、阿里巴巴、DeepSeek到Anthropic,全球领先的AI厂商相继推出了支持长思维链推理的先进模型。通过在可验证问题上实施强化学习训练,传统基准测试的性能极限正被不断刷新。
然而,尽管进步显著,逻辑演绎能力仍是当前大语言模型普遍存在的短板。现有模型主要存在三大核心缺陷:难以稳定追踪所有关键细节、无法保持逻辑严密的推理过程,以及多步推理衔接的可靠性不足。即便是顶尖模型生成的长篇输出中,也频繁出现人类可轻易识别的逻辑错误。
这引出了一个关键问题:较小型的开源模型能否借助前沿的强化学习技术,突破演绎推理的瓶颈?研究团队正是从这个疑问出发,从性能相对较弱的模型开始,在一项全新的推理任务上进行系统性训练。随着迭代的深入,模型的推理能力呈现出清晰的提升轨迹,最终甚至超越了部分先进专有模型的水平。
二、基准测试框架与任务设计
要开展有效的实验,首先需要确定一个具有明确可验证答案、且具备足够挑战性的推理任务。研究团队恰好拥有一个完全符合要求的谜题集——“时空谜题”。该谜题集不仅满足事实真相清晰可验证的标准,还能根据需要灵活生成新的测试用例。
“时空谜题”的设计灵感来源于经典桌游《Clue》(又名《Cluedo》)。在原游戏基础上,它转变为一个单人逻辑谜题,在保留“凶手、凶器、地点”这三个经典要素的同时,新增了“作案时间”和“作案动机”两个推理维度。谜题由算法随机生成,并利用OR-Tools的CP-SAT求解器进行线索筛选,确保了逻辑的严密性与多样性。
基准测试的核心任务,是让模型扮演侦探角色,从一段充满线索的叙事中找出完整真相。为明确这项推理任务的性能上限,研究团队对多个当前热门的推理模型进行了全面基准测试,包括DeepSeek R1、OpenAI的o1和o3-mini,以及Anthropic的Claude Sonnet 3.7。同时,他们也测试了14B和32B参数的Qwen模型作为性能基线。测试结果如下:

测试发现,在设定6.4万个token的上下文条件下,Claude Sonnet 3.7表现最为出色。DeepSeek R1的表现则与OpenAI的o1和o3-mini处于同一梯队。相比之下,未经专门调优的Qwen 2.5 Instruct模型则存在明显差距。
于是,核心研究问题变得清晰:我们能否将这些较小型的、开放权重的模型,通过训练提升到前沿水平?答案是肯定的,关键在于采用正确的训练方法。
三、GRPO训练方法与实施过程
为训练出具备前沿水平的推理模型,研究团队采用了强化学习方法。其核心思路是:让大语言模型针对每个谜题生成多个回复,以此探索解题的各种可能性路径。对于得出正确答案的推理过程,给予正向奖励;而对于将模型引入歧途的错误推理,则进行相应惩罚。
在众多强化学习算法中,团队选用了DeepSeek模型所采用的GRPO算法。与PPO等传统方法相比,GRPO不仅表现出卓越的性能,还显著简化了训练流程和实现复杂度。
从宏观流程看,整个训练遵循以下几个关键步骤:
- 针对特定谜题任务,使用当前模型生成多个候选回复。
- 对这些回复进行精确评分,并为每组对话回复估算一个“优势值”,用以量化该回复优于平均水平的程度。
- 利用这些优势值,通过结果引导的裁剪策略梯度对模型进行微调。
- 使用新的谜题和更新后的模型版本,重复上述步骤,直至模型性能达到最佳状态。
在生成回复环节,团队使用了流行的vLLM推理引擎,并对参数进行了精细调优。他们发现,向vLLM发送过多并发请求会导致正在处理的请求被抢占。为解决这个问题,团队使用了一个经过调优的信号量来限制请求数量,从而在保持较高键值缓存利用率的同时,尽量减少上下文切换的开销。
采样完成后,使用HuggingFace Transformers的AutoTokenizer对回复进行处理。其聊天模板功能可以将消息对象渲染为提示字符串,并生成一个“助手掩码”,用于标识哪些标记是由大语言模型生成的。团队发现这些模型的默认模板中缺少必要的“生成”标签,因此在token化步骤中对模板进行了针对性修改。最终得到的助手掩码被整合进用于调优的张量字典中,以明确哪些位置需要计算损失。
获得助手掩码后,便开始对数据进行“打包”以便高效调优。除了在每个打包序列中包含多个提示和回复外,团队还识别出共享的提示标记,为每个标记分配一个“父ID”,并附上标准的“组ID”。对于像“时空谜题”这样平均每个谜题超过1000个标记的任务,为每个任务生成多个回复并高效打包张量,能显著减少计算冗余。一旦所有必要信息打包完毕,训练数据集便能以二维形式直观呈现,每一行都是一个可能包含多个提示和回复的标记序列。
数据准备就绪后,调优正式启动。模型本身已经完成了预训练和指令微调,具备了一定的基础智能。虽然它们还无法稳定地解决谜题,但偶尔也能成功。训练的核心目标,就是通过提高正确推理路径的概率,逐步引导模型向“神探”的推理水平迈进。在计算损失和调整权重时,采用的是策略梯度方法。
在训练基础设施方面,团队使用了PyTorch团队提供的Torchtune库。该库支持Llama、Gemma、Phi等热门模型架构。除了Qwen模型,团队也用80亿参数和700亿参数的Llama模型进行了对比实验。Torchtune还提供了一系列节省内存和提升性能的工具,包括:激活检查点、激活卸载、量化,以及参数高效微调技术(如LoRA)。此外,它支持多设备和多节点训练,可以结合全分片数据并行(FSDP)和张量并行(TP)。团队基于其提供的十多个训练配方进行定制化修改,完整的微调方案支持多设备/单设备训练、参考模型加载与权重交换(用于计算KL散度)、使用组ID和父ID进行高级因果掩码计算,以及GRPO损失的集成与组件日志记录。
强化学习训练离不开超参数的精心选择。在训练过程中,团队测试了多种配置组合,最终确定了以下核心参数:
- 模型选择: Qwen 2.5 Instruct 14B和32B版本。
- 每次迭代的任务数: 32个。
- 每个任务的样本数: 50个。
- 每次迭代总样本数: 32 × 50 = 1600个。
- 学习率: 6×10⁻⁶。
- 微批次大小: 对于14B模型为4个序列,对于32B模型为8个序列。
- 批次大小: 可变,取决于序列数量。
批次大小之所以可变,是因为训练过程中回复长度不一致。每次迭代的序列打包效率会有波动,并且优势值为零的回复会被直接丢弃。团队曾尝试将学习率与批次大小动态地成反比调整,但这导致在小批次时学习率过高。经过上限处理后的版本,与使用恒定学习率相比并未显示出明显优势。不过,调整批次大小和学习率之间的关系,仍然是未来值得深入探索的方向。
团队还进行了一个简短实验:在保持每次迭代总样本数大致相等的前提下,反向调整每次迭代的任务数和每个任务的样本数(即一个增加,另一个减少)。在较短的训练周期内,这些变化没有产生明显差异,这表明训练配方对于任务数量与单任务样本量之间的不同配比具有强鲁棒性。
四、实验结果与深度分析
经过超过100次的迭代训练,模型成功达到了前沿级别的推理水平。
模型能够在准确率下降之前实现快速改进。在最佳状态下,14B参数、1.6万token上下文长度的模型,其性能已经非常接近于Claude Sonnet 3.7。而32B参数、6.4万token的模型,更是几乎追平了Sonnet的测试结果。
在训练期间,性能提升遵循幂律规律,在图表上呈现出清晰的线性关系(直到性能开始恶化前)。
团队还观察到训练期间输出长度呈现出的有趣规律:最初,模型的回复会逐渐变长;随后趋于稳定;在训练接近尾声时出现分化——14B模型的回复变得更长,而32B模型的回复长度反而缩短了(尤其是在达到最佳性能之后)。
为了从定性角度评估逻辑推理能力的提升,研究团队进行了一项创新测试:让当前最先进的模型Claude Sonnet 3.7,去识别并评估Qwen 32B模型(训练前后)所做出的推论的合理性。结果发现,Sonnet从基础模型中识别出6个推论,其中只有一个被判定为正确。相反,从经过训练的模型中识别出7个推论,除了一个被判定为错误外,其余均被认定为逻辑合理。
最后,在假设按需部署且拥有足够吞吐量的前提下,团队根据Fireworks AI的无服务器定价层级估算了Qwen模型的推理成本。他们绘制了准确性与推理成本的关系图,发现在未经调优的模型中存在一条清晰的线性帕累托前沿线。而经过训练后,模型极大地改善了成本与准确性之间的权衡关系,实现了显著的性价比提升。
五、结论与未来展望
这项研究成功探索了小型开源语言模型通过强化学习实现前沿水平演绎推理能力的可行性。在对“时空谜题”进行专项训练时,团队通过精心设计的超参数和GRPO方法,对Qwen 14B和32B模型进行了高效调优,显著提升了其逻辑推理性能。这些改进使得开源模型在推理能力方面达到了行业前沿水平,同时大幅度降低了推理成本。研究结果充分凸显了强化学习在高效训练开源模型处理复杂演绎任务方面的巨大潜力与应用前景。
此外,研究还有一个令人惊喜的发现:仅需16个高质量的训练样本,就能实现高达10-15%的性能提升。这意味着,进行有效的推理能力训练,可能并不需要海量的数据,关键在于训练方法和数据质量。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
零一万物迎来三位新高管 李开复详解一把手工程
零一万物近期完成核心高管团队调整。前百度高管沈鹏飞加盟,统筹国内ToB与ToG业务拓展。同时擢升赵斌强、宁宁为副总裁,分别负责AI模型研发与国际业务咨询。此次布局旨在协同市场、技术与国际三大方向,全面升级企业级大模型解决方案能力,以支撑其“AllintoB”与“一把手工程”战略的落地推进。
MiniMax高级研究总监钟怡然半年前离职独家消息
MiniMax高级研究总监钟怡然半年前离职。他曾主导关键项目MiniMax-01的研发,其创新的LightningAttention架构显著提升了模型的长上下文处理效率。公司对其过往贡献表示感谢并送上祝福。
爱诗科技B+轮融资1亿元 ARR突破4000万美元
爱诗科技完成B+轮1亿元融资,年度经常性收入突破4000万美元。旗下PixVerse平台全球用户超一亿,月活用户达1600万,商业化后收入年增超十倍。其自研视频大模型迭代迅速,通过Agent助手降低创作门槛,并借助社交模板驱动全球增长。平台API生态发展强劲,单月调用量翻倍,推动AI视频从娱乐向产业应用升级。
太初元碁联合产业链伙伴推出AI落地北京方案
在2025人工智能计算大会上,30余家企业联合发布“北京方案”,旨在通过芯片厂商、大模型公司及行业应用方的全链路协作,构建开放标准,整合国产芯片与主流大模型,夯实自主技术底座。太初元碁展示了高性能计算与AI融合的解决方案,并以案例说明AI正从认知引擎转向智能行动主体。
小模型崛起成为AI新战场
AI行业风向正从小模型转向。腾讯、阿里和OpenAI相继推出小参数模型,显示小模型重回舞台中心。如今的小模型专为终端部署设计,称为端侧智能,能在手机等设备本地运行,应用于故障预警、智能座舱等场景。凭借低算力需求和本地化优势,小模型正开辟大模型之外的新战场。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

