面包屑图标 当前位置: 首页
AI资讯
热点详情

普林斯顿北大首提分层RL推理,32B模型8卡A100超越DeepSeek V3和o1-preview

AI热点日报
AI热点日报时间:2026-06-30
热点解读

普林斯顿与北大合作,8块A100 GPU训练出的32B模型在数学性能上超越DeepSeek V3和o1-preview。这事儿在圈子里炸开了锅——小模型逆天改命的戏码,还真就这么上演了。 核心亮点有三:一是ReasonFlux框架,一套创新的分层LLM推理方法;二是ReasonFlux-32B模型,

普林斯顿与北大合作,8块A100 GPU训练出的32B模型在数学性能上超越DeepSeek V3和o1-preview。这事儿在圈子里炸开了锅——小模型逆天改命的戏码,还真就这么上演了。

核心亮点有三:一是ReasonFlux框架,一套创新的分层LLM推理方法;二是ReasonFlux-32B模型,在MATH和AIME基准测试中表现惊人;三是三大技术支柱——结构化通用思维模板库、分层强化学习、Scaling思维模板。

8块A100,32B碾压DeepSeek V3、o1-preview!普林斯顿北大首提分层RL推理

事情得从这篇论文说起:https://arxiv.org/abs/2502.06772,开源项目在 https://github.com/Gen-Verse/ReasonFlux。来自普林斯顿和北大的华人团队,提出了一种叫ReasonFlux的分层LLM推理框架,核心理念是:通过Scaling思维模板来优化推理搜索空间。

结果呢?ReasonFlux-32B在MATH基准上准确率高达91.2%,比o1-preview高出6.7%;在AIME基准上解题率56.7%,直接把o1-preview甩开27%——注意,这还只是32B参数的小模型。

来看一个推理示例:同一道数学题,o1-mini从第二步就开始跑偏,而ReasonFlux在四步思考中步步精准,最终给出正确答案。这表现,足以称得上“数学大师”。

成功的背后是三大技术创新:

  • 结构化通用思维模板库:约500个高层次思维模板,能泛化到类似或相关的问题。
  • 分层强化学习:在思维模板序列上执行RL,不再死磕长思维链数据,让基础LLM学会规划最优模板轨迹。
  • 全新的推理Scaling系统:推理过程中自适应调整思维模板,实现分层推理。

更惊喜的是,模板库已开源。

分层强化学习,掌控数学推理

LLM这两年风光无限,但在AIME、OlympiadBench、LiveCodeBench这类高难度推理任务上,还有明显短板。为了补上这一环,研究人员没少下功夫:思维树(ToT)、思维图(GoT)让模型探索多条路径;奖励模型引导方法则给每一步打分。但这些招数要么计算成本太高,要么依赖人工设计的搜索策略,泛化能力也有限。

检索增强生成(RAG)倒是能缓解幻觉、提高准确率,但在数学、编程这类复杂推理任务中,靠标准嵌入相似性搜索找模板?太难了,大规模文档下效果直线下滑。

正是在这个节骨眼上,普林斯顿和北大的团队拿出了ReasonFlux——分层LLM推理。它通过构建结构化思维模板库、对思维模板轨迹做分层强化学习、并设计全新的推理Scaling系统,显著提升了复杂推理能力。

研究贡献可以概括为四点:

  1. 提出了ReasonFlux框架,效果拔群。
  2. 构建了一个结构化且精炼的模板库,约500个思维模板,全部从高难度数学问题中提炼。
  3. 开发了基于高层次思维模板序列的分层强化学习,让LLM能自动生成最优模板轨迹,把复杂问题拆成一系列简单的子问题。
  4. 设计了一种新的推理Scaling系统,通过自适应调整思维模板实现分层推理——动态检索模板,实例化推理,高效求解。

ReasonFlux框架解析

结构化思维模板库

人类在解决复杂推理问题时常常借助外部资料——受此启发,研究人员精心打造了这个模板库。他们从多个来源广泛收集有挑战性的数学推理题,再利用LLM深入分析解题思路,总结策略、挖掘模式,最终得到约500个以解决方案为导向的高质量思维模板。每个模板都配有名称、标签、描述、适用范围、应用步骤和示例等关键信息。

举个例子,“类型三角代换”模板:名称一目了然;标签便于检索(如“三角代换”“无理函数优化”);描述里详细解释了何时使用(当问题中间出现根式且满足条件时),把无理表达式转化为三角函数表达式,简化求解;适用范围则明确界定了该模板能处理的问题类型——函数优化或值域问题、含特定根式的方程或不等式、与圆相关的几何问题等。有了这些元数据,模板库就能高效检索,为不同问题精准匹配最合适的模板。

分层强化学习:规划最优推理路径

有了模板库,下一步就是选对模板、用好模板。ReasonFlux采用分层强化学习来实现。

首先是基于结构的微调。利用模板库构建训练数据集,包含模板名称、标签、原理描述和适用范围(元组形式:T_nam, T_tag, T_des, T_sco)。在这个数据集上微调基础LLM,让模型深入理解每个模板的结构和用途——优化目标是让模型在给定模板名称和标签时,能正确生成描述和适用范围。微调后的模型记为πstruct

接着是思维模板轨迹的偏好学习。基于πstruct,进一步训练它为输入问题规划高级思维模板轨迹Ttraj。给定问题x,πstruct先分析条件信息,识别核心数学概念和关系,然后配置一条轨迹Ttraj = {S1, S2, ..., SN},每个Si代表一个高级步骤,关联一个从模板库中检索到的模板名称。检索到的模板会针对具体问题进行实例化,为推理模型πinf提供细粒度指导。

如何评估轨迹质量?研究人员用一组与x相似的问题Xsim,让πinf在轨迹引导下解决这些问题,平均准确率作为奖励R(Ttraj)。这个奖励信号用于构建优化对,进一步优化πstruct——对每个输入问题x,采样多个不同轨迹并评估质量,通过损失函数让模型学会选择最优轨迹。

推理Scaling系统

经过分层强化学习优化后,模型被称为ReasonFlux。在此基础上,研究人员设计了全新的推理Scaling系统。

面对输入问题时,ReasonFlux先提取核心数学概念和关系,配置一条最优模板轨迹——注意,这条轨迹不是固定不变的,而是根据问题特点动态生成的。然后,根据轨迹中的步骤信息,从模板库检索最相关的思维模板。

通过分析推理过程中生成的中间结果,ReasonFlux能获得有价值的见解,从而调整轨迹——这很像人类检查部分结果后找到更高效解决方案的过程。检索到模板后,ReasonFlux会指示推理模型根据问题细节实例化每个模板,把抽象模板变成具体推理步骤。过程中,ReasonFlux不断评估中间结果,决定是否调整轨迹或检索替代模板。这种迭代反馈机制,让ReasonFlux能更高效地解决复杂问题。

实验结果

研究人员用Gemini-2.0从各类数学数据集的训练集中构建了约500个思维模板的结构化模板库。训练资源有限,他们选用Qwen2.5-32B-Instruct作为基础模型和推理模型,仅用8个NVIDIA A100 GPU——成本大大降低。

在基于结构的微调阶段,用了15K个样本进行训练;模板轨迹优化阶段,用了从MATH和自制数据集中收集的10K对轨迹。

评估基准选择了MATH、AIME 2024、AMC 2023、OlympiadBench和Gaokao En 2023。基线模型包括前沿LLM(GPT-4o、Claude、o1-preview、o1-mini)和开源推理模型(DeepSeek-Coder-v2-Instruct、Mathstral、NuminaMath-72B等)。

结果令人印象深刻:ReasonFlux-32B以32B参数量达到了新的最先进水平。MATH上91.2%,比o1-preview高6.7%;AIME 2024上56.7%,比o1-preview高27%,比DeepSeek-V3高45%,与o1-mini相当。OlympiadBench上63.3%,超过DeepSeek-V3 14%;Gaokao En 2023上83.6%,比o1-mini高7%。

值得注意的是,模板库主要由公开数据集构建,且所有评估使用同一套模板库——这充分证明了其泛化能力。

进一步实验发现,使用模板增强推理能显著提高不同基础模型的推理准确率。小规模LLM在模板引导下,准确率提升明显,甚至能超越较大规模LLM的直接推理表现。在推理过程中,ReasonFlux能根据问题复杂度自适应规划模板轨迹和交互轮数——复杂度越高,自动调整检索数量和轮数,有效平衡推理成本与性能。

在探索与利用的权衡方面,与Best-of-N和MCTS等策略相比,ReasonFlux在所有难度级别下都保持更低且更稳定的探索成本。这得益于结构化模板库对搜索空间的有效优化,以及模板的高质量和泛化能力。

当然,ReasonFlux也有局限性。模板库可能无法覆盖所有类型的复杂问题;处理极端复杂或全新领域问题时,推理能力或许还需提升。未来可以进一步扩展模板库覆盖范围,探索更高效的学习算法,将ReasonFlux应用到更多领域。

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:普林斯顿北大首提分层RL推理,32B模型8卡A100超越DeepSeek V3和o1-preview要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.53ai.com/news/LargeLanguageModel/2025021214953.html
ai 人工智能

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-06-30 19:04
AI驱动的Degiro投资组合跟踪与可视化工具

在 Degiro 上进行投资的用户,常常会遇到一个共同的痛点:平台自带的数据展示较为基础,若想获取更深入的投资组合分析、风险指标,甚至对未来走势做出预测,通常只能借助 Excel 手动处理。不过,现在有一款 Chrome 扩展程序可以完美解决这一难题——Mercury,专为 Degiro 用户量身打

AI热点2026-06-30 19:04
Lorna基于CFMS数据驱动决策的投资平台

在投资决策过程中,客观数据往往比主观直觉更值得信赖。名为Lorna的智能平台,运用独特的现金流分析体系,帮助投资者穿透虚饰的财务报表,直达企业真实的财务健康状况。 什么是Lorna?——数据驱动的现金流分析投资工具 简而言之,Lorna是一个以数据为核心驱动力的投资分析工具。其核心利器是独创的“现金

AI热点2026-06-30 19:03
前街购买记录追踪查询方法

Front Street自动追踪你的每一笔消费,整合各类忠诚度计划,并提供财务洞察与省钱妙招——说白了,就是帮你把钱&包管得明明白白。 什么是Front Street? 简单讲,Front Street就是你的购物管家。它自动记录你在每个品牌、每家店的所有购买行为,然后把零散的忠诚度计划全部整合到一

AI热点2026-06-30 19:03
一款专业Finta AI驱动筹款助手,高效智能募资工具

在创投圈深耕多年,你会发现一个普遍难题:融资过程中,投资者关系维护、尽职调查、潜在投资人挖掘……这些环节往往耗费巨大精力,却又直接决定成败。如果能有一款工具将这些琐事自动化,让团队聚焦于真正重要的沟通与战略决策,那该多理想?Finta 正是为此而生。 什么是Finta? Finta 本质上是一款 A

延伸阅读