智能体并行推理大脑告别单线程思维进化
当大语言模型在文本生成的长度与流畅度上取得显著进展时,一个更为根本的挑战逐渐凸显:面对需要多路径探索、自我验证、线索整合与决策的复杂推理任务时,传统的链式思维(Chain-of-Thought)方法开始显现出其局限性。它容易固守早期判断,思维发散性不足,自我纠错能力有限,并且其顺序生成的模式存在固有的效率瓶颈。
北京通用人工智能研究院(BIGAI)语言交互实验室(NLCo)的最新研究成果——Native Parallel Reasoner(NPR,原生并行推理器),正是为了突破这一瓶颈而生。其核心目标是让AI智能体在一次思考过程中,能够同时生成并维护多条候选推理路径,在关键决策点进行智能“分叉”与“聚合”,最终像完成拼图一样,综合所有线索得出最优解。
尤为关键的是,NPR的突破并不仅限于“并行生成的工程技巧”。它创新性地提出了一套“自蒸馏 + 并行强化学习”的三阶段训练范式,并配套了专用的并行推理引擎。其深远意义在于,旨在将并行推理从一种外部施加的“策略”,转变为模型内生的、如同本能般的“原生认知能力”。

这篇题为《Native Parallel Reasoner: Reasoning in Parallelism via Self-Distilled Reinforcement Learning》的论文已被ICML 2026主会接收。论文的核心作者包括北京通用人工智能研究院的研究员吴桐、刘洋、白骏,通讯作者为贾子夏研究员和实验室主任郑子隆。
业界对语言智能体的期待,正从“能够进行线性思考”的单一思维链,升级到“能够进行多维深度推理”的层次。未来的高级人工智能,需要具备同时探索多条思考路径的能力——这类似于经典的MapReduce思想:分解任务、并行处理、再聚合结果。然而,将这种“思维分身术”内化到单一智能体中,面临着三重核心挑战。
背景与痛点:为什么我们迫切需要并行推理?
首先,是算法框架与硬件架构的错配。现有的推理引擎和主流强化学习算法,难以原生支持“分支与聚合”的复杂操作。推理引擎调度并行分支的效率低下;而常用的强化学习技术往往会截断或削弱那些触发并行结构的特殊词元的梯度,导致模型难以学会精确的并行控制逻辑。
其次,是早期并行机制的低效性。先前的一些尝试多依赖于手工设计的分治规则,无法有效复用共享的计算状态(如KV缓存),导致每个分支都需要重复计算公共部分,使得时间复杂度急剧上升,难以满足实时或大规模部署的效率要求。
最后,是对强监督蒸馏数据的过度依赖。像Multiverse这类方法虽然实现了并行输出,但高度依赖强教师模型提供的示例。学生模型仅仅是在模仿教师的串行思维拓扑,并将其“强行塞入”并行格式中,结果是将教师的思维局限也一并继承,难以通过自举(Bootstrapping)方式扩展自身的智能边界,形成了新的“能力天花板”。
NPR的核心理念:将“并行性”升维为模型的原生能力
NPR的关键创新在于“原生”二字。研究团队致力于在零外部并行轨迹监督的条件下,探索一条让模型自我进化出并行推理能力的路径。其整体框架是一个渐进式的三阶段训练范式,旨在让模型从“学会用并行格式书写”,逐步过渡到“在计算图层面真正执行并行推理”。
三阶段训练范式:从“掌握并行形式”到“具备并行思维”
阶段一:并行格式学习——首先学会“如何写成并行结构”。这一阶段不追求真正的并行计算,而是让模型先掌握并行推理的表达范式,例如如何标记分支起点、组织多条候选路径、定义最终的聚合节点。
阶段二:自蒸馏——内化“并行思考逻辑”,摆脱对外部教师的依赖。在具备并行表达能力后,NPR通过自蒸馏技术,让模型用自己的生成结果反过来训练自己。通过严格的筛选与沉淀,模型逐步内化“多分支探索-相互印证-汇总收敛”的内在推理规律,而非简单模仿他人的思维局限。
阶段三:并行感知强化学习——从“模仿并行格式”迈向“执行并行计算”。这是实现质变的关键一跃。利用并行感知的强化学习算法,模型学习在何时进行分叉、分叉出多少条路径、如何在聚合点进行比较与合并。这使得并行不再仅仅停留在文本表面,而真正成为推理过程中可执行的控制逻辑,将“并行性”从一种工程技巧推进到模型的原生能力层面。
如下图所示,经过三阶段训练,NPR在复杂推理任务上的准确率从约17%持续爬升至50.4%;与传统顺序推理方式相比,更实现了高达约4.6倍的生成加速。

NPR具体实现细节
NPR训练范式详解
第一阶段:格式遵循的强化学习(NPR-ZERO)
目标是在没有任何外部并行示例的情况下,让模型学会生成结构化的并行格式(如使用
第二阶段:拒绝采样与并行预热(NPR-BETA)
目标是将第一阶段的“格式化产物”转化为高质量的训练数据,并使模型在并行语义理解上稳定下来。方法是对NPR-ZERO的输出进行拒绝采样,并应用严格的筛选器(必须同时满足“格式完全合规”与“答案绝对正确”),保留高质量的并行推理轨迹用于冷启动的并行监督微调。同时,引入并行注意力掩码与专用的并行位置编码,让模型内部能够支持并行分支的独立计算,并实现KV缓存的重用以避免重复计算带来的开销。
第三阶段:原生并行强化学习(PAPO)
目标是在并行执行引擎上,使用强化学习直接优化并行分支策略,使其不仅会“书写”并行格式,也会“执行”并行计算。方法上提出了并行感知策略优化算法(Parallel-Aware Policy Optimization, PAPO),对传统强化学习语义进行了专门修改:使用并行Rollout保证推理结构的正确性、进行批次层级的优势归一化以稳定训练、保留触发并行结构的特殊词元的梯度流,并放弃重要性采样以维持稳定的同策略梯度更新。PAPO能够直接在并行计算图内部优化分支策略,从试错中学会有效的问题拆解与结果合并。

关键技术细节剖析
1. 自蒸馏与严格筛选机制
从NPR-ZERO生成大量候选轨迹后,采用两条硬性规则进行筛选:答案正确性、结构并行性。只有同时满足这两项高标准的高质量样本才会被用于后续训练,这显著减少了数据噪声,保证了训练语料的并行规范性与模型的可学习性。
2. 并行注意力掩码与并行位置编码
为了在单次前向传播中同时处理多条推理路径,NPR采用了类似Multiverse风格的并行注意力掩码与专门设计的并行位置编码。这保证了不同分支在计算上互相隔离,但同时能共享上下文的KV缓存,从而实现高效的KV缓存重用,避免每条分支重复计算上下文带来的巨大代价。编码还允许通过特定的标签词元来明确标明分支、步骤等元信息,便于推理引擎解析。
3. 并行感知策略优化(PAPO)算法设计
在并行语义下直接套用经典PPO等算法会遇到诸多问题。PAPO的主要设计包括:使用NPR-Engine产生合法的并行轨迹;在训练前剔除格式违规的样本;采用批次级优势归一化来稳定优势估计;为防止标记并行结构的特殊标签被错误裁剪,在词元级别保留了完整的梯度流;同时放弃重要性采样,采用严格的同策略优化目标,以避免策略更新中的不稳定性。

AI基础设施工程化改进:NPR-Engine
实验证明,将并行语义用于生产环境的并行强化学习训练,会暴露出大量的底层工程问题。论文在推理引擎层面做了几项关键改进:引入预算感知的KV回收机制,避免内存泄漏;采用分支感知的词元累积策略,防止生成长度失控;在分支展开前进行格式预检,快速拒绝非法分支以保证生成的确定性。这些工程改进是稳定进行大规模并行强化学习训练、最终获得具备并行思考能力智能体的重要前提。
主要实验与结论
研究团队在AIME24/25、HMMT25、OlympiadBench等八个具有挑战性的数学与逻辑推理基准上进行了全面评测。
训练数据优势: 使用自行提炼的高质量数据集(NPR-BETA阶段的ORZ-8k)替换Multiverse所依赖的训练语料后,模型性能获得了显著且一致的提升。例如,在AIME24上从46.7分提升至50.8分,在ZebraLogic上从60.2分提升至76.1分。总体平均得分从50.1分提升至59.0分。
并行监督微调的优势: 从传统的顺序监督微切换至并行监督微调,能显著提升模型性能。顺序微调会引入较强的步骤间依赖性先验,限制了任务分解的灵活性。而并行微调使模型能够接触结构上真正并行的轨迹,从而实现更独立、更灵活的子问题探索。整体性能从58.2分提升至59.0分。
并行强化学习的优势: 在并行微调的良好基础上,进一步应用并行强化学习(PAPO)能获得系统性的性能飞跃。例如,AIME24从57.1分提升至63.3分,HMMT25从26.3分提升至30.8分。总体平均得分从62.0分提升至65.0分。

一个关键发现是并行触发率的一致性。Multiverse-32B模型在不同数据集上的并行率差异显著,表明其并行推理的采用高度依赖数据集本身的特性。相比之下,NPR模型在所有八个数据集上均达到了100%的并行触发率。这意味着端到端的NPR训练流程能够更可靠地将并行推理塑造为模型的默认问题解决模式,其应用不受数据集领域或复杂性的影响。

在推理效率方面,NPR在所有基准测试中均取得了最佳表现,始终优于Multiverse和传统的自回归基线模型。值得注意的是,其加速比随着任务难度的增加而显著增大:在较难的AIME25上达到4.6倍加速,在相对较易的AMC23上为2.9倍。这表明当问题需要更深入、更广泛的解空间探索时,NPR的并行优势愈发明显。

案例解析
论文展示了具体的并行解法示例,其典型模式为:先并行产生若干独立的解题计划(


结语
这项研究提出了一个简洁且可扩展的框架,用于构建无需依赖外部教师模型、即可自主学习自适应问题分解与并行规划的原生并行推理器。通过将自提炼的并行微调与智能体并行强化学习相结合,NPR能够生成真正的、非模拟的并行推理策略。
在八个权威推理基准上的实验表明,该方法相比现有前沿方案在性能上均有显著改进。深入分析进一步证明,该方法能显著加速推理过程、增强测试时的可扩展性,并且有效避免了“伪并行”行为。案例研究生动展示了模型如何根据问题难度动态调整其并行粒度,实现结构化的探索和稳健的验证。这些结果表明,原生并行推理是实现更通用、更可扩展人工智能的一个极具前景的研究方向。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
广汽智能座舱产品线发布,创新技术引领全新驾乘体验
广汽集团近日正式宣布,将成立独立的智能座舱产品线,这标志着其在汽车智能化战略布局上迈出了关键一步。此举紧随整车制造与动力总成业务之后,成为广汽自主品牌技术架构升级的重要里程碑。当前,智能座舱领域普遍存在语音交互响应慢、操作逻辑不统一、情感化体验不足等用户痛点。显然,单纯的功能叠加已难以满足市场需求。
掌握AI技能者将取代你黄仁勋揭示人工智能时代职场新法则
4月18日最新消息,英伟达CEO黄仁勋在斯坦福大学的一场公开活动中,深入阐述了他对人工智能未来发展的核心判断。他明确指出,人工智能不会全面取代人类工作,而是将演变为一个革命性的生产力平台,从长远来看,它将创造比取代更多的就业岗位。 黄仁勋再次将AI的崛起类比为一场深刻的现代工业革命,并着重强调,“A
Claude Design冲击Figma市场 UI设计师面临行业变革
昨晚,AI领域又投下了一枚重磅冲击波。Anthropic实验室正式发布了全新的Claude Design功能,一段演示视频,直接让设计软件巨头的股价应声跳水。 市场反应堪称一场小型地震。Figma的股价走势图,被网友形容为“被Claude核弹击中”。 Adobe、Wix等公司也未能幸免,股价集体下挫
吴超新解析工业具身智能:数据与本体双轮驱动破解落地挑战
【科技报道 记者 张阳】“工业具身智能的核心价值并非技术展示,而在于切实解决制造业的实际痛点。我们正通过‘数据+本体’双引擎驱动的创新模式,为行业探索出一条具备高度可复制性与可推广性的落地新路径。”4月16日,普罗宇宙副总裁吴超新在接受专访时阐述了这一观点。 谈及工业具身智能当前面临的挑战,吴超新指
大模型暗黑模式风险:分布偏移诱导下的伦理防线失效
大语言模型看似坚固的安全护栏,可能只是建立在流沙之上。一项最新研究揭示,当前主流的安全对齐技术,或许只是在模型表层构建了一个脆弱的“安全区”,而那些在预训练阶段就已深植的潜在有害知识,正以“黑暗模式”潜伏在模型深处,伺机而动。 指令微调和基于人类反馈的强化学习,无疑是当前引导大语言模型与人类价值观对
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

