中科院与新加坡国立大学合作让AI在训练前学会反思提升推理能力

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

中科院与新加坡国立大学合作让AI在训练前学会反思提升推理能力

热心网友时间：2026-05-15

转载

这项研究由中国科学院自动化研究所、中国科学院大学、新加坡国立大学与腾讯AI实验室联合完成，论文于2026年4月发表在预印本平台arXiv上，编号为arXiv:2604.14142。

中科院自动化所联合新加坡国立大学：让AI在

教孩子学数学，通常有两种思路。一种是直接刷题，做对奖励，做错扣分，反复练习直到分数提高。另一种是先帮他建立扎实的数学思维框架，再去解题。这两种策略，恰好对应着当前训练大型语言模型的两种主流范式。而最近一项研究揭示，将两者结合，效果远超单独使用任何一种，效率更是提升了整整三倍。

目前，让ChatGPT这类AI变得更聪明的主流方法，是“强化学习”。简单说，就是给AI出题，答对给奖励，答错给惩罚，让它自己摸索出正确的解题路径。这很像拿着成绩单训练学生——确实有效，但存在一个根本局限：学生的潜力上限，取决于他原有的知识基础。如果他的知识体系里压根没有某类思维方式，无论怎么刷题奖惩，也很难凭空长出来。

这正是当前顶尖AI模型面临的天花板。研究者们发现，强化学习只能在模型“已经懂得”的范围内进行精炼，却很难真正拓宽其思维边界。

于是，一个新颖的问题被提了出来：能否把强化学习的奖惩机制，直接搬到模型最底层的“预训练阶段”？让AI在构建知识体系之初，就被奖惩信号主动引导，从而塑造出更强大的基础推理能力。这就是论文核心提出的“预训练空间强化学习”，简称PreRL。

一、AI的两种“学习模式”：刷题冲分 vs. 打好基础

要理解这项研究，得先搞清楚AI学习的两个关键阶段及其本质区别。

大型语言模型在被我们使用前，主要经历两个培养阶段。第一阶段是“预训练”，相当于让AI海量阅读书籍、文章和对话，建立对语言和世界的基础认知。这个阶段，AI学习的是“边际概率分布”，大白话就是“一个词、一句话在通常情况下会怎么说”，这是一种普遍性的语言感知。

第二阶段是“后训练”，也就是前面提到的强化学习阶段。AI面对具体问题给出回答，并根据对错接受奖惩。这时学习的是“条件概率分布”，即“针对这道具体题目，什么答案才是好的”。

这两个阶段有个关键的技术差异。预训练时，AI生成文字不考虑“是谁问了什么问题”，只是基于内化的知识进行输出。而后训练时，AI的每一步决策都处在“我正在回答哪道题”的特定语境下。

研究团队的核心洞察在于：后训练的强化学习虽然能精炼答题技巧，但其改进幅度，严格受限于预训练阶段奠定的知识基础。如果预训练形成的知识体系里，某类正确的推理路径从未出现过，那么后训练再怎么奖励，AI也很难“无中生有”地学会它。

正因如此，他们设想：如果把强化学习的奖惩机制嵌入预训练阶段，用主动的奖惩而非被动的阅读来塑造AI的基础知识体系，是否能打破这个天花板？

二、一个关键的数学问题：不看题目，答对题有意义吗？

这里产生了一个值得深究的技术疑问：如果AI在预训练阶段不“看”具体题目，那么它生成的解题习惯，真的能提升它“看着题目”时的答题水平吗？这听起来有点反直觉，毕竟考试时不看题目乱写，和看着题目认真作答，感觉是两码事。

研究团队用数学工具进行了严格分析。他们的论证核心是：无论AI“看不看题目”，支配其所有行为的都是同一套模型参数。就像一个人的语言习惯和思维方式，无论自言自语还是回答提问，都源于同一个大脑。因此，改变他自言自语时的表达习惯，必然会影响他回答问题的表达方式。

他们进一步用数学推导证明，只要“不看题目时的学习信号”与“看着题目时的学习信号”方向一致，那么在预训练空间做强化学习，就能同步提升条件答题能力。

更重要的是，他们用真实数据做了验证。使用Qwen3-4B模型在数学竞赛题库上进行了400次测试，计算了两种学习信号之间的吻合程度。

结果相当明确：所有测试中，两个信号方向的点积（衡量方向是否一致的数学量）全部为正，平均值高达+9.2。余弦相似度（另一种衡量指标，满分为1）平均达到0.44，最高达0.71。同时，两种模式下对同一个词的概率估计也高度接近。

这些数字意味着：预训练空间的学习信号，绝大多数情况下与后训练空间的学习信号指向同一方向。在预训练空间做强化学习，不仅是后训练强化学习的有效替代，还能保留更广阔的探索潜力。

三、一个意外发现：惩罚“错误答案”比奖励“正确答案”更有用

验证了PreRL的可行性后，研究团队开始深入探究其工作机制，结果发现了一个反直觉的现象。

他们将奖惩机制拆开：只用正确答案进行奖励训练（正样本强化，PSR-PreRL），以及只用错误答案进行惩罚训练（负样本强化，NSR-PreRL）。

按常理，奖励正确答案应该更有效，因为这是在告诉AI“这样做是对的”。但实验结果恰恰相反：正样本强化不仅没有带来持续提升，反而导致性能坍塌——AI越学越差。而负样本强化却表现得出奇强劲。

为什么会这样？解释是，在预训练空间用AI自己生成的正确答案进行奖励，会让AI不断重复强化已知的正确路径，把概率质量都堆积在少数几条路径上，反而丧失了探索其他可能性的能力。就像一个学生发现某道题用某种方法做对了，就死死抱住这一种方法，遇到变化就束手无策。

负样本强化的逻辑则完全不同。用错误答案进行惩罚，等于告诉AI“此路不通”，迫使模型把概率质量从错误路径上移开，重新分散到整个推理空间。这类似于清除地图上的死路，帮助探索者更快找到正确路线。

更令人印象深刻的是NSR-PreRL对推理行为的激活效果。研究团队将推理步骤分为三类：过渡性思考（如“换个角度试试”）、反思性思考（如“等等，检查一下”）、执行性思考（直接计算）。结果发现，仅经过20步NSR-PreRL训练，模型的过渡性思考出现次数是原始模型的14.89倍，反思性思考是6.54倍，效果甚至远超标准强化学习训练25步后的结果。

换句话说，仅仅通过惩罚错误答案，AI就自发地学会了更频繁地切换思维路径、质疑中间结论。这种推理行为的激活，正是所谓“深度推理”的核心特征。

从准确率看，NSR-PreRL只用了标准强化学习三分之一的训练步数，就达到了86%的准确率，效率提升了三倍。

四、双空间强化学习：先打地基，再精装修

NSR-PreRL虽然强大，却有一个副作用：它会让模型生成越来越长的回答，因为模型在不断尝试各种思维路径。到了训练后期，回答可能过于冗长，反而影响后续的精细训练效果。

因此，研究团队没有把NSR-PreRL作为最终方案，而是将其视为前期的“地基工程”。他们将NSR-PreRL与标准后训练强化学习串联，形成了一套完整的训练流程，命名为“双空间强化学习”（DSRL）。

这个框架的运作逻辑很直观：先用NSR-PreRL对模型进行10到25步的快速预热，清除错误推理路径、激活深层推理能力、拓宽思维探索空间；然后把这个经过“地基加固”的模型切换到标准后训练强化学习，进行精细调优。这个中途切换策略借鉴了强化学习领域的“策略转世”思路。

用建筑来类比：NSR-PreRL负责打地基、清除软土层，确保建筑有一个牢固宽广的基础；标准强化学习则在此基础上完成精装修，做出漂亮整洁的最终效果。只做精装修（标准强化学习），地基不牢，高度受限；只打地基（NSR-PreRL），房子会越盖越粗糙无法居住。两者串联，才能建出又高又好的建筑。

从数学公式看，DSRL在前期（预训练空间阶段）只对答错的样本进行更新，且不看题目条件；在后期（后训练空间阶段）则切换为对所有样本进行条件更新，使用标准的GRPO算法。这个切换点S的选择至关重要，研究发现10到25步是最优区间——太少则激活不足，太多则探索过度导致输出失控。

五、实验数据：DSRL在六项数学竞赛基准测试上全面超越对手

研究团队在两种规模的模型（Qwen3-4B和Qwen3-8B）上进行了系统性评测，对比了六种当时的主流强化学习方法。评测数据集涵盖六个数学推理基准，包括高难度的美国数学邀请赛（AIME）题目。

在Qwen3-4B上，DSRL的综合平均分达到57.54，领先于此前最强的方法。在AIME24这样的高难度题目上，DSRL比标准GRPO高出4.69个百分点；在AMC23上达到89.22，超过所有对比方法。

在Qwen3-8B上，DSRL的综合平均分达到58.47，同样位居第一，在多个数据集上均为所有方法中最高。

除了平均准确率，研究团队还测试了Pass@K指标（让模型生成K个答案，有一个对就算通过）。从K=1到K=256，DSRL在几乎所有数学题集上都超越了GRPO，且随着K增大，领先优势持续扩大。这说明DSRL不只是提升了最常见答法的准确率，还扩展了模型能找到的正确路径的多样性。

研究团队还测试了模型在数学之外的泛化能力，选取了研究生级别知识问答、综合知识理解、逻辑推理和代码生成四个完全不同领域的任务。结果显示，DSRL相比GRPO在知识密集型任务上提升了3.79到5.37个百分点，在代码生成任务上提升了2.44个百分点。这说明，预训练空间的强化学习让模型形成了更普遍化的推理能力。

六、训练过程中发生了什么：思维行为的演化轨迹

要真正理解DSRL为什么有效，光看最终成绩不够，还得观察训练过程中模型行为的变化。

研究团队追踪了四种推理行为在训练中的出现频率：目标分解、枚举、验证以及回溯。

标准GRPO的训练曲线显示，这四种行为只是缓慢、有限地增长，始终处于较低水平，增长速度越来越慢，仿佛遇到了天花板。

DSRL则展示了完全不同的轨迹。在NSR-PreRL预热阶段，四种推理行为就已急剧涌现；进入标准强化学习阶段后，这些行为继续保持快速增长，最终达到的频率上限远高于GRPO。这说明NSR-PreRL确实打开了模型内部的“推理开关”，让模型在后续训练中能更充分地展开深层思考。

从另一个角度看，研究团队统计了训练过程中“完全解对”和“完全解错”的题目数量变化。DSRL在NSR-PreRL阶段表现出明显的“完全解对”题目数量急升和“完全解错”题目数量急降——这意味着模型在这一阶段系统性地清除了根本性的认知错误，而不只是靠运气偶尔答对。后续的标准强化学习则在这个清洁的基础上进一步精炼。

七、与现有方法的对比：PreRL不是预训练，也不是强化预训练

这项工作在概念上容易与两类现有方法混淆，研究团队专门做了区分说明。

第一类是传统的预训练和持续预训练。这两种方法都是“被动阅读”——给模型喂数据，让它预测下一个词，没有任何外部奖惩信号。学习效率受限于数据质量，也无法针对错误路径进行主动修正。PreRL则是主动的：模型自己生成答案，根据对错接受奖惩，然后反向修正参数。

第二类是最近出现的“强化预训练”（RLPT）。其思路是在预训练语料上施加强化学习，例如让模型先生成一段“思考过程”，再预测后续的正确文本，把“预测成功”作为奖励。这类方法的本质问题在于，预训练语料里的“标准答案”是开放式的，一道题可能有无数种正确接续方式，用单一的下一个词来定义“对错”，奖励信号非常模糊。PreRL则完全不同：它使用有明确对错答案的数学竞赛题，奖励信号清晰可验证，而且把问题条件从梯度计算中移除，确保更新针对的是通用推理能力。

从结果看，研究团队对比了“NSR-PreRL预热”和“NSR后训练强化学习预热”两种方案。后者（在有题目条件的情况下用惩罚预热）竟然比不做任何预热的标准GRPO还差。而NSR-PreRL预热（即DSRL）则取得了显著更好的效果。在同样的20步预热后，NSR-PreRL比NSR-RL在多项测试的平均成绩上高出了6.6个百分点，为后续强化学习提供了质量差异悬殊的初始化状态。

说到底，这项研究揭示了一个核心道理：与其一直在做题中学习，不如先花一点时间把错误的思维方式从根子上清除掉，再去做题，效果反而更好、更快。

这个发现对AI的训练方式有实际影响。目前主流做法是把大量算力押注在后训练强化学习阶段，但这项研究表明，将极小一部分资源（仅10到25步训练）用于预训练空间的负样本惩罚，就能大幅提升后续训练的效率和性能上限。

当然，这项工作也有其局限。研究主要在数学推理任务上验证，虽然泛化测试显示在代码生成和知识问答上也有效，但对于完全不同类型的任务是否同样适用，还需要更多探索。此外，最优预热步数的选择目前主要依赖实验观察，其背后的理论解释有待进一步完善。

一个值得持续思考的问题是：AI的推理能力，究竟有多少是藏在参数里等待被“解锁”的，又有多少是真正需要从零开始学习的？NSR-PreRL让模型在极短时间内爆发出丰富的反思行为，暗示着前者可能比我们之前以为的要多得多。

Q&A

Q1：预训练空间强化学习（PreRL）和普通的预训练有什么本质区别？

A：普通预训练是被动的，模型通过大量阅读文本学习“下一个词该是什么”，没有外部奖惩。PreRL则是主动的——模型自己解题，根据答案对错接受奖励或惩罚，并据此调整参数。关键区别在于，PreRL在生成答案时不考虑“是谁出的题”，只训练通用推理能力，而不是针对特定题目的答题技巧。这种方式既保留了预训练的广泛探索能力，又引入了奖惩驱动的主动学习机制。

Q2：为什么惩罚错误答案（NSR-PreRL）比奖励正确答案效果更好？

A：奖励正确答案容易让模型把所有概率集中在已知的正确路径上，像是学生死记硬背一种解法，一旦题型变化就不会了。而惩罚错误答案则迫使模型把概率质量从错误路径上移走，向其他可能性重新分布，相当于清除地图上的死路，帮助模型发现更多样的正确路径。这个过程还会意外激活模型的反思和路径切换行为，让模型自发地学会“等等，这条路不对，换一个角度试试”。

Q3：双空间强化学习（DSRL）比普通GRPO强化学习快在哪里？

A：DSRL的核心优势是先用NSR-PreRL做10到25步的快速预热，把常见的错误推理路径从根本上清除，并激活深层推理行为，再切换到标准强化学习精细调优。这个前期奠基让后续的强化学习起点更高、方向更明确。实验数据显示，DSRL达到45%准确率只需标准GRPO所需步数的五分之二，达到58%准确率只需标准GRPO的约63%步数，最终准确率上限也高于单纯使用标准强化学习。

来源:https://www.techwalker.com/2026/0424/3185027.shtml

上一篇： AI高效学习指南：哪些核心词汇值得反复练习

下一篇：上交大研发AI智能体专用编译器执行效率提升高达50倍