中科院与新加坡国立大学合作 让AI在训练前学会反思提升推理能力
这项研究由中国科学院自动化研究所、中国科学院大学、新加坡国立大学与腾讯AI实验室联合完成,论文于2026年4月发表在预印本平台arXiv上,编号为arXiv:2604.14142。

教孩子学数学,通常有两种思路。一种是直接刷题,做对奖励,做错扣分,反复练习直到分数提高。另一种是先帮他建立扎实的数学思维框架,再去解题。这两种策略,恰好对应着当前训练大型语言模型的两种主流范式。而最近一项研究揭示,将两者结合,效果远超单独使用任何一种,效率更是提升了整整三倍。
目前,让ChatGPT这类AI变得更聪明的主流方法,是“强化学习”。简单说,就是给AI出题,答对给奖励,答错给惩罚,让它自己摸索出正确的解题路径。这很像拿着成绩单训练学生——确实有效,但存在一个根本局限:学生的潜力上限,取决于他原有的知识基础。如果他的知识体系里压根没有某类思维方式,无论怎么刷题奖惩,也很难凭空长出来。
这正是当前顶尖AI模型面临的天花板。研究者们发现,强化学习只能在模型“已经懂得”的范围内进行精炼,却很难真正拓宽其思维边界。
于是,一个新颖的问题被提了出来:能否把强化学习的奖惩机制,直接搬到模型最底层的“预训练阶段”?让AI在构建知识体系之初,就被奖惩信号主动引导,从而塑造出更强大的基础推理能力。这就是论文核心提出的“预训练空间强化学习”,简称PreRL。
一、AI的两种“学习模式”:刷题冲分 vs. 打好基础
要理解这项研究,得先搞清楚AI学习的两个关键阶段及其本质区别。
大型语言模型在被我们使用前,主要经历两个培养阶段。第一阶段是“预训练”,相当于让AI海量阅读书籍、文章和对话,建立对语言和世界的基础认知。这个阶段,AI学习的是“边际概率分布”,大白话就是“一个词、一句话在通常情况下会怎么说”,这是一种普遍性的语言感知。
第二阶段是“后训练”,也就是前面提到的强化学习阶段。AI面对具体问题给出回答,并根据对错接受奖惩。这时学习的是“条件概率分布”,即“针对这道具体题目,什么答案才是好的”。
这两个阶段有个关键的技术差异。预训练时,AI生成文字不考虑“是谁问了什么问题”,只是基于内化的知识进行输出。而后训练时,AI的每一步决策都处在“我正在回答哪道题”的特定语境下。
研究团队的核心洞察在于:后训练的强化学习虽然能精炼答题技巧,但其改进幅度,严格受限于预训练阶段奠定的知识基础。如果预训练形成的知识体系里,某类正确的推理路径从未出现过,那么后训练再怎么奖励,AI也很难“无中生有”地学会它。
正因如此,他们设想:如果把强化学习的奖惩机制嵌入预训练阶段,用主动的奖惩而非被动的阅读来塑造AI的基础知识体系,是否能打破这个天花板?
二、一个关键的数学问题:不看题目,答对题有意义吗?
这里产生了一个值得深究的技术疑问:如果AI在预训练阶段不“看”具体题目,那么它生成的解题习惯,真的能提升它“看着题目”时的答题水平吗?这听起来有点反直觉,毕竟考试时不看题目乱写,和看着题目认真作答,感觉是两码事。
研究团队用数学工具进行了严格分析。他们的论证核心是:无论AI“看不看题目”,支配其所有行为的都是同一套模型参数。就像一个人的语言习惯和思维方式,无论自言自语还是回答提问,都源于同一个大脑。因此,改变他自言自语时的表达习惯,必然会影响他回答问题的表达方式。
他们进一步用数学推导证明,只要“不看题目时的学习信号”与“看着题目时的学习信号”方向一致,那么在预训练空间做强化学习,就能同步提升条件答题能力。
更重要的是,他们用真实数据做了验证。使用Qwen3-4B模型在数学竞赛题库上进行了400次测试,计算了两种学习信号之间的吻合程度。
结果相当明确:所有测试中,两个信号方向的点积(衡量方向是否一致的数学量)全部为正,平均值高达+9.2。余弦相似度(另一种衡量指标,满分为1)平均达到0.44,最高达0.71。同时,两种模式下对同一个词的概率估计也高度接近。
这些数字意味着:预训练空间的学习信号,绝大多数情况下与后训练空间的学习信号指向同一方向。在预训练空间做强化学习,不仅是后训练强化学习的有效替代,还能保留更广阔的探索潜力。
三、一个意外发现:惩罚“错误答案”比奖励“正确答案”更有用
验证了PreRL的可行性后,研究团队开始深入探究其工作机制,结果发现了一个反直觉的现象。
他们将奖惩机制拆开:只用正确答案进行奖励训练(正样本强化,PSR-PreRL),以及只用错误答案进行惩罚训练(负样本强化,NSR-PreRL)。
按常理,奖励正确答案应该更有效,因为这是在告诉AI“这样做是对的”。但实验结果恰恰相反:正样本强化不仅没有带来持续提升,反而导致性能坍塌——AI越学越差。而负样本强化却表现得出奇强劲。
为什么会这样?解释是,在预训练空间用AI自己生成的正确答案进行奖励,会让AI不断重复强化已知的正确路径,把概率质量都堆积在少数几条路径上,反而丧失了探索其他可能性的能力。就像一个学生发现某道题用某种方法做对了,就死死抱住这一种方法,遇到变化就束手无策。
负样本强化的逻辑则完全不同。用错误答案进行惩罚,等于告诉AI“此路不通”,迫使模型把概率质量从错误路径上移开,重新分散到整个推理空间。这类似于清除地图上的死路,帮助探索者更快找到正确路线。
更令人印象深刻的是NSR-PreRL对推理行为的激活效果。研究团队将推理步骤分为三类:过渡性思考(如“换个角度试试”)、反思性思考(如“等等,检查一下”)、执行性思考(直接计算)。结果发现,仅经过20步NSR-PreRL训练,模型的过渡性思考出现次数是原始模型的14.89倍,反思性思考是6.54倍,效果甚至远超标准强化学习训练25步后的结果。
换句话说,仅仅通过惩罚错误答案,AI就自发地学会了更频繁地切换思维路径、质疑中间结论。这种推理行为的激活,正是所谓“深度推理”的核心特征。
从准确率看,NSR-PreRL只用了标准强化学习三分之一的训练步数,就达到了86%的准确率,效率提升了三倍。
四、双空间强化学习:先打地基,再精装修
NSR-PreRL虽然强大,却有一个副作用:它会让模型生成越来越长的回答,因为模型在不断尝试各种思维路径。到了训练后期,回答可能过于冗长,反而影响后续的精细训练效果。
因此,研究团队没有把NSR-PreRL作为最终方案,而是将其视为前期的“地基工程”。他们将NSR-PreRL与标准后训练强化学习串联,形成了一套完整的训练流程,命名为“双空间强化学习”(DSRL)。
这个框架的运作逻辑很直观:先用NSR-PreRL对模型进行10到25步的快速预热,清除错误推理路径、激活深层推理能力、拓宽思维探索空间;然后把这个经过“地基加固”的模型切换到标准后训练强化学习,进行精细调优。这个中途切换策略借鉴了强化学习领域的“策略转世”思路。
用建筑来类比:NSR-PreRL负责打地基、清除软土层,确保建筑有一个牢固宽广的基础;标准强化学习则在此基础上完成精装修,做出漂亮整洁的最终效果。只做精装修(标准强化学习),地基不牢,高度受限;只打地基(NSR-PreRL),房子会越盖越粗糙无法居住。两者串联,才能建出又高又好的建筑。
从数学公式看,DSRL在前期(预训练空间阶段)只对答错的样本进行更新,且不看题目条件;在后期(后训练空间阶段)则切换为对所有样本进行条件更新,使用标准的GRPO算法。这个切换点S的选择至关重要,研究发现10到25步是最优区间——太少则激活不足,太多则探索过度导致输出失控。
五、实验数据:DSRL在六项数学竞赛基准测试上全面超越对手
研究团队在两种规模的模型(Qwen3-4B和Qwen3-8B)上进行了系统性评测,对比了六种当时的主流强化学习方法。评测数据集涵盖六个数学推理基准,包括高难度的美国数学邀请赛(AIME)题目。
在Qwen3-4B上,DSRL的综合平均分达到57.54,领先于此前最强的方法。在AIME24这样的高难度题目上,DSRL比标准GRPO高出4.69个百分点;在AMC23上达到89.22,超过所有对比方法。
在Qwen3-8B上,DSRL的综合平均分达到58.47,同样位居第一,在多个数据集上均为所有方法中最高。
除了平均准确率,研究团队还测试了Pass@K指标(让模型生成K个答案,有一个对就算通过)。从K=1到K=256,DSRL在几乎所有数学题集上都超越了GRPO,且随着K增大,领先优势持续扩大。这说明DSRL不只是提升了最常见答法的准确率,还扩展了模型能找到的正确路径的多样性。
研究团队还测试了模型在数学之外的泛化能力,选取了研究生级别知识问答、综合知识理解、逻辑推理和代码生成四个完全不同领域的任务。结果显示,DSRL相比GRPO在知识密集型任务上提升了3.79到5.37个百分点,在代码生成任务上提升了2.44个百分点。这说明,预训练空间的强化学习让模型形成了更普遍化的推理能力。
六、训练过程中发生了什么:思维行为的演化轨迹
要真正理解DSRL为什么有效,光看最终成绩不够,还得观察训练过程中模型行为的变化。
研究团队追踪了四种推理行为在训练中的出现频率:目标分解、枚举、验证以及回溯。
标准GRPO的训练曲线显示,这四种行为只是缓慢、有限地增长,始终处于较低水平,增长速度越来越慢,仿佛遇到了天花板。
DSRL则展示了完全不同的轨迹。在NSR-PreRL预热阶段,四种推理行为就已急剧涌现;进入标准强化学习阶段后,这些行为继续保持快速增长,最终达到的频率上限远高于GRPO。这说明NSR-PreRL确实打开了模型内部的“推理开关”,让模型在后续训练中能更充分地展开深层思考。
从另一个角度看,研究团队统计了训练过程中“完全解对”和“完全解错”的题目数量变化。DSRL在NSR-PreRL阶段表现出明显的“完全解对”题目数量急升和“完全解错”题目数量急降——这意味着模型在这一阶段系统性地清除了根本性的认知错误,而不只是靠运气偶尔答对。后续的标准强化学习则在这个清洁的基础上进一步精炼。
七、与现有方法的对比:PreRL不是预训练,也不是强化预训练
这项工作在概念上容易与两类现有方法混淆,研究团队专门做了区分说明。
第一类是传统的预训练和持续预训练。这两种方法都是“被动阅读”——给模型喂数据,让它预测下一个词,没有任何外部奖惩信号。学习效率受限于数据质量,也无法针对错误路径进行主动修正。PreRL则是主动的:模型自己生成答案,根据对错接受奖惩,然后反向修正参数。
第二类是最近出现的“强化预训练”(RLPT)。其思路是在预训练语料上施加强化学习,例如让模型先生成一段“思考过程”,再预测后续的正确文本,把“预测成功”作为奖励。这类方法的本质问题在于,预训练语料里的“标准答案”是开放式的,一道题可能有无数种正确接续方式,用单一的下一个词来定义“对错”,奖励信号非常模糊。PreRL则完全不同:它使用有明确对错答案的数学竞赛题,奖励信号清晰可验证,而且把问题条件从梯度计算中移除,确保更新针对的是通用推理能力。
从结果看,研究团队对比了“NSR-PreRL预热”和“NSR后训练强化学习预热”两种方案。后者(在有题目条件的情况下用惩罚预热)竟然比不做任何预热的标准GRPO还差。而NSR-PreRL预热(即DSRL)则取得了显著更好的效果。在同样的20步预热后,NSR-PreRL比NSR-RL在多项测试的平均成绩上高出了6.6个百分点,为后续强化学习提供了质量差异悬殊的初始化状态。
说到底,这项研究揭示了一个核心道理:与其一直在做题中学习,不如先花一点时间把错误的思维方式从根子上清除掉,再去做题,效果反而更好、更快。
这个发现对AI的训练方式有实际影响。目前主流做法是把大量算力押注在后训练强化学习阶段,但这项研究表明,将极小一部分资源(仅10到25步训练)用于预训练空间的负样本惩罚,就能大幅提升后续训练的效率和性能上限。
当然,这项工作也有其局限。研究主要在数学推理任务上验证,虽然泛化测试显示在代码生成和知识问答上也有效,但对于完全不同类型的任务是否同样适用,还需要更多探索。此外,最优预热步数的选择目前主要依赖实验观察,其背后的理论解释有待进一步完善。
一个值得持续思考的问题是:AI的推理能力,究竟有多少是藏在参数里等待被“解锁”的,又有多少是真正需要从零开始学习的?NSR-PreRL让模型在极短时间内爆发出丰富的反思行为,暗示着前者可能比我们之前以为的要多得多。
Q&A
Q1:预训练空间强化学习(PreRL)和普通的预训练有什么本质区别?
A:普通预训练是被动的,模型通过大量阅读文本学习“下一个词该是什么”,没有外部奖惩。PreRL则是主动的——模型自己解题,根据答案对错接受奖励或惩罚,并据此调整参数。关键区别在于,PreRL在生成答案时不考虑“是谁出的题”,只训练通用推理能力,而不是针对特定题目的答题技巧。这种方式既保留了预训练的广泛探索能力,又引入了奖惩驱动的主动学习机制。
Q2:为什么惩罚错误答案(NSR-PreRL)比奖励正确答案效果更好?
A:奖励正确答案容易让模型把所有概率集中在已知的正确路径上,像是学生死记硬背一种解法,一旦题型变化就不会了。而惩罚错误答案则迫使模型把概率质量从错误路径上移走,向其他可能性重新分布,相当于清除地图上的死路,帮助模型发现更多样的正确路径。这个过程还会意外激活模型的反思和路径切换行为,让模型自发地学会“等等,这条路不对,换一个角度试试”。
Q3:双空间强化学习(DSRL)比普通GRPO强化学习快在哪里?
A:DSRL的核心优势是先用NSR-PreRL做10到25步的快速预热,把常见的错误推理路径从根本上清除,并激活深层推理行为,再切换到标准强化学习精细调优。这个前期奠基让后续的强化学习起点更高、方向更明确。实验数据显示,DSRL达到45%准确率只需标准GRPO所需步数的五分之二,达到58%准确率只需标准GRPO的约63%步数,最终准确率上限也高于单纯使用标准强化学习。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
英属哥伦比亚大学与Meta联合研发AI数据筛选技术一次扫描替代数小时计算
2026年4月,一项由英属哥伦比亚大学、Vector研究所与Meta联合开展的研究,在arXiv平台上发布了一份预印本论文,编号为arXiv:2508 10180v3。这项名为“For-Value”的研究,提出了一套评估大语言模型与视觉语言模型训练数据价值的新框架,其思路堪称碘伏。 如今,全球数亿用
雷克里森理工学院推出科学论文配图智能检索系统
这项由雷克里森理工学院(Rensselaer Polytechnic Institute)与芝加哥大学联合主导的研究成果,以预印本形式发布于arXiv平台,论文编号为arXiv:2604 20857v1。该研究于2026年2月28日发布,其核心研究方向归属于计算机科学中的信息检索领域(cs IR)。
腾讯QClaw集成腾讯文档与本地文件管理
近日,腾讯办公协同产品QClaw正式推出了全新的“文件空间”功能。该功能的核心价值在于,首次实现了用户本地计算机文件、腾讯云端文档与企业内部知识库平台(ima)三者的无缝打通与一体化管理。 这意味着,企业员工日常工作中产生的各类文档资产——包括存储在个人设备中的本地文件、用于团队实时协作的腾讯在线文
俄勒冈大学研究团队教会AI识别文章作者写作风格
每个人都有独特的“写作指纹”。有人偏爱绵长的句式,有人行文干脆利落;有人善用感叹抒发情绪,有人则始终保持冷静克制的笔调;还有人总在不经意间将话题引向自己熟悉的领域。这些细微的语言习惯,如同指纹一般,构成了个体独特的“写作风格”。 正因如此,在版权纠纷中,文风分析可作为判定真实作者的有力工具;学术界借
加州大学圣克鲁兹分校AI桌面助手在复杂电脑任务中首次超越人类
想象一下,你对电脑说一句“帮我把这份演示文稿的页码改成红色”,它就能自己打开软件、找到设置、完成修改。这种能直接操作图形界面的AI助手,学术上称为“GUI智能体”,无疑是未来人机交互的一大愿景。 然而,现实中的AI助手远未如此可靠。它们常常陷入两个令人头疼的困境:要么“自我感觉良好”,任务没做完就急
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

