KAIST团队教会AI如何突破思维定式寻找新解法

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

KAIST团队教会AI如何突破思维定式寻找新解法

热心网友时间：2026-05-25

转载

这项由韩国科学技术院（KAIST）与DeepAuto.ai联合完成的研究，为我们揭示了一种让AI变得更聪明的巧妙思路。其核心论文《Nudging Beyond the Comfort Zone: Efficient Strategy-Guided Exploration for RLVR》已公开发表，有兴趣深入探究技术细节的读者可以自行查阅。

当探索撞上天花板：KAIST团队教会AI

想象一下，训练一个解数学题的AI，就像培养一位侦探。目前的主流方法，常常会让这位“侦探”陷入一种困境：面对案件，他总是不自觉地反复使用自己最熟悉的那套侦查思路，哪怕此路不通，也很难跳出固有模式，换个角度想想。KAIST团队的研究，正是为了解决这个“舒适区陷阱”。他们想出的办法出人意料地简单：与其让侦探拼命多查几遍同一条线索，不如直接给他几张写着不同侦查方向的小纸条，强制他尝试不同的破案路径。这个看似微小的干预，却让AI在数学竞赛题上的表现大幅跃升，甚至超过了那些耗费八倍计算资源的“暴力”方案。

一、侦探的舒适区陷阱：为什么AI总用同一招

要理解这项研究的巧妙之处，得先看看当前训练AI解题的主流方法卡在了哪里。目前业界广泛采用一种名为“可验证奖励强化学习”的方法。听起来复杂，但本质就像训练侦探：给他一个案子，让他尝试推理，破案成功就给奖励，失败则没有。经过成千上万次训练，侦探就学会了破案。

其中，GRPO方法颇具代表性。它的做法是，每给侦探一个案子，就让他同时写出八份不同的破案报告，然后比较这八份报告的优劣，从对比中学习进步。

这听起来很合理，对吧？但问题恰恰出在这里。这位侦探有自己最擅长、最得心应手的那套思路。于是，他写出的八份报告，很可能只是同一种方法的细微变体。这就好比，一个习惯依赖指纹破案的侦探，你让他交八份报告，结果他全都在分析指纹，只是换了几根手指头而已。如果这个案子恰好不适合指纹分析，那么这八份报告就会全军覆没。

此前的一项理论分析指出了这个问题的数学本质：AI训练中真正的进步，取决于它“采样到的正确答案”。而那些它知道但想不到去尝试的正确路径，反而会成为拖累。这意味着，瓶颈不在于AI能否识别正确答案，而在于它根本不会往那个方向去想。

那么，最直接粗暴的解决办法是不是增加报告数量？既然八份不够多样，那就写六十四份。理论上可行，但计算一下就知道此路不通：如果某种正确思路在AI脑中间出现的初始概率只有1%，那么平均需要尝试一百次才能碰上一次；如果是0.1%，则需要一千次。这种“撞大运”的方式成本高昂，且对于真正巧妙但罕见的解法，几乎永远无法触及。实验数据也证实了这一点：当报告数量从三十二份增加到六十四份时，AI的表现不升反降，说明单纯堆砌数量已无济于事。

二、给侦探递小纸条：策略助推法的妙处

研究团队的核心创意，在于他们提出的“策略助推”法。延续之前的比喻，这相当于在侦探动笔前，给每份报告附上一张指定侦查方向的小纸条。例如，第一份纸条写着“用指纹分析”，第二份写着“查监控录像”，第三份写着“梳理证人证词”。这样一来，侦探就被强制要求尝试不同的路径，无法再偷懒重复同一招。

具体到数学题上，这些小纸条上写的是诸如“考虑西函数方程”、“尝试对自然数归纳”、“利用线性函数性质”等方向性关键词。注意，纸条提供的不是答案，也不是解题步骤，仅仅是一个思考方向的提示，相当于对AI说：“这次，试着往这个方向想想看。”

这里的设计尤为精妙。团队意识到，如果只是把所有可能方向堆在一起让AI自己选，它很可能还是会回到老路。因此，他们采取了“强制分配”策略：每一份报告都被预先绑定一个方向，AI别无选择。

当然，完全强制也有弊端——如果AI永远只能按纸条指示思考，就丧失了自由发挥的能力。为此，团队引入了“上下文丢弃”机制：每次训练，以50%的概率撤掉小纸条，让AI回归原始状态自由探索。实验表明，这个对半开的比例效果最佳，既保证了引导性，又不扼杀自主性。

那么，这些方向性小纸条从何而来？团队采用了一个经济高效的办法：用一个相对廉价的语言模型（如GPT-4o-mini）为每道题目自动生成两个候选方向。这个过程是一次性的，生成的提示可以反复使用，不会增加训练过程的额外开销。更妙的是，这些提示无需验证是否正确——它们不必指向最终答案，只要能引导AI尝试不同思路就足够了。

效果如何？一个直观的对比实验显示，在同样生成八份报告的情况下，传统方法往往只能覆盖一两种解题思路；而加入策略助推后，报告所涉及的思路数量显著增加，很多题目能覆盖四五种甚至更多的路径。这就好比让那位只会指纹分析的侦探，突然学会了综合运用监控、证词、物证、动机分析等多种破案手法。

三、给奖励算账的新方式：组内组间双重比较

策略助推解决了思路多样性的问题，但随之带来了一个新的挑战：如何公平地评价这些基于不同思路生成的报告？

继续用侦探比喻：假设一位侦探提交了八份报告，四份用指纹分析法（三份成功），四份用监控录像法（仅一份成功）。那么，监控录像组里那份唯一的成功报告，该如何评价？是因为它采用了更困难的方法而值得嘉奖，还是该因为它所在的小组整体表现不佳而被压低分数？

原来的GRPO方法将所有报告放在一起比较，这会导致明显的不公：采用高难度方法成功的报告，可能因为同组其他报告的失败而被拉低平均分，得到不应有的低评价。这就像把不同难度级别的运动员混在一起排名，对挑战高难度的选手极不公平。

为此，研究团队设计了“组间-组内双重优势”评估机制。其工作原理是：首先按提示方向将报告分组，然后从两个维度评价每一份报告。一是“组内比较”，看该报告在其小组内部的相对表现；二是“组间比较”，看该报告所在小组的整体表现相对于所有小组的平均水平如何。最终评分由这两部分加权合成。

这里有一个关键的调节参数λ，用于控制两层评价的权重。实验发现，当λ设为1.1时效果最好，这意味着系统会稍微倾向于奖励那些来自高表现小组的成功报告。这个细微设定颇有深意：既然策略助推已在源头确保了多样性，那么在评价阶段，就可以适当强化那些被证明“靠谱的方向”，让AI的学习更扎实。团队也从数学上证明了，只要λ的值在0到2之间，这套机制就能保证高奖励的报告永远获得更高的总评分，杜绝评价倒挂。

四、训练时开小灶，考试时靠自己：知识蒸馏的桥梁

策略助推还面临一个根本性挑战：训练时有小纸条提示，但实际应用（考试）时没有。如果AI只学会了“看提示答题”，那训练得再好也是纸上谈兵——总不能在实际数学竞赛中还给AI递纸条吧？

为此，团队设计了一个“自蒸馏”机制，旨在搭建一座从“有提示”状态到“无提示”状态的知识桥梁。具体做法是：当AI在有小纸条的情况下产出一份高质量解题报告时，系统会同步让处于“无小纸条”状态的AI去学习这份报告。换言之，AI不仅要学会“根据提示解题”，更要学会“在没有提示时，也能自然想到这种思路”。

这个机制与普通的模仿学习关键区别在于，它是加权学习：报告的优势分数越高，对“无提示AI”的影响就越大；表现差的报告则几乎不被学习。这就确保了AI内化的都是真正有价值的思路。

最终的训练目标，是将强化学习部分（优化有提示的AI）与蒸馏部分（将好思路传递给无提示的AI）按比例结合。实验表明，将蒸馏权重设为0.1时效果最佳，既能有效搭建桥梁，又不会过度约束AI的学习过程。

一个特别有趣的发现是，随着训练进行，“无小纸条”状态下的AI表现，有时甚至会超过“有小纸条”的状态。这说明小纸条的作用并非简化问题，而是引导AI探索它原本不会考虑的路径。一旦这些路径被AI内化吸收，它在无提示时反而能发挥得更好。这与那些依赖“标准答案片段”的方法有本质区别——后者主要是让难题变简单，而前者是让AI本身变得更聪明。

五、实战检验：用八份报告打败六十四份

理论再精妙，也需实战检验。研究团队在Qwen3-4B-Instruct（40亿参数）和Olmo-3-7B-Instruct-SFT（70亿参数）两个模型上测试了他们的方法。测试题目来自五个不同的数学竞赛数据集，难度涵盖高中竞赛到奥林匹克级别。

结果令人印象深刻。在40亿参数模型上，采用策略助推方法（每题仅生成八份报告）取得的平均成绩为0.489。而传统方法即使生成三十二份报告，最好成绩也只有0.487；当报告数量增至六十四份时，成绩反而降至0.451。也就是说，新方法仅用八分之一的计算资源，就达到甚至超越了“暴力堆料”的效果。

在70亿参数模型上情况类似，新方法以八份报告取得0.285的平均成绩，而传统方法即使用三十二份报告也只能达到0.281。这种“四两拨千斤”的效果，对于实际应用意义重大，意味着可以用更少的计算资源训练出更强的模型。

团队还与另一种名为POPE的方法进行了对比。POPE的思路是给AI看部分标准答案作为提示，相当于让侦探瞥一眼破案报告的开头几行。这种方法的问题在于：生成标准答案片段成本高昂（通常需调用如DeepSeek Reasoner等强大模型），且容易将AI引导向一条特定路径，限制思路多样性。实验结果显示，新方法在两个模型上都超越了POPE，证明“引导多样化探索”比“提供答案片段”更为有效。

六、深入案例：一道AIME题目的故事

为具体说明新方法的优势，研究团队以一道2025年美国数学邀请赛的题目为例。题目涉及直角三角形内部点的几何关系，要求计算一个四边形的面积。

传统方法训练的AI，在三十二次尝试中全部失败。其失败模式很典型：大多试图采用坐标几何法，但在求解过程中陷入复杂的代数运算，推导冗长，最终因篇幅限制被截断，无法得出答案。部分尝试误入了错误简化（如假设三角形为等腰）或繁琐的面积分割法，同样以混乱告终。

而采用新方法训练的AI，在三十二次尝试中有六次成功。成功的关键在于，它发现并采用了“鞋带公式”这条捷径。该公式能通过多边形顶点坐标直接计算面积，比将四边形分解为多个三角形分别计算要简洁得多。传统方法训练的AI虽也偶尔尝试鞋带公式（三十二次中仅一次），但运用生疏；新方法训练的AI在十次相关尝试中，有六次成功运用该公式得出正确答案104。

这个案例生动展示了策略助推的双重价值：一方面，它让AI接触到了原本极少尝试的解题工具（鞋带公式）；另一方面，组间-组内的评价机制让AI学会识别并强化这种可靠方法，最终将其内化为自身能力。

七、对比其他主流方法：为什么“引导式探索”更胜一筹

除了与“暴力堆料”法对比，团队还和另一种流行的“解耦剪辑”探索方法进行了较量。该方法通过调整算法参数，让AI更大胆地朝好的方向更新。

实验显示，当该方法的关键参数从0.2逐渐增至0.4时，AI表现先略有提升，但在参数达到极端值0.4时急剧下滑。整个过程中，其最佳表现仅为0.566。而策略助推方法在最保守的设置下就达到了0.598，全程保持领先。

这一对比揭示了一个深刻道理：通过调整数学参数来“鼓励探索”是一种盲目方式，它只告诉AI“要更大胆地偏离当前路径”，却没有指明“该往哪里偏”。这就像对侦探说“你要大胆尝试新东西”，却不告诉他可以尝试什么，结果他可能尝试一些完全无意义的方向。相比之下，策略助推提供了“试试这个方向”的具体指引，是一种“有结构的探索”，效果自然更优。

八、深挖机制：为什么随机比精选更好

团队还做了一个反直觉的实验：对比两种生成小纸条的方式。一种是随机生成两个方向；另一种是“精选”——先生成五个候选方向，然后通过实际测试，选出能让AI表现最好的两个。

按常理，精选应该更好。但结果恰恰相反：随机方式的平均成绩为0.598，而精心挑选的方式只有0.552。

为何如此？研究团队的解释是：精心挑选的方向往往会集中于那几个“最容易成功”的解题路径，这反而限制了思路的多样性。AI虽然能频繁地用这些“靠谱方向”得出答案，却失去了接触更广阔解题思路的机会，整体能力提升反而受限。随机方式虽然会包含一些不那么完美的方向，但正是这种多样性，让AI得以探索更广阔的思路空间，从而获得更全面的能力提升。

这一发现强化了研究的核心理念：策略助推的关键作用，并非提供“最优答案的暗示”，而是迫使AI走出舒适区，尝试各种可能性。多样性本身，就是最大的价值。

九、训练动态：策略助推让AI学得更快

团队还观察了AI在整个训练过程中的进步轨迹。结果显示，使用策略助推的AI不仅最终成绩更好，进步速度也更快。在训练约200步时，新方法在AIME数据集上的成绩就已超过0.42，而传统方法即使用更多报告，也只能在0.41附近徘徊或增长缓慢。

更有趣的是，团队同时监测了“有提示”和“无提示”两种状态下AI的表现，发现两者在训练过程中同步提升，后期甚至出现了“无提示时表现更优”的情况。这说明蒸馏桥梁确实起到了作用——AI通过有提示训练发现的好思路，被成功转移到了无提示状态。

团队还测试了pass@k指标（即允许尝试k次，看是否至少成功一次）。结果显示，新方法在k=1, 4, 16, 64, 256, 1024等各种设置下全面领先。这表明新方法不仅提升了单次回答的准确性，也提高了AI的整体能力上限。

十、研究的边界与未来：还能更聪明吗

尽管成果显著，研究团队也坦率指出了当前方法的局限。生成方向性提示本身需要一些前期成本——尽管用的是廉价模型，且过程是一次性的，但毕竟是一笔开销。不过，考虑到其可重复使用性，总体来看仍然非常经济。

一个更值得思考的深层问题是：目前的提示是预先生成、静态的，与AI实时的学习状态无关。随着训练推进，AI会越来越聪明，那些原本能引导它探索新方向的提示，可能会逐渐失去挑战性。团队设想了一个未来方向：让提示的生成能够动态适应AI当前的知识状态，专门针对其“思维盲区”生成提示。这种自适应的提示系统，或许能让训练效果长期保持高效。

说到底，这项研究最引人深思之处，并不在于它在数学题上提升了几个百分点，而在于它揭示了一个朴素却重要的道理：让AI变得更聪明，未必需要更多的算力或更复杂的算法，有时候，只需要一个简单的引导——告诉它“换个思路试试”。

这种思路在某种程度上呼应了人类学习的本质：一位好老师，不是给学生标准答案，也不是让学生反复刷同一类题，而是引导学生从不同角度思考问题。研究团队用巧妙的工程方法，将这种“启发式教学”的智慧，成功地注入了AI训练之中。

对于更广泛的领域而言，这项研究代表了一个重要的发展方向：从“暴力堆砌资源”转向“巧妙设计引导”，从“提供答案”转向“鼓励探索”。这种转变意味着，未来的AI训练有望变得更加经济、灵活，使得更多研究团队和小型公司能够训练出强大的模型，而不必依赖天价的计算资源。