中科大美团联手破解AI偏科难题让大模型兼顾准确性与思维多样性

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

中科大美团联手破解AI偏科难题让大模型兼顾准确性与思维多样性

热心网友时间：2026-05-15

转载

这项由中国科学技术大学与美团联合开展的研究，于2026年4月发布在预印本平台arXiv上，论文编号为arXiv:2604.10688。参与机构还包括南京大学、复旦大学和华中科技大学。感兴趣的读者可通过该编号查阅完整论文。

中科大与美团联手破解AI

当AI变成“应试机器”，我们该怎么办？

想象一下，你有一位家庭教师，他辅导你解题时，无论题目难易、错误类型，总用同一套方式、同样的力度来纠正你。久而久之，你或许能熟练应对某类固定题型，可一旦题目稍有变化，就可能彻底束手无策——因为你的思维已经被“驯化”成了单一模式。眼下，大型语言模型（如ChatGPT、DeepSeek等）在训练中，正面临类似的困境。现有的主流方法在追求“答对题”的同时，往往在不经意间扼杀了模型的思维多样性。而中科大与美团团队提出的SCOPE框架，正是为了破解这个看似矛盾的核心难题。

一、AI训练中的“偏科”现象：越练越死板

要理解这个问题，得先看看AI是怎么学习的。大语言模型学习推理，有点像学生参加模拟考试：模型自己先尝试解题，然后根据最终答案的对错来“打分”，并据此调整自己的“思考习惯”。这种方法被称为“在线强化学习”，是目前训练AI推理能力的主流路径。

然而，这种只认最终结果的评分方式有个明显的缺陷：AI的推理过程往往很长，但奖励信号只在最后给出。这就导致模型很难分辨，漫长的思考链条中，究竟是哪一步起了关键作用，哪一步其实在拖后腿。好比一场接力赛，只知道团队总成绩，却搞不清每个队员的具体贡献。

为了解决这个“功劳归属”难题，研究者引入了“在线蒸馏”方法。简单说，就是给训练的AI配一位能力更强的“老师模型”。当“学生”自己解题时，“老师”会实时跟踪每一个生成步骤，给出细粒度的指导，而非只在最后判个对错。这种方式让训练更精准、更高效。

但问题在于，现有的在线蒸馏方法隐含了一个过于理想的假设：老师模型对所有题目、所有时刻的指导都同样可靠。现实中，这个假设根本站不住脚。

二、发现问题的两个实验：老师也会“发懵”，学生越练越“偏科”

在提出解决方案前，研究团队通过两个关键实验，揭示了现有方法的两个致命缺陷。

第一个问题叫做“多样性退化”。团队在Qwen2.5-7B模型上做了一个实验：只强化模型自己做对的题目。结果发现一个吊诡的现象——在单次尝试中，模型的正确率从63.2%提升到了74.1%，看似进步显著。但当给予模型32次尝试机会（只要有一次答对即算成功）时，成功率却从93.7%暴跌至84.9%。这意味着，模型虽然单次表现变好了，但其思维空间却被大幅收窄，那些“旁门左道”的正确解题路径被一条条遗忘。

好比一个学生原本掌握三种解法，经过强化训练后，他只记住了最常用的一种，另外两种虽正确却不常用，逐渐被边缘化。这样的学生遇到需要灵活变通的题目时，很容易陷入困境。随后，团队在DeepSeek-R1-Distill-Qwen-1.5B上用在线蒸馏方法重复实验，悲剧再次上演：单次正确率提升，但多次尝试的成功率从76.5%降到了75.0%。两种主流方法，都导致了同样的“思维单一化”结局。

第二个问题叫做“纠错低效”。当学生模型做错题时，可以让老师模型来纠正。但研究发现，一旦学生模型的推理过程本身逻辑混乱，老师模型在读完这段“胡言乱语”后，自己也会陷入困惑，其给出的纠正信号就变成了噪音。

为了验证这一点，团队从DeepMath数据集中抽取了2000道题，让学生模型生成错误的推理过程，再由老师模型进行评估。他们用“困惑度”这个指标来衡量老师读完学生推理后的理解程度——困惑度越高，说明老师越看不懂。

接着，他们做了一个“截断实验”：将学生的错误推理过程截断至不同长度（如截去20%、40%等），然后让老师从这个不完整的地方接着推理，看能否得出正确答案。结果令人印象深刻：那些让老师困惑度最低的推理前缀，在截断20%时，纠错成功率高达64.9%；而让老师最困惑的前缀，同样条件下成功率只有45.4%，差距高达19.4个百分点。当截断比例增加到80%时，即便最“友好”的前缀，纠错成功率也跌至35.8%左右，而最混乱的前缀更是只有28.6%。

这说明什么？当学生模型的推理逻辑本身已混乱不堪，老师模型就像被强行塞入一篇错误百出的作文，并被迫从中间续写，结果只能是越写越偏。此时，若还强迫学生去模仿老师在这种“困惑”状态下给出的信号，无异于用噪音来纠正错误，只会适得其反。

三、SCOPE框架：像聪明的老师一样区别对待不同作业

基于以上发现，研究团队提出了SCOPE框架。其核心思想，可以用一位经验丰富的老师的工作方式来类比。

一位聪明的老师，不会对所有的作业一视同仁。对于学生做对的题目，他会思考：这道题虽然对了，但用的是最笨的方法还是最巧妙的思路？如果是笨方法，就该鼓励他探索更好的路径；如果是他已熟练掌握的常规解法，则不必过度强化。对于学生做错的题目，老师会先判断：这个错误我能看懂问题出在哪吗？如果能，就给出精准的纠正；如果学生的逻辑已经乱成一团，连老师自己都理不清头绪，那这道题或许就该暂时搁置，而非强行纠错，以免越纠越乱。

SCOPE框架将AI的每次推理过程（称为“轨迹”）按最终对错，分两条路径处理，即“结果驱动的分组分支”。在训练中，模型对同一道题生成多个推理过程，由验证器判断正误，分别归入“正确集合”与“错误集合”。

对于错误轨迹，SCOPE采用“老师困惑度加权蒸馏”。老师模型读完这条错误推理后，如果自身困惑度很低（说明能看懂学生错在哪），则给该轨迹分配高权重，让老师的纠正信号充分影响学生。反之，如果老师困惑度极高（说明学生的推理已混乱到无法理解），则大幅降低该轨迹的权重，近乎忽略老师的信号，避免传递噪音。

对于正确轨迹，SCOPE转而使用“学生困惑度加权最大似然”。此时不依赖老师，而是直接强化学生自己做对的推理过程。但关键在于，并非所有正确推理都同等对待。如果某条正确推理对学生而言“轻而易举”（学生困惑度低，说明这是熟练套路），就分配较低权重，避免过度强化已知路径。反之，如果某条正确推理对学生来说比较“意外”（学生困惑度高，说明这是一条不寻常的解题路径），则分配较高权重，鼓励模型将这种“旁门左道”的正确方法也纳入武器库。

在数学实现上，权重的计算颇为精巧。错误轨迹的权重与老师困惑度成反比，通过对困惑度取倒数并在同组内做softmax归一化得到；正确轨迹的权重则与学生困惑度成正比，直接对困惑度做softmax归一化。两种权重均在单道题的多条推理轨迹组内进行归一化，从而自动适应不同题目间的难度差异。这套机制被团队称为DPAW。

最终，SCOPE的目标函数整合了这两条路径：对于同一道题，正确轨迹的加权最大似然损失与错误轨迹的加权蒸馏损失共同构成总损失，并在整个数据集上进行优化。

四、实验结果：六大数学竞赛题库的全面检验

研究团队在六个高难度数学推理基准上全面测试了SCOPE，包括MATH500、AIME24、AIME25、AMC2023、Minerva和OlympiadBench。

测试采用了两组不同的学生-老师模型配对，并与GRPO、离线知识蒸馏、标准在线蒸馏三种基线方法进行比较。评估主要看两个指标：A vg@32（32次尝试的平均正确率，衡量稳定性）和Pass@32（32次中至少一次正确的概率，衡量能力上限与思维多样性）。

在第一组实验中，SCOPE在A vg@32上全面领先。尤其在OlympiadBench上，相对标准在线蒸馏提升了10.69%。综合六个基准，SCOPE的平均A vg@32达到55.2%，显著优于基线方法。

在衡量思维多样性的Pass@32指标上，SCOPE的优势更为明显。在第二组实验中，基线方法GRPO几乎未提升Pass@32，离线蒸馏甚至导致严重下降，而SCOPE实现了最强的提升。例如在AIME25上，SCOPE的Pass@32达到35.6%，相对于标准在线蒸馏提升了19.87%。这充分证明了SCOPE在保持并提升模型思维广度方面的独特价值。

从训练动态曲线也能清晰看到差异：GRPO的策略熵（反映思维多样性）持续下降，导致Pass@32劣化；标准在线蒸馏和SCOPE都能维持较高的策略熵，但前者在准确率上很快遇到瓶颈，而SCOPE的A vg@32则持续稳健上升。

五、消融实验：每一个设计都有其存在的理由

为了验证SCOPE每个组件的必要性，团队进行了一系列“拆解”实验。

当移除整个DPAW加权机制，退化为均匀权重后，性能出现显著下降。这证明忽视信号质量差异的“一刀切”策略会造成实质性损失。

单独移除对学生正确轨迹的困惑度加权（即不再优先强化非常规路径），Pass@32指标明显下跌，直接验证了“放大非常规正确路径”对保持多样性的关键作用。若将权重方向反转（给高困惑度轨迹低权重），性能同样受损。

单独移除对老师困惑度的加权（即对错误轨迹一视同仁），性能也会下降。而若将权重方向反转（老师越困惑，给的权重反而越高），性能则出现暴跌，甚至不如均匀加权版本。这个结果极具说服力：如果不加甄别地让学生模仿老师在混乱状态下的输出，不仅无益，反而会严重损害模型性能。

六、计算代价：多了多少开销？

任何新方法都需考量其效率代价。团队坦率地列出了每步训练的时间分解。SCOPE每步总时间约为641.9秒，比GRPO慢约40%，主要多的开销在于老师模型的打分步骤。

值得注意的是，目前的实现是“同步架构”，即生成步骤和老师打分步骤串行进行。研究团队指出，若改用“异步架构”让这两步重叠进行，理论上时间开销可与GRPO持平。换言之，SCOPE当前的时间代价更多是工程优化层面的问题，而非方法本身固有的缺陷。

七、权重温度的影响：松紧要适度

团队还测试了权重计算中温度参数τ的影响。τ=0.5时，权重分布过于尖锐，过度聚焦于极端样本，反而引入了噪声；τ=2.0时，权重分布过于平坦，几乎退化为均匀加权，失去了自适应意义。τ=1.0在多个基准上表现最佳，因此被设为默认配置。

归根结底，SCOPE所做的事情，其理念并不复杂：在AI的“模拟考试”中，对于做错的题，只在老师能看懂错处时才让学生认真学；对于做对的题，则优先让学生巩固那些“意外走对”的非常规解法，而非反复练习熟练套路。两者结合，让AI既能稳步提升答题正确率，又能保持开阔的思维空间，避免陷入“偏科”陷阱。

这项研究的深层意义，在于它指出了一个长期被忽视的关键：训练数据的信号质量是高度异质的，不同推理轨迹对模型的价值天差地别。盲目地均匀处理，不仅效率低下，还会累积训练噪音，最终导致模型能力萎缩。SCOPE提供的这套分类处理、按质加权的思路，有望成为未来大模型训练流程中的一个标准化组件，帮助下一代AI以更高效的方式，获得更强大的推理能力和更灵活的思维。

来源:https://www.techwalker.com/2026/0422/3184747.shtml

上一篇：慕尼黑大学AI仅凭动作预测视频速度提升万倍

下一篇： AI能否记住你？Kenotic Labs评估体系重新定义人工智能记忆边界