阿里云团队以44.8万样本训练出超越大参数模型的轻量推理模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

阿里云团队以44.8万样本训练出超越大参数模型的轻量推理模型

热心网友时间：2026-05-12

转载

这项由阿里巴巴云计算团队主导的创新研究于2026年1月正式发布，详细论文已收录于arXiv平台，编号为arXiv:2601.09088v1。对于希望深入探究技术细节的读者，可通过此编号查阅完整的学术论文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

阿里巴巴云团队用448K样本做出超越32倍参数模型的推理小天才

提升人工智能的推理能力，核心在于培养其深层次的“思考力”。传统的主流方法类似于让学生机械背诵标准答案，虽然能应对熟悉题型，但面对新颖变化时往往表现不佳。阿里巴巴云团队的最新研究成果，则相当于引入了一套先进的“启发式教学体系”。他们研发的仅含40亿参数的轻量模型DASD-4B-Thinking，在数学、编程和科学推理等复杂任务上的表现，竟能超越许多参数量数十倍于它的竞争对手。

这一成果看似不可思议，但其背后的设计理念却极具深度。研究团队深刻洞察到，当前流行的“大模型教导小模型”范式存在几个根本性瓶颈：例如，教师只提供最终答案而缺失关键解题步骤；教学难度与学生当前水平不匹配；或者学生在有辅助时表现尚可，一旦独立测试便错误频出。这些痛点导致小模型往往只能学到“知识的表象”，而难以掌握真正的“思维内核”。

重新审视AI的学习方式

要突破现有瓶颈，首先需要清晰审视现状。传统的“序列级知识蒸馏”方法，其核心目标是让小模型模仿大模型的最终输出。这种方法虽然有效并催生了许多成功案例，但其性能天花板也显而易见。

我们可以将其类比为师生关系。理想状态下，学生应当继承老师的思维框架、解题技巧与逻辑判断能力。但现实是，多数方法仅传递了“最终答案”，却丢失了得出答案所必需的“完整推理链条”。这就像学习数学时只记忆公式而不理解推导过程，其应用范围自然受限。

更深层次的问题在于，这种“教学”过程缺乏有效的互动与反馈机制。教师（大模型）持续单向输出，却无法了解学生（小模型）具体在哪个环节存在困惑、哪些知识点容易出错。这种单向灌输模式，难以实现真正的因材施教。阿里巴巴团队的突破性贡献在于，他们不再满足于简单的答案复制，而是为小模型精心设计了一套完整的“教学体系”，涵盖了循序渐进的课程设计、精准的难点定位，以及从“有辅助学习”到“独立推理”的平滑能力过渡。

温度调节学习法：从简单到复杂的智慧之路

在传统训练范式中，从小模型的“教材”——即大模型的输出中随机采样，是一种常见做法。但这就像给学生随机发放难度不一的习题册，导致学习路径杂乱无章，效率低下。

团队提出的“温度调节学习法”，引入了一个关键的控制变量：“温度”。在语言模型中，低温度设置下的输出更为确定和保守，类似于学霸提供的标准解法；而高温度下的输出则更具多样性和探索性，好比思维活跃的学生尝试的多种创新思路。

研究团队发现了一个关键规律：仅使用低温度数据训练，模型学得稳健但上限不高，如同只做基础题而无法应对竞赛挑战；仅使用高温度数据训练，学习过程则充满坎坷，模型容易迷失方向，就像直接挑战过难题目而挫伤信心。然而，将两者有机结合，先以低温度数据打下坚实的“基础思维”框架，再逐步引入高温度数据以拓宽“思维广度”，能带来显著的性能提升。

实验数据有力地证明了这一点。在数学推理权威测试AIME中，采用温度调节策略的模型，在AIME24和AIME25上分别取得了85.2分和81.3分的优异成绩，明显优于采用单一温度策略的模型。更重要的是，这种由易到难、先稳后拓的学习规律，在代码生成、科学问答等多个领域均被验证普遍有效，说明其精准把握了学习过程的共性本质。

分歧感知采样：找到最适合学习的内容

确定了科学的学习路径后，下一个核心问题是：在海量的潜在训练样本中，哪些才是对当前学生模型最有价值的“黄金习题”？盲目随机选择显然不是最优解。

阿里巴巴团队给出的答案是“分歧感知采样”。其核心思想是：重点挑选那些教师（大模型）非常确信、但学生（小模型）却表现出犹豫或会答错的样本。因为这类样本最能暴露学生的知识盲区和理解偏差，具有最高的教学价值。

具体操作时，团队会同步获取大模型和小模型对同一问题的答案及其置信度。分析发现，样本大致可归为四类：学生自信但老师不认同（可能是固执的错误认知）、老师自信但学生疑惑（最佳教学切入点）、双方都认同（已掌握的知识点）、以及训练后学生改进的答案。其中，“老师确信而学生疑惑”的样本被证明是提升模型推理能力最有效的“催化剂”。

实验验证了该方法的卓越效率。在同等数据量下，采用分歧感知采样筛选出的高质量数据训练，模型在AIME等测试上的成绩获得了显著提升。这种方法的高明之处在于，它无需额外收集数据，仅通过对现有数据的智能筛选，就能大幅提升训练效率，并且其筛选策略具有良好的可迁移性。

混合策略蒸馏：从依赖到独立的过渡

即便解决了“教什么”和“按什么顺序教”的问题，还存在一个关键挑战：“训练环境”与“实战环境”的差异。训练时，小模型总能看见完整的标准答案（如同老师全程代劳）；但实际推理时，它必须自己一步步生成完整解答（如同独立闭卷考试）。这种差异会导致“暴露偏差”，例如在生成长答案时出现逻辑断裂、无意义重复或中途跑偏。

为此，团队创新性地设计了“混合策略蒸馏法”。这个方法模拟了更贴近实战的教学场景：先让学生（小模型）独立尝试解答问题的一部分，当它卡壳或出错时，老师（大模型）再接手完成剩余部分，共同产出一个正确的完整答案。这个过程让学生既能了解正确解法，又能清晰认识到自己独立思维的边界所在。

效果立竿见影。即使仅混合约7700个此类样本进行训练，也能在已有基础上带来明显提升，例如将AIME24的分数从83.3分推高至88.5分。更重要的是，经过这种训练后的模型，在自主生成答案时更加稳定、可控，输出质量更接近人类专家的连贯思维过程。

完整训练流程：从理念到实践

将上述三个核心方法有机整合，便构成了DASD-4B-Thinking模型的完整训练流程，宛如一门精心设计的进阶课程。

首先是教材（数据）准备阶段。团队从公开数据集中精选了涵盖数学、代码、科学推理及通用指令跟随四大领域的高质量难题，确保知识覆盖面广且具有足够挑战性。随后进行严格的数据清洗，过滤掉过长、重复或结构不良的样本，保证“教材”的纯净与高效。

训练则分为三个阶段有序推进：第一阶段使用低温度数据筑基，建立稳健思维；第二阶段引入高温度数据拓维，激发思维灵活性；第三阶段则融入混合策略数据，完成从辅助学习到独立推理的“毕业考核”。整个训练过程采用了优化的学习率调度策略和先进的内存管理技术，以高效处理长上下文序列。

出色的实验成果：小身材大能量

这套创新方法论的效果，在严格的基准测试中得到了充分验证。DASD-4B-Thinking虽仅有40亿参数，却屡次在性能上超越体量远超自己的对手。

在极具挑战性的数学竞赛级测试AIME中，它取得了88.5分（AIME24）和83.3分（AIME25）的优异成绩，不仅在同规模模型中一骑绝尘，甚至超过了多个参数量达320亿的大型模型。

在代码生成测试LiveCodeBench（使用全新题目以避免记忆效应）中，获得69.3分的高分，证明了其真实的编程逻辑与问题解决能力。在博士水平的科学推理测试GPQA-Diamond中，也拿到了68.4分的出色成绩。

最引人注目的是其卓越的数据效率：仅使用44.8万个高质量样本，其性能便超越了那些使用数百万样本训练的开源项目。这充分证明了方法论本身的质量与优越性，而非单纯依靠数据堆砌。

深入分析：为什么这套方法如此有效

为了探究成功的根源，团队进行了细致的消融实验与分析。结果表明，温度调节、分歧感知采样、混合策略蒸馏这三个核心组件各自不可或缺，且相互协同产生了“1+1+1>3”的倍增效应。

温度调节确保了学习路径的科学性与合理性；分歧感知采样实现了教学资源的精准投放与高效利用；混合策略蒸馏则有效弥合了训练与应用之间的鸿沟。三者共同构建了一个真正“互动”与“反馈”的教学循环，而非单向的知识灌输。这种对学习过程本质的深刻把握，使得该方法在不同模型架构和多样化任务领域都展现出了良好的通用性与鲁棒性。

广泛影响：重新定义AI学习的未来

这项工作的深远意义，在于它挑战了“性能提升主要依赖扩大模型规模”的惯性思维，有力地证明了“优化学习过程与方法论”同样至关重要，甚至能实现更高的效率。这为计算资源有限的研究者和广大开发者打开了全新的可能性。

一个仅40亿参数却拥有高性能推理能力的模型，意味着它可以在普通服务器甚至高性能个人电脑上轻松部署，极大降低了AI技术的应用门槛。无论是作为教育领域的智能辅导系统、开发者的高效编码助手，还是科研工作的智能分析伙伴，其应用前景都极为广阔。这项研究为推动AI技术的民主化与普惠化，提供了坚实而创新的技术支撑。

开源贡献：共享智慧的力量

秉持开放协作的科研精神，阿里巴巴团队已全面开源了包括DASD-4B-Thinking模型权重、44.8万精选训练数据集以及完整的训练代码在内的一系列宝贵资源。这种全面而深度的开源，不仅便于全球学术界和工业界进行验证与复现，更显著降低了其他团队的研究与应用门槛，有望加速相关推理优化技术在整个AI领域的快速迭代与协同创新。

未来展望：持续探索的方向

当然，技术的探索永无止境。团队在论文中也明确了未来的几个重点研究方向：例如，探索更精细的“分布感知重加权”技术以进一步优化数据利用效率；改进混合策略以提升训练过程的稳定性；尝试将强大的推理核心能力与外部知识检索、工具调用等能力相结合，构建更全面、更强大的智能体；以及持续优化模型的推理效率与安全性，为更广泛、更可靠的实际商业部署铺平道路。

归根结底，这项研究最宝贵的价值，在于它提供了一种全新的范式启示：当我们不再仅仅追求模型的“体格”更大，而是更专注于设计更聪明、更高效的“教学方法”时，小模型也能孕育出令人惊叹的“大智慧”。这或许将为人工智能发展的下一阶段，带来更多根本性与启发性的思考。

Q&A

Q1：DASD-4B-Thinking相比其他小模型有什么核心优势？

其核心优势源于一套系统性的创新学习方法论，而不仅仅是参数规模。它通过温度调节学习法构建了稳健且灵活的思维框架，通过分歧感知采样实现了对关键知识点的精准学习，并通过混合策略蒸馏顺利完成了从依赖辅助到独立推理的过渡。因此，它能以40亿的轻量参数，在AIME等权威测试上取得超越许多320亿参数大型模型的优异成绩。

Q2：温度调节学习法具体是怎么工作的？

该方法精准模拟了由易到难的教学过程。在训练初期，主要使用低温度下大模型生成的、更确定和标准的输出作为“基础教材”，帮助小模型建立稳定可靠的思维框架。随后，逐步引入高温度下生成的、更多样化和具有探索性的输出作为“进阶教材”，以此有效拓宽模型的思维广度和应对复杂、新颖问题的能力。实验证明，这种分阶段、渐进式的策略比单一温度训练模式效果更优。

Q3：普通人或开发者能使用DASD-4B-Thinking吗？

完全可以。该模型及相关资源已全面开源。由于其参数量仅为40亿，对计算资源的要求相对友好，可以在性能较好的个人电脑、工作站或普通云服务器上运行，无需依赖昂贵的专业AI硬件。开发者、研究人员乃至对AI技术感兴趣的个体，都可以基于此模型进行实验、微调或开发各类实际应用，如智能学习辅助工具、编程插件、对话系统等。

来源:https://www.techwalker.com/2026/0130/3178144.shtml

上一篇：人大团队攻克AI健忘难题：让智能体从批评中持续学习进化

下一篇：北京大学与阿里达摩院联手优化AI代码生成效率突破速度瓶颈