快慢思考不用二选一：华为开源 7B 模型实现自由切，精度不变思维链减近 50%

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

快慢思考不用二选一：华为开源 7B 模型实现自由切，精度不变思维链减近 50%

热心网友时间：2025-09-12

转载

国产自研开源模型，让模型不用在快思考和慢思考间二选一了！

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

华为最新发布 openPangu-Embedded-7B-v1.1，参数只有 7B，却身怀双重“思维引擎”。

要知道，长期以来，大模型快思考与慢思考模式不可兼得，这成为业界的一大痛点。在当前大模型混战中，各家巨头都在寻求破局之道，但此前开源领域一直缺乏一款可自由切换快慢思维模式的模型。

要快，还是要慢？AI 在面对不同难度的问题时也有“选择困难症”。

快慢思考不用二选一：华为开源 7B 模型实现自由切，精度不变思维链减近 50%

而现在，openPangu-Embedded-7B-v1.1，通过渐进式微调策略和独特的快慢思考自适应模式，既支持手动切换“快思考”或“慢思考”模式，也能根据问题难度自动在两种思维模式间无缝转换。

简单问题它秒答如飞，复杂任务它深思熟虑，一举填补了开源大模型在这一能力上的空白，让效率与准确率实现双赢。

在通用、数学、代码等多个权威评测中，该模型精度相较于此前模型大幅提升，且引入模式自动切换并没有牺牲精度。在 CMMLU 等基准中，openPangu-Embedded-7B-v1.1 保持精度的同时，平均思维链长度缩短近 50%。

模型现已在 GitCode 开源。

所以，openPangu-Embedded-7B-v1.1 究竟是如何做到的？华为盘古团队在模型训练策略上又有哪些创新？

渐进式微调策略：像人一样“进阶”学习

众所周知，大模型往往需要海量训练才能具备强大的推理能力。然而，openPangu 团队并未采取一味“填鸭式”的训练方式，而是采用了一种渐进式微调（SFT，Iterative Distillation）策略，模拟人类逐步进阶的学习过程。

通过精心设计的迭代训练，让模型在每一步都处于“适度挑战”的学习区间，能力稳步提升。

快慢思考不用二选一：华为开源 7B 模型实现自由切，精度不变思维链减近 50%

具体来说，团队将渐进式微调划分为三个循序渐进的阶段，每一步都让模型获得针对性的提升：

第一步：合理选题，保持适度挑战

在每一轮训练迭代中，模型会根据自身当前能力对候选训练样本进行难度评分，优先挑选难度适中、不偏易也不偏难的题目来训练。这样确保模型始终在与能力相匹配的挑战中学习，既不会因过于简单停滞不前，也不会因过难而无法收获，步步为营拓展能力边界。

第二步：归纳总结，稳固已有知识

完成一轮训练后，产生的多个模型版本（不同检查点）不会简单取舍，而是通过参数增量融合（inter-iteration merging）合并成统一的模型。这一步相当于将新学到的知识与原有能力进行“汇总融合”，让模型的认知更加稳固，避免遗忘过去学到的本领。

第三步：持续提升，扩展能力边界

随着上述循环不断进行，模型积累的知识与技能越来越丰富，自身能力水涨船高，能够胜任更复杂的数据训练。这时，它进入了更高水平的“拉伸区”，可以挑战此前无法解答的难题。模型能力的提升又反过来推动下一轮更高难度的数据选择，形成一个不断进化的良性循环。

通过这样的渐进式训练方式，openPangu-Embedded-7B-v1.1 不再是被动接受知识的“填鸭式”学习者，而是化身为一个能够持续进化的学习者。实验结果表明，这一策略让模型的推理过程更加稳定，泛化表现更加强劲。

快慢自适应机制：两阶段课程，从“手动挡”进阶“自动挡”

相比之前开源的 openPangu-Embedded-7B-v1，此次开源的 openPangu-Embedded-7B-v1.1 模型最大的亮点，就是引入了独特的快慢思考自适应模式，使得模型可以自动根据任务难度选择使用快思考还是慢思考进行解答。

相比 4 月先行披露的技术报告，团队的快慢思考切换训练方案进行了大幅升级，不但从方案上演进为了数据质量驱动的学习策略，快慢思考切换的范围也从数学任务扩展到了一般任务。

快慢思考不用二选一：华为开源 7B 模型实现自由切，精度不变思维链减近 50%

第一阶段：教会模型区分快慢。

在这个“低难度课程”阶段，研究团队首先通过数据构造，让模型明确什么是“快思考”、什么是“慢思考”。

他们精心构建了一个混合训练数据集：在用户提问（Prompt）中附加特殊的标识符，直接告诉模型该用快思考还是慢思考来回答。通过在这个带有明确指示信号的数据上训练，模型学会将特定输入模式与对应的思维方式、回答风格建立关联。

可以说，这一步犹如给模型装上“手动变速箱”，明确划定了两种思考模式的界限，是一堂扎实的“热身课”，确保模型具备基本的快慢思维切换意识。

第二阶段：自主学会切换。

当模型已经掌握了显式控制的本领后，就进入更具挑战性的“进阶课程”。这一阶段不再提供外部快 / 慢提示，而是要求模型根据问题本身自行判断何时该快、何时该慢。

从简单样本过渡到复杂样本，团队设计了一套数据质量驱动的自优化训练策略：先用第一阶段训练好的模型作为“教练”，为同一问题生成多样化的解答链路，然后从中挑选质量最高的解答，再以这些优质解答来有选择地微调模型。

通过这种“从优录取”的训练方式，模型逐渐学会了从复杂问题中自主推断最优思考路径，无需明确指令就能自动在快 / 慢模式间切换。可以说，这一步为模型装上了智能“自动变速箱”—— 它告别了对外部指令的依赖，实现了内在驱动的决策。这一阶段的训练难度显著高于第一阶段，因为模型需要领悟更深层的隐含逻辑，而不再是简单遵循提示符号。

经过两个阶段环环相扣的“课程学习”，openPangu-Embedded-7B-v1.1 完成了从外部信号驱动的显式切换到内部能力驱动的隐式切换的蜕变，大幅提升了模型在复杂推理任务中的灵活性与自主性。

最终，经过这一套训练流程，新模型成功解锁了快慢思考模式的双模式切换 —— 既支持用户手动指定思考模式，也能在无需人为干预下自动选择最合适的推理方式。