英伟达省钱技巧：5倍加速大模型推理，短而精

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

英伟达省钱技巧：5倍加速大模型推理，短而精

热心网友时间：2025-11-04

转载

如何让AI模型在保持高质量输出的同时，还能做到简明扼要？英伟达研究院的最新研究给出了突破性答案：关键在于选择合适的强化学习优化方法，而非单纯依赖复杂冗长的惩罚机制。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

大型推理模型是否需要采取“长篇大论”式的思考模式？回顾过去一年，OpenAI o系列、DeepSeek-R1、Qwen等顶尖推理模型，将“长链思维”发挥到了极致：答案准确度确实提升了，但代价是推理链越来越长、Token消耗量激增、响应速度明显下滑。

如果扩展长链思维确实是通向AGI的必经之路，那么当前思维链存在的冗长问题就是我们亟需解决的核心挑战。

那么，能否让模型在保证准确性的前提下，学会更简洁的表达方式？

此前的多次尝试大多未能成功：各种复杂长度惩罚机制要么导致模型输出混乱，要么造成训练过程不稳定，最终结果往往是效率提升了，准确率却大幅下降。

如今，英伟达研究院通过创新性研究找到了解决方案：成功的关键在于采用恰当的强化学习优化策略，而不是设计复杂的惩罚函数。

DLER来了！推理模型的“减重秘籍”

DLER首先系统性地分析了引入长度惩罚后出现的新型强化学习训练难题，具体包括：奖励信号方差显著增大、“顿悟时刻”措辞不当导致的熵塌缩、训练信号过度稀疏（初始训练时大部分生成都超出了预设长度）。

针对这些实际问题，DLER提出了一套简洁而强大的强化学习训练配置方案：优势归一化配合局部均值和批次标准差：替代GRPO，稳定训练信号，避免因截断惩罚带来的高方差问题。更高的奖励截断值：提升高熵探索，防止模型陷入“思维僵化”的困境。动态采样机制：过滤无效样本，聚焦真正有价值的推理路径。截断惩罚策略：采用最简单的“截断惩罚”原则，对超出预设长度的输出不给予任何奖励。

基于DLER这套创新训练方法，得到的模型表现令人惊喜。新模型产生的推理长度竟然能够减少70%以上，同时准确率完全没有损失。在AIME-24数学基准测试中，DLER-Qwen-R1-7B平均仅用3230个Tokens就达到了55.6%的准确率，而DeepSeek-R1-7B需要花费13241个Tokens才能实现55.4%的准确度。

DLER不仅实现了更简短的输出，更是从本质上提升了每个token的信息密度。在相同的推理时间内，相较于传统推理模型只能生成一条冗长的推理链，DLER模型能够并行生成数十条精炼的推理路径，最终准确率比DeepSeek-R1高出近50%。这一实验结果也意味着高效推理才是测试时扩展的关键所在。

关键发现

DLER的研究揭示了几个颠覆性的结论：推理效率的提升，不取决于惩罚机制设计的复杂程度，而在于优化算法的选择。过去大家普遍认为强化学习的长度惩罚“必然导致准确率下降”，其实只是因为优化方法选择不当。简单的截断惩罚配合正确的优化器，就能让模型掌握“短而精”的思维方式。

更令人惊喜的是，DLER不仅适用于小型模型，在大型模型上同样效果显著。研究团队还提出了权重选择性合并技术，解决了大模型使用公开数据微调时的性能下降问题：既能完全恢复准确率，又能保持近一半的长度压缩效果。

总结

这项来自英伟达的创新研究，让我们重新认识了推理模型的未来发展方向。首先，推理模型不能只是一味地拉长推理链条，而是需要更智能、更高效地思考。其次，通过DLER，模型能够以更少的Tokens、更短的时间，做到更高的准确率。如果说之前的研究ProRL让模型“开窍”，那么DLER就是帮模型“瘦身健身”，让它们更快、更强、更实用。未来在实际部署中，DLER无疑会成为让推理模型真正落地的关键技术之一。

来源:https://www.51cto.com/article/828828.html

上一篇： AWS与OpenAI签380亿美元协议共推AI基础设施规模化发展

下一篇： AlphaGo之父警示：AI被严重低估，2026年或能自主创业