INFLY TECH推出DPH-RL框架，破解AI训练专精难题

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

INFLY TECH推出DPH-RL框架，破解AI训练专精难题

热心网友时间：2025-09-18

转载

随着人工智能技术日新月异的发展，大型语言模型在需要精确解答的数学推导、代码生成等领域展现出非凡实力。一个耐人寻味的现象却引起了研究者们的深入思考：运用强化学习方法训练模型后，模型的首次回答准确性显著提升，却在重复回答相同问题时整体成功率骤降。这种"训练越充分重答能力越弱"的反常现象，就像学生首次测试成绩提高但补考表现反而退步，成为了当前AI研究领域的热点课题。 INFLY TECH联合复旦大学与格里菲斯大学的科研团队经过细致研究后发现，传统强化学习训练中的"反向KL散度"方法是这一现象的关键成因。这项原本用于约束模型更新幅度的数学技术，意外触发了"模式聚集"效应——模型会过度集中于少数高频答案，犹如学生偏科般忽略其他可能的解题路径，最终导致输出结果极度单一化。研究发现，使用传统方法训练的模型在完成强化学习后，面对先前能够正确解决的问题，其成功率会大幅降低15%左右，表现出典型的"灾难性遗忘"特征。这很好地解释了为何模型在重复回答时表现欠佳：虽然首次回答可能幸运地命中强化训练的少数答案，但缺乏解题多样性的模型在后续尝试中往往铩羽而归。针对这一挑战，研究团队开创性地提出了多样性保持混合强化学习框架（DPH-RL）。该技术的创新突破在于采用了"正向KL散度"和"JS散度"等具备"广度覆盖"特性的数学方法。与传统训练方式的"聚焦效应"不同，新技术更像是建立了"定期复习"机制，确保模型在提升新能力的同时不会遗忘已有技能，有效维持了解题路径的多样性。 DPH-RL框架采用了独特的双阶段训练设计。预处理阶段，系统会智能地将训练数据划分为"优秀样本集"与"探索样本集"：前者记录着模型已掌握的稳定解法及其概率分布；后者则针对性地收集需要改进的难题样本。在实质训练阶段，框架对探索样本给予充分创新空间，鼓励模型寻找新颖解法；同时对优秀样本施加稳健约束，确保既有能力不被削弱。多维度的实验评估充分验证了该框架的优势。在处理数学推理与SQL查询生成任务时，采用从70亿到320亿参数的不同规模模型进行测试，结果一致显示DPH-RL不仅完美解决了多样性缺失问题，还在初始准确率与重复成功率两项关键指标上双双取得突破性进展。以Llama-3.1-8B模型执行SQL任务为例，传统GRPO方法的Pass@8评分下跌2.6%，而DPH-JS方法却实现了1.7%的提升。在跨领域适应性测试中，传统方法性能急剧波动，新框架则展现出惊人的稳定性。在AIME24数学竞赛题的测试中，传统GRPO方法将基础模型的40%Pass@64成绩拉低至33.3%，DPH-JS方法不仅守住了原有水平，在其他数学数据集测试中还稳步提升了表现。研究还揭示了一个极具价值的发现：不同架构模型对强化学习的响应差异显著——Llama系模型提升空间有限且Pass@k指标下滑，而Qwen系模型却能同时提升20%左右的准确率与多样性指标，这为模型选型提供了重要参考。从计算效率维度考量，DPH-RL框架展现出显著优势。传统散度计算需要维持在线参考模型，大幅增加了计算负担；新框架创新性地采用生成函数形式计算f-散度，仅需从初始策略采样，彻底免除了在线模型的消耗，训练效率获得质的飞跃。对不同f-散度的系统性对比研究表明，α-散度族能在正向KL与反向KL间取得理想平衡，实验数据显示随着α值增加，Pass@k评分持续走高，为研究人员提供了丰富的技术选择。这项研究不仅带来了技术创新，更从根本上重塑了学术界对散度项作用的理解。传统认知将散度项视为消极的限制工具，而DPH-RL框架将其重新定义为积极的多样性保持机制。严格的数学理论证明显示，该框架具备更强化的单调改进保障，在特定条件下，单次策略更新的改进下限远超传统TRPO的分析结果，为方法的可靠性提供了坚实的数学基础。在实际应用维度，DPH-RL框架为构建通用推理模型指明了新方向。当下大型模型应用日益广泛，保持解答多样性与泛化能力至关重要。本研究的成功实践表明，通过精心设计的训练方法，完全可以在提升模型性能的同时避免能力退化。这项研究也为强化学习在大模型训练中的应用提供了宝贵启示：简单移植经典算法可能适得其反，必须充分考虑大模型的特有性质。研究团队设计的验证实验匠心独运。他们构建了一个能输出五种解题风格的基础模型，分别采用传统方法与新方法进行训练。结果显示传统方法训练的模型近99%情况仅输出一种风格，而正向KL散度训练的模型约60%情况下能产生三种以上不同风格解答。进一步的保持率和探索率分析揭示，传统方法在正确样本和错误样本上的保持率同时下滑，导致严重的遗忘效应；反之，KL散度约束方法通过提高保持率持续优化得分表现。

来源:https://www.itbear.com.cn/html/2025-09/955188.html

上一篇：海淀金融业2025上半年表现抢眼：上市公司总市值突破4万亿领跑全市

下一篇： OpenAI拟投3500亿美元布局算力，2030年盈利前景引关注