当前位置: 首页
AI
INFLY TECH推出DPH-RL框架,破解AI训练专精难题

INFLY TECH推出DPH-RL框架,破解AI训练专精难题

热心网友 时间:2025-09-18
转载
随着人工智能技术日新月异的发展,大型语言模型在需要精确解答的数学推导、代码生成等领域展现出非凡实力。一个耐人寻味的现象却引起了研究者们的深入思考:运用强化学习方法训练模型后,模型的首次回答准确性显著提升,却在重复回答相同问题时整体成功率骤降。这种"训练越充分重答能力越弱"的反常现象,就像学生首次测试成绩提高但补考表现反而退步,成为了当前AI研究领域的热点课题。 INFLY TECH联合复旦大学与格里菲斯大学的科研团队经过细致研究后发现,传统强化学习训练中的"反向KL散度"方法是这一现象的关键成因。这项原本用于约束模型更新幅度的数学技术,意外触发了"模式聚集"效应——模型会过度集中于少数高频答案,犹如学生偏科般忽略其他可能的解题路径,最终导致输出结果极度单一化。 研究发现,使用传统方法训练的模型在完成强化学习后,面对先前能够正确解决的问题,其成功率会大幅降低15%左右,表现出典型的"灾难性遗忘"特征。这很好地解释了为何模型在重复回答时表现欠佳:虽然首次回答可能幸运地命中强化训练的少数答案,但缺乏解题多样性的模型在后续尝试中往往铩羽而归。 针对这一挑战,研究团队开创性地提出了多样性保持混合强化学习框架(DPH-RL)。该技术的创新突破在于采用了"正向KL散度"和"JS散度"等具备"广度覆盖"特性的数学方法。与传统训练方式的"聚焦效应"不同,新技术更像是建立了"定期复习"机制,确保模型在提升新能力的同时不会遗忘已有技能,有效维持了解题路径的多样性。 DPH-RL框架采用了独特的双阶段训练设计。预处理阶段,系统会智能地将训练数据划分为"优秀样本集"与"探索样本集":前者记录着模型已掌握的稳定解法及其概率分布;后者则针对性地收集需要改进的难题样本。在实质训练阶段,框架对探索样本给予充分创新空间,鼓励模型寻找新颖解法;同时对优秀样本施加稳健约束,确保既有能力不被削弱。 多维度的实验评估充分验证了该框架的优势。在处理数学推理与SQL查询生成任务时,采用从70亿到320亿参数的不同规模模型进行测试,结果一致显示DPH-RL不仅完美解决了多样性缺失问题,还在初始准确率与重复成功率两项关键指标上双双取得突破性进展。以Llama-3.1-8B模型执行SQL任务为例,传统GRPO方法的Pass@8评分下跌2.6%,而DPH-JS方法却实现了1.7%的提升。在跨领域适应性测试中,传统方法性能急剧波动,新框架则展现出惊人的稳定性。 在AIME24数学竞赛题的测试中,传统GRPO方法将基础模型的40%Pass@64成绩拉低至33.3%,DPH-JS方法不仅守住了原有水平,在其他数学数据集测试中还稳步提升了表现。研究还揭示了一个极具价值的发现:不同架构模型对强化学习的响应差异显著——Llama系模型提升空间有限且Pass@k指标下滑,而Qwen系模型却能同时提升20%左右的准确率与多样性指标,这为模型选型提供了重要参考。 从计算效率维度考量,DPH-RL框架展现出显著优势。传统散度计算需要维持在线参考模型,大幅增加了计算负担;新框架创新性地采用生成函数形式计算f-散度,仅需从初始策略采样,彻底免除了在线模型的消耗,训练效率获得质的飞跃。对不同f-散度的系统性对比研究表明,α-散度族能在正向KL与反向KL间取得理想平衡,实验数据显示随着α值增加,Pass@k评分持续走高,为研究人员提供了丰富的技术选择。 这项研究不仅带来了技术创新,更从根本上重塑了学术界对散度项作用的理解。传统认知将散度项视为消极的限制工具,而DPH-RL框架将其重新定义为积极的多样性保持机制。严格的数学理论证明显示,该框架具备更强化的单调改进保障,在特定条件下,单次策略更新的改进下限远超传统TRPO的分析结果,为方法的可靠性提供了坚实的数学基础。 在实际应用维度,DPH-RL框架为构建通用推理模型指明了新方向。当下大型模型应用日益广泛,保持解答多样性与泛化能力至关重要。本研究的成功实践表明,通过精心设计的训练方法,完全可以在提升模型性能的同时避免能力退化。这项研究也为强化学习在大模型训练中的应用提供了宝贵启示:简单移植经典算法可能适得其反,必须充分考虑大模型的特有性质。 研究团队设计的验证实验匠心独运。他们构建了一个能输出五种解题风格的基础模型,分别采用传统方法与新方法进行训练。结果显示传统方法训练的模型近99%情况仅输出一种风格,而正向KL散度训练的模型约60%情况下能产生三种以上不同风格解答。进一步的保持率和探索率分析揭示,传统方法在正确样本和错误样本上的保持率同时下滑,导致严重的遗忘效应;反之,KL散度约束方法通过提高保持率持续优化得分表现。
来源:https://www.itbear.com.cn/html/2025-09/955188.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Crivando

Crivando

Crivando是什么 在数字营销这个日新月异的竞技场里,内容创作的速度与质量,常常是决定成败的关键。现在,有一款名为Crivando的AI工具正试图为这个难题提供一套完整的解决方案。它由专业团队打造,目标直指营销人最核心的痛点——如何高效地产出高质量内容,并精准地打动目标受众。简单来说,Criva

时间:2026-04-25 22:35
MakerPeak

MakerPeak

MakerPeak是什么 在如今这个产品信息爆炸的时代,如何快速、精准地找到真正有价值的工具或平台,成了许多创业者和创作者的头等难题。MakerPeak的出现,正是为了解决这个问题。简单来说,它是一个由技术专家团队打造的AI驱动平台,核心使命就是帮助用户高效地发现和展示优质产品。 平台巧妙地运用了先

时间:2026-04-25 22:35
AI SEO Copilot by Askseo

AI SEO Copilot by Askseo

AI SEO Copilot by Askseo是什么 想在搜索引擎结果页上抢占先机?AI SEO Copilot by Askseo可能就是那块关键的拼图。这款由ASK SEO公司打造的AI驱动工具,核心目标非常明确:帮你系统性地提升网站排名、吸引精准流量,并最终促成更多转化。尤其在竞争白热化的线

时间:2026-04-25 22:33
Elapse

Elapse

Elapse是什么 在客户支持自动化领域,Elapse AI正快速成为一个绕不开的名字。简单来说,这是由Creati ai打造的一款AI驱动的聊天机器人系统,专为简化和优化客户支持流程而生。它的核心逻辑在于,通过对历史及实时客户互动的学习和分析,将繁杂的咨询转化为自动化、标准化且具有洞察力的服务。最

时间:2026-04-25 22:33
奇觅

奇觅

奇觅是什么 如果你正在游戏广告行业里摸爬滚打,大概率听过这个名字——奇觅。它可不是个简单的工具,而是由成都睿晟天和传媒科技推出的一款“组合拳”平台。简单说,它把AI制作广告和智能投放两大环节给打通了,从捕捉市场热点,到生成创意素材,再到分析投放效果,一气呵成。其目标很明确:让广告人的创意更高效,让广

时间:2026-04-25 22:32
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程