当前位置: 首页
科技数码
清华团队研发TDRM算法:用时间差分优化奖励函数

清华团队研发TDRM算法:用时间差分优化奖励函数

热心网友 时间:2025-10-09
转载

前沿研究突破:时间差分奖励模型TDRM重塑LLM强化学习范式

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

奖励模型作为大语言模型强化学习与推理验证的核心组件,在数学推导、编程辅助和指令响应等关键领域展现出巨大潜力。但传统奖励模型存在一个致命短板——时间维度上的评估连续性缺失。这一问题直接导致策略优化方向偏差和训练过程波动加剧。

研究发现,当前模型在长序列推理过程中,单步奖励评估往往与其他步骤隔离割裂,产生误导性训练信号。特别是在复杂思维链场景下,模型需完成多步推演后才能获得终端奖励,致使各推理步骤价值难以准确判断。

针对这一核心挑战,清华大学联合加州理工研发团队创新性提出TDRM框架——运用时间差分(TD)训练方法构建具备时间一致性的奖励模型,显著提升模型训练稳定性。

值得关注的是,该项目已全面开源包括核心代码、训练数据和模型参数,为学界提供重要研究资源。

\

TDRM框架的技术创新

TDRM引入三重技术突破:首先是建立基于n步时间差分的过程奖励模型,其次在强化学习阶段实现实时在线优化,最终通过可验证奖励的线性整合形成完整解决方案。

与传统方法不同,TDRM创造性将时间差分技术应用于奖励模型本身的构建过程,而非仅用于数据预处理。这种革新思路带来了更平滑的奖励空间和更密集的训练信号。

TDRM框架架构

关键技术特征

平滑性优化: 通过局部普希茨连续分析验证,TDRM相比传统方法显著降低27%的评估敏感度,确保推理微调不会引发奖励值剧烈波动。

创新的奖励机制: 引入余弦奖励函数与TD-λ算法的结合范式,既考虑单步推理正确性,又兼顾整体推理长度因素,实现精细化的奖励分配。

在线强化学习: 采用动态状态值计算方法,使模型能够实时适应训练轨迹变化,大幅提升价值预测的准确性。

实验结果验证

在MATH-500等五个高难度数学数据集上的测试表明,TDRM展现出卓越性能:Best-of-N采样方法中最高提升6.6%准确率,树搜索场景更是实现23.7%的性能飞跃。

强化学习场景下,TDRM仅需5%的训练数据量就能达到传统方法同等效果,在GLM4-9B等主流模型架构上都取得了明显的策略优化。

性能对比结果

这项研究不仅解决了奖励模型的时间一致性问题,更为复杂推理任务的自动化评估开辟了新方向。开源资源的释放将加速该技术在更广泛领域的应用落地。

来源:https://36kr.com/p/3501437759003785

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
最后一刻!特朗普同意停火两周,伊朗接受提议!原油跳水、金银猛拉

最后一刻!特朗普同意停火两周,伊朗接受提议!原油跳水、金银猛拉

特朗普突然宣布:暂停对伊轰炸两周,市场巨震 就在“最后期限”步步紧逼的关头,局势出现了戏剧性的转折。美国总统特朗普通过社交平台突然宣布:“我同意在两周内暂停对伊朗的轰炸和袭击。” “我们收到了伊朗提出的十点建议,并认为这是谈判的可行基础。美国和伊朗几乎就过去争论的各个要点达成了共识,但两周的时间将使

时间:2026-04-15 14:08
摩托罗拉海外发布 2026 款 moto g stylus 手机、moto pad 平板 主打创作与生产力

摩托罗拉海外发布 2026 款 moto g stylus 手机、moto pad 平板 主打创作与生产力

摩托罗拉海外新作:2026款moto g stylus手机与moto pad平板亮相 最近,摩托罗拉在海外市场正式揭晓了两款主打创作与生产力的新设备——2026款的moto g stylus手机和moto pad平板。它们瞄准的正是那些需要随时随地记录灵感、处理工作的用户群体。 下面,我们来详细了解

时间:2026-04-15 14:08
OpenAI推出网络安全专用AI模型GPT-5.4-Cyber,对标Claude Mythos

OpenAI推出网络安全专用AI模型GPT-5.4-Cyber,对标Claude Mythos

OpenAI向网络安全领域开放专用AI模型,强化数字防线 4月15日消息,人工智能领域的动向再次引发关注。OpenAI公司于昨日(4月14日)发布了一项重要公告,宣布扩大其“网络防御可信访问计划”(TAC)。这项举措的核心,是向数千名网络安全专家及数百个专业团队开放一个名为GPT-5 4-Cyber

时间:2026-04-15 14:07
理想汽车与东风日产水军拉踩风波:双方已并被工信部约谈

理想汽车与东风日产水军拉踩风波:双方已并被工信部约谈

理想与东风日产网络争端引工信部约谈,行业“黑水军”乱象再成焦点 最近,理想汽车与东风日产之间的网络风波,算是给汽车圈投下了一颗不大不小的石子,激起的涟漪不小。根据多家媒体在4月15日跟进的消息,工业和信息化部其实早在4月11日就注意到了这场争端,并且反应相当迅速——第一时间就把双方企业的代表请去“喝

时间:2026-04-15 14:06
刘作虎详解OPPO Find X9 Ultra设计:把哈苏经典语言融入手机

刘作虎详解OPPO Find X9 Ultra设计:把哈苏经典语言融入手机

OPPO Find X9 Ultra设计细节揭晓:当哈苏经典语言真正“落入口袋” 去年十月,OPPO Find X9系列的两款先发机型,凭借其影像实力赢得了市场的广泛认可。而系列中备受期待的“超大杯”——Find X9 Ultra,自官宣将于4月21日发布以来,热度持续攀升。近日,OPPO首席产品官

时间:2026-04-15 13:57
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程