首页科技资讯软件教程游戏攻略手机游戏

首页

科技

清华团队研发TDRM算法：用时间差分优化奖励函数

清华团队研发TDRM算法：用时间差分优化奖励函数

热心网友

转载

2025-10-09

来源:https://36kr.com/p/3501437759003785

前沿研究突破：时间差分奖励模型TDRM重塑LLM强化学习范式

奖励模型作为大语言模型强化学习与推理验证的核心组件，在数学推导、编程辅助和指令响应等关键领域展现出巨大潜力。但传统奖励模型存在一个致命短板——时间维度上的评估连续性缺失。这一问题直接导致策略优化方向偏差和训练过程波动加剧。

研究发现，当前模型在长序列推理过程中，单步奖励评估往往与其他步骤隔离割裂，产生误导性训练信号。特别是在复杂思维链场景下，模型需完成多步推演后才能获得终端奖励，致使各推理步骤价值难以准确判断。

针对这一核心挑战，清华大学联合加州理工研发团队创新性提出TDRM框架——运用时间差分(TD)训练方法构建具备时间一致性的奖励模型，显著提升模型训练稳定性。

值得关注的是，该项目已全面开源包括核心代码、训练数据和模型参数，为学界提供重要研究资源。

TDRM框架的技术创新

TDRM引入三重技术突破：首先是建立基于n步时间差分的过程奖励模型，其次在强化学习阶段实现实时在线优化，最终通过可验证奖励的线性整合形成完整解决方案。

与传统方法不同，TDRM创造性将时间差分技术应用于奖励模型本身的构建过程，而非仅用于数据预处理。这种革新思路带来了更平滑的奖励空间和更密集的训练信号。

TDRM框架架构

关键技术特征

平滑性优化： 通过局部普希茨连续分析验证，TDRM相比传统方法显著降低27%的评估敏感度，确保推理微调不会引发奖励值剧烈波动。

创新的奖励机制： 引入余弦奖励函数与TD-λ算法的结合范式，既考虑单步推理正确性，又兼顾整体推理长度因素，实现精细化的奖励分配。

在线强化学习： 采用动态状态值计算方法，使模型能够实时适应训练轨迹变化，大幅提升价值预测的准确性。

实验结果验证

在MATH-500等五个高难度数学数据集上的测试表明，TDRM展现出卓越性能：Best-of-N采样方法中最高提升6.6%准确率，树搜索场景更是实现23.7%的性能飞跃。

强化学习场景下，TDRM仅需5%的训练数据量就能达到传统方法同等效果，在GLM4-9B等主流模型架构上都取得了明显的策略优化。

性能对比结果

这项研究不仅解决了奖励模型的时间一致性问题，更为复杂推理任务的自动化评估开辟了新方向。开源资源的释放将加速该技术在更广泛领域的应用落地。

上一篇：2025年Q3教育科技投融资复盘：AI平台驱动1.5亿美元交易潮

下一篇：诺贝尔奖得主奥马尔·亚吉的科研传奇之路

免责声明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

德勤47万人实测：企业加速落地模型的实战方案

上周，Anthropic 发布 Claude Sonnet 4 5。距离 Claude 4 上线，仅四个月。这次发布的结果出人意料：性能全面超越旗舰模型 Opus，成本却只有五分之一。

2025-10-10.

英特尔18A工艺Panther Lake处理器首发2nm制程技术

2025年10月9日，英特尔正式发布了代号为Panther Lake的处理器，该产品采用业界首款18A制程工艺，标志着该公司成为美国首家实现2纳米级别工艺量产的芯片制造商。18A工艺在英特尔乃至整个

2025-10-10.

日本数据中心困局：AI需求激增与能耗扰民难题

在东京湾沿岸，一座新落成的超大型数据中心便闪烁着密密麻麻的指示灯，冷却机组低沉的轰鸣声传遍夜空。这座由日本通信巨头与美国云计算公司合资建设的庞大设施，不仅是AI计算的物理载体，更是支撑云计算、边

2025-10-10.

"KK怀旧节武汉站：经典游戏重现青春记忆"

当熟悉的“噔噔”声在耳畔响起，那一刻，是否让你想起了在武汉街头吃着热干面、匆匆赶往网吧的青葱岁月？没有工作压力，没有生活琐碎，只有一群兄弟一声招呼：“来开黑！”便足以点燃整个下午的激情。如今，这份纯

2025-10-10.

小米汽车精英驾驶培训火热报名中

感谢多位热心网友提供的信息支持10月9日，小米汽车宣布将于本月启动“小米精英驾驶·赛照培训”项目首期报名。此次培训专为小米车主设立，限额16人参与，并特别设置小米SU7赛道体验课程等多项专属权益。具

2025-10-10.

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门推荐

《三国群英传：策定九州》5天内测，限时预约福利领取三国望神州傲视群雄速通攻略新手必备通关技巧我的世界錾制磨制黑石功能详解妖怪金手指暴击队最强搭配指南解限机矛隼地图适配性详解：兼容与优化解析疯狂神射手雪原动物图鉴大全小米YU7预计7月上市，雷军官宣今晚暂不公布售价《神鬼寓言2》口碑分化，《FF7》跨平台表现获一致好评饥困荒野最佳宠物选择指南《战地风云6》首赛季10月28日开启，全新蓝图抢先看

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

新手最适合的追击流派玩法推荐

新手最适合的追击流派玩法推荐发布于 2025-10-10

追击模式武器升级优先级推荐

追击模式武器升级优先级推荐发布于 2025-10-10

雷神套装最佳配置方案，追击出战最优搭配指南

雷神套装最佳配置方案，追击出战最优搭配指南发布于 2025-10-10

超能力冲刺燃烧PVE流派玩法指南：实战技巧解析

超能力冲刺燃烧PVE流派玩法指南：实战技巧解析发布于 2025-10-10

绝区零爱丽丝突破材料清单及获取指南

绝区零爱丽丝突破材料清单及获取指南发布于 2025-10-10

Switch 2法国永久降价！高性价比套装全新登场

Switch 2法国永久降价！高性价比套装全新登场发布于 2025-10-10

邓紫棋献唱《英雄联盟》S15主题曲Sacrifice 10月13日上线

邓紫棋献唱《英雄联盟》S15主题曲Sacrifice 10月13日上线发布于 2025-10-10

《寂静岭f》女主神还原！低成本COS惊艳网友

《寂静岭f》女主神还原！低成本COS惊艳网友发布于 2025-10-10

玩家重塑《羊蹄山之魂》女主：绝美颜值惊艳心动

玩家重塑《羊蹄山之魂》女主：绝美颜值惊艳心动发布于 2025-10-10

《银河历险记3》免费领，Epic本周重磅解谜游戏

《银河历险记3》免费领，Epic本周重磅解谜游戏发布于 2025-10-10

iPhone 17 Pro Max用户反馈：扬声器音量小且有充电杂音

iPhone 17 Pro Max用户反馈：扬声器音量小且有充电杂音发布于 2025-10-10

iOS 26升级后iPhone用户通讯录暴增至16万人

iOS 26升级后iPhone用户通讯录暴增至16万人发布于 2025-10-10

iPhone17 Pro Max扬声器问题：音量偏小或有充电杂音

iPhone17 Pro Max扬声器问题：音量偏小或有充电杂音发布于 2025-10-10

iPhone 4天线门15年后解密：20字节代码修复真相

iPhone 4天线门15年后解密：20字节代码修复真相发布于 2025-10-10

苹果召集达人11天背包行，提前揭秘iPhone17拍摄实力

苹果召集达人11天背包行，提前揭秘iPhone17拍摄实力发布于 2025-10-10

美欲升级芯片设备禁令，遏中国半导体产业发展

美欲升级芯片设备禁令，遏中国半导体产业发展发布于 2025-10-10

2025年时代周刊最佳发明：佰维mini SSD惊艳上榜

2025年时代周刊最佳发明：佰维mini SSD惊艳上榜发布于 2025-10-10

Intel Panther Lake处理器首发实测：性能强悍功耗惊艳

Intel Panther Lake处理器首发实测：性能强悍功耗惊艳发布于 2025-10-10

Panther Lake核显首秀：200帧多帧生成技术解锁轻薄本游戏性能

Panther Lake核显首秀：200帧多帧生成技术解锁轻薄本游戏性能发布于 2025-10-10

Win11升级将至：神器一键检测电脑兼容性

Win11升级将至：神器一键检测电脑兼容性发布于 2025-10-10

最新下载

大天使之剑H5

大天使之剑H5 角色扮演 2025-10-10更新

查看

Melon Sandbox国际

Melon Sandbox国际休闲益智 2025-10-10更新

查看

大天使之剑H5小米

大天使之剑H5小米角色扮演 2025-10-10更新

查看

西奥小镇正

西奥小镇正休闲益智 2025-10-10更新

查看

萝卜爸爸

萝卜爸爸休闲益智 2025-10-10更新

查看

地球末日生存正

地球末日生存正角色扮演 2025-10-10更新

查看

暗影格斗3正

暗影格斗3正角色扮演 2025-10-10更新

查看

大天使之剑H5九游

大天使之剑H5九游角色扮演 2025-10-10更新

查看

地球末日生存内置MOD菜单

地球末日生存内置MOD菜单角色扮演 2025-10-10更新

查看

象棋游戏

象棋游戏棋牌策略 2025-10-10更新

查看

热门话题

魔术游戏鸣人的假期刀塔传奇饥荒拉布布游戏洛克王国神魔幻想思美人疯狂越野