数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

清华研发TDRM模型：时间差分学习优化奖励平滑

清华研发TDRM模型：时间差分学习优化奖励平滑

热心网友时间：2025-12-08

转载

奖励模型（RM）在基于大语言模型（LLM）的强化学习（RL）和推理时验证中都占据核心地位，并已在数学求解、代码生成和指令遵循等任务中展现出卓越性能。然而，现有奖励模型存在一个关键缺陷——缺乏时间一致

奖励模型（RM）作为大语言模型（LLM）强化学习和推理验证的核心组件，已在数学推理、代码生成和指令执行等任务中展现出强大能力。然而现有奖励模型存在一个关键瓶颈——时间一致性不足，这不仅导致策略优化效果欠佳，还使得强化学习训练过程难以稳定收敛。

这一问题的根源在于：当前LLM推理过程中的单步奖励与上下文步骤缺乏关联性，使得训练信号变得混乱且误导性强。特别是在长思维链推理（CoT）场景中，模型往往要完成数十步推理后才能获得终端奖励，导致中间过程的奖惩信号极为稀疏。

为解决这一业界难题，清华-加州理工联合团队创新性地提出了TDRM框架，通过引入时间差分（TD）学习技术来构建具备时序一致性的平滑奖励信号。值得一提的是，该研究已完整开源所有代码、数据集及模型检查点。

技术突破与核心贡献

研究数据表明，经过TD优化的过程奖励模型（PRM）在两个关键场景中取得显著提升：在Best-of-N采样策略中最高提升6.6%准确率，在树搜索场景中提升幅度高达23.7%。更令人振奋的是，当与可验证奖励强化学习（RLVR）结合时，新方法展现出惊人的数据效率——仅需2.5k训练数据即可达到基线模型50.1k数据的性能水平。

框架设计原理

TDRM创新性地重构了传统奖励模型的训练范式，其核心包含三大模块：

时序奖励建模：采用n步TD学习结合奖励塑造技术
在线强化学习：基于PRM的实时策略优化
混合奖励机制：将过程奖励与可验证奖励智能融合

TDRM框架架构图

关键技术亮点

1. 奖励平滑性保障

研究团队通过双维度验证框架确保奖励信号的稳定性： - 局部Lipschitz常数分析（TDRM=0.2741 vs ScalarPRM=0.3331） - TD误差动态监测机制

2. 创新奖励塑造

余弦奖励函数：根据推理步长动态调整奖励权重
TD-λ算法：实现奖励信号的实时传播
交叉熵损失：强化时序一致性学习

实证性能评估

推理验证场景

在Best-of-N采样测试中，TDRM展现出惊人的稳定性——当采样预算从128提升到1024时，其在MATH-500数据集上的表现持续领先基准模型。

MATH-500测试结果

强化学习场景

在包含MATH-500在内的5个高难度数学数据集测试中，TDRM仅用2500条提示数据就在8个不同规模的模型上实现了SOTA性能，其数据效率较基线提升20倍。

数学基准测试结果

来源:https://www.tmtpost.com/7715688.html

上一篇：巨头争霸黄金周榜单：行业竞争焦点解析

下一篇：国庆民宿预订热潮：县城2000+房价仍遭疯抢

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

AI开源化身股价“点火器”，美团大涨近9%

AI开源化身股价“点火器”，美团大涨近9%

7月7日，美团-W（03690 HK）表现强势，盘中一度涨近9%，报81 65港元，股价创6月3日以来新高。据金融投资AI助手扣子APP分析，美团今天上涨的核心催化是近日宣布正式开源万亿参数大模型LongCat-2 0。该模型总参数达1 6T，平均激活约48B，专为真实的Agentic Coding

时间：2026-07-16 14:52

腾讯AI应用生成平台“吐司”iOS版上线，主打Vibe Coding

腾讯AI应用生成平台“吐司”iOS版上线，主打Vibe Coding

IT之家 7 月 7 日消息，腾讯旗下 AI 生成应用 App“吐司”昨日上线苹果 App Store，定位为“探索型氛围编程（Vibe Coding）产品”，安卓版本已在上个月推出。据最新介绍，腾讯吐司是一款 AI 生成应用的 App，可由 AI 梳理功能、精细化编辑打磨；平台设有灵感广场，精选优

时间：2026-07-16 14:51

首款eSIM AI游戏手机登场联通联想启动战略合作

首款eSIM AI游戏手机登场联通联想启动战略合作

中国联通与联想集团在北京联合举办拯救者 Y70 新一代 "AI+eSIM " 游戏手机战略合作启动仪式。双方正式达成全渠道联合首发战略合作，共同推出国内首款支持eSIM的AI游戏手机。小编 5月28日消息，联想拯救者Y70新一代手机是一款游戏定位手机，该机不仅提供了充满

时间：2026-07-16 14:50

摩尔线程完成腾讯Hy3和美团LongCat-2.0适配

摩尔线程完成腾讯Hy3和美团LongCat-2.0适配

同一天，摩尔线程完成两款国产大模型适配。7月6日，腾讯新一代大模型Hy3正式开源，摩尔线程旗舰级AI训推一体智算卡MTT S5000于同日实现Day-0极速适配。据了解，Hy3是由腾讯混元团队研发的快慢思考融合的混合专家模型，总参数量295B，激活参数21B，支持256K上下文长度。相比previe

时间：2026-07-16 14:49

机构：SaaS优质公司有望在Token时代涅槃重生，下半年看好高ROI场景下游应用价值重估

机构：SaaS优质公司有望在Token时代涅槃重生，下半年看好高ROI场景下游应用价值重估

6月10日，中国银河发布了一篇计算机行业的研究报告，报告指出，重估高ROI场景下游应用。2026H1计算机行业先扬后抑跑输沪深300，AI算力领涨细分赛道，降本带来利润高增，合同负债预示收入将回暖。2026H1，计算机行业呈现“先扬后抑、震荡轮动”的走势，年初至今跑输沪深300。细分赛道涨幅居前的依

时间：2026-07-16 14:46

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

热门数据榜

Sora国风短片提示词细节混乱的解决方法

Devin AI重复工作处理自动化：日常高频任务提效汇总

PhysForge框架：让静态3D模型变为可交互对象

ACL 2026美团论文精选能力评测到推理优化构建生成新范式

美团发布AI浏览器Tabbit 1.0持续记录用户偏好

美团开源LongCat 1.5数字人视频模型实现商业级应用跃迁

Vibe Coding学习入门指南

OpenAI未来蓝图：AI惠及全球每个人

美团AI原生浏览器Tabbit1.0上线内置多款头部大模型

实用Midjourney治愈系插画提示词写作从入门到精通

阶跃AI客服话术生成：针对客户常见投诉制定标准化回复模板

2025-2026有哪些好用的AI客服产品

阿里云通义千问Qwen2开源模型，5尺寸支持128K上下文

腾讯混元文生图开源大模型加速库发布生图时间缩短75%

Stability AI发布AI音频模型Stable Audio Open 文本生成鼓点乐器音效

Besty AI 24小时智能聊天助手

微软首个AI天气预报系统Aurora可预测天气与空气污染

Wiseone 浏览网页时随时探索并即时获取可靠信息与复杂问题答案

DreamFusion：基于2D扩散的文本到3D生成技术

Proface AI生成高质量专业照片

Sora国风短片提示词细节混乱的解决方法

Devin AI重复工作处理自动化：日常高频任务提效汇总

PhysForge框架：让静态3D模型变为可交互对象

ACL 2026美团论文精选能力评测到推理优化构建生成新范式

美团发布AI浏览器Tabbit 1.0持续记录用户偏好

美团开源LongCat 1.5数字人视频模型实现商业级应用跃迁

Vibe Coding学习入门指南

OpenAI未来蓝图：AI惠及全球每个人

美团AI原生浏览器Tabbit1.0上线内置多款头部大模型

实用Midjourney治愈系插画提示词写作从入门到精通

相关攻略

相关攻略

机构：SaaS优质公司有望在Token时代涅槃重生，下半年看好高ROI场景下游应用价值重估

2026-07-16 14:46

机构：SaaS优质公司有望在Token时代涅槃重生，下半年看好高ROI场景下游应用价值重估

赛豆科技发布AI汽车品牌AIVA，年内将推首款量产车型，定位20万元区间主流市场

2026-07-16 14:44

赛豆科技发布AI汽车品牌AIVA，年内将推首款量产车型，定位20万元区间主流市场

从“制造”到“智造”，追觅洗地机跑出AI+全维落地新姿态

2026-07-16 14:42

从“制造”到“智造”，追觅洗地机跑出AI+全维落地新姿态

AI制药进入“卖水人”时代

2026-07-16 14:40

AI制药进入“卖水人”时代

机器人走进产线「打工」，至简动力不想让具身智能停在 PPT 上

2026-07-16 14:37

机器人走进产线「打工」，至简动力不想让具身智能停在 PPT 上

大疆首款纯电eVTOL亮相，可飞抵珠峰8861米

2026-07-15 21:32

大疆首款纯电eVTOL亮相，可飞抵珠峰8861米

机械革命2026款蛟龙16 Pro锐龙9 9955HX

2026-07-15 21:32

机械革命2026款蛟龙16 Pro锐龙9 9955HX

李想：理想i9九月发布拥有MEGA级大空间舒适性

2026-07-15 21:32

李想：理想i9九月发布拥有MEGA级大空间舒适性

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

鸣潮露帕配队攻略与阵容推荐

鸣潮露帕配队攻略与阵容推荐发布于 2026-07-15

刺客信条黑旗记忆重置以眼还眼成就达成攻略

刺客信条黑旗记忆重置以眼还眼成就达成攻略发布于 2026-07-15

幻兽帕鲁1.0正式版散射光束枪获取方法指南

幻兽帕鲁1.0正式版散射光束枪获取方法指南发布于 2026-07-15

宗师之上非人哉联动官宣夏日狂欢即将开启

宗师之上非人哉联动官宣夏日狂欢即将开启发布于 2026-07-15

感觉像翻垃圾袋 Steam新品节超40%全是AI游戏

感觉像翻垃圾袋 Steam新品节超40%全是AI游戏发布于 2026-07-16

连豆包都没解完的难题，被一款国产AI游戏接手了

连豆包都没解完的难题，被一款国产AI游戏接手了发布于 2026-07-16

光遇账号购买必看安全可靠交易平台推荐

光遇账号购买必看安全可靠交易平台推荐发布于 2026-07-15

卖号安全指南：如何挑选靠谱平台规避风险

卖号安全指南：如何挑选靠谱平台规避风险发布于 2026-07-15

Win11如何隐藏桌面图标蓝色双箭头压缩标识

Win11如何隐藏桌面图标蓝色双箭头压缩标识发布于 2026-07-15

统信UOS安装Photoshop替代软件方法

统信UOS安装Photoshop替代软件方法发布于 2026-07-15

Win10开启卓越性能模式提升系统流畅度

Win10开启卓越性能模式提升系统流畅度发布于 2026-07-15

Win10桌面文件夹路径从D盘改回C盘默认路径方法

Win10桌面文件夹路径从D盘改回C盘默认路径方法发布于 2026-07-15

美团LongCat-2.0适配国产芯片摩尔线程宣布MTT S5000实现Day-0支持

美团LongCat-2.0适配国产芯片摩尔线程宣布MTT S5000实现Day-0支持发布于 2026-07-16

移轴镜头拍小人国效果参数设置教程

移轴镜头拍小人国效果参数设置教程发布于 2026-07-16

美的电磁炉定时20分钟能否调节火力

美的电磁炉定时20分钟能否调节火力发布于 2026-07-16

奥佳华按摩椅如何移动和调整位置

奥佳华按摩椅如何移动和调整位置发布于 2026-07-16

热门话题

AI法律应用场景_法律大模型使用教程_合同审查AI指南

AI法律应用场景_法律大模型使用教程_合同审查AI指南

AI医疗应用场景_AI辅助诊疗教程_医疗大模型趋势指南

AI医疗应用场景_AI辅助诊疗教程_医疗大模型趋势指南

AI金融应用场景_智能投研风控教程_金融大模型实战指南

AI金融应用场景_智能投研风控教程_金融大模型实战指南

端侧AI是什么_本地AI模型部署_手机电脑端侧智能指南

端侧AI是什么_本地AI模型部署_手机电脑端侧智能指南

AI客服系统搭建教程_智能客服工具推荐_企业客服自动化指南

AI客服系统搭建教程_智能客服工具推荐_企业客服自动化指南

AI写作工具推荐_AI写作教程_论文文案内容创作指南

AI写作工具推荐_AI写作教程_论文文案内容创作指南

AI音乐生成教程_AI作曲工具推荐_歌曲创作实用指南

AI音乐生成教程_AI作曲工具推荐_歌曲创作实用指南

AI搜索工具推荐_AI搜索使用技巧_智能搜索引擎指南

AI搜索工具推荐_AI搜索使用技巧_智能搜索引擎指南

AI PPT制作教程_AI生成PPT工具推荐_演示文稿效率指南

AI PPT制作教程_AI生成PPT工具推荐_演示文稿效率指南