当前位置: 首页
科技数码
清华研发TDRM模型:时间差分学习优化奖励平滑

清华研发TDRM模型:时间差分学习优化奖励平滑

热心网友 时间:2025-12-08
转载

奖励模型(RM)作为大语言模型(LLM)强化学习和推理验证的核心组件,已在数学推理、代码生成和指令执行等任务中展现出强大能力。然而现有奖励模型存在一个关键瓶颈——时间一致性不足,这不仅导致策略优化效果欠佳,还使得强化学习训练过程难以稳定收敛。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

这一问题的根源在于:当前LLM推理过程中的单步奖励与上下文步骤缺乏关联性,使得训练信号变得混乱且误导性强。特别是在长思维链推理(CoT)场景中,模型往往要完成数十步推理后才能获得终端奖励,导致中间过程的奖惩信号极为稀疏。

为解决这一业界难题,清华-加州理工联合团队创新性地提出了TDRM框架,通过引入时间差分(TD)学习技术来构建具备时序一致性的平滑奖励信号。值得一提的是,该研究已完整开源所有代码、数据集及模型检查点。

TDRM框架示意图

技术突破与核心贡献

研究数据表明,经过TD优化的过程奖励模型(PRM)在两个关键场景中取得显著提升:在Best-of-N采样策略中最高提升6.6%准确率,在树搜索场景中提升幅度高达23.7%。更令人振奋的是,当与可验证奖励强化学习(RLVR)结合时,新方法展现出惊人的数据效率——仅需2.5k训练数据即可达到基线模型50.1k数据的性能水平。

框架设计原理

TDRM创新性地重构了传统奖励模型的训练范式,其核心包含三大模块:

  • 时序奖励建模:采用n步TD学习结合奖励塑造技术
  • 在线强化学习:基于PRM的实时策略优化
  • 混合奖励机制:将过程奖励与可验证奖励智能融合

TDRM框架架构图

关键技术亮点

1. 奖励平滑性保障

研究团队通过双维度验证框架确保奖励信号的稳定性: - 局部Lipschitz常数分析(TDRM=0.2741 vs ScalarPRM=0.3331) - TD误差动态监测机制

2. 创新奖励塑造

  • 余弦奖励函数:根据推理步长动态调整奖励权重
  • TD-λ算法:实现奖励信号的实时传播
  • 交叉熵损失:强化时序一致性学习

实证性能评估

推理验证场景

在Best-of-N采样测试中,TDRM展现出惊人的稳定性——当采样预算从128提升到1024时,其在MATH-500数据集上的表现持续领先基准模型。

MATH-500测试结果

强化学习场景

在包含MATH-500在内的5个高难度数学数据集测试中,TDRM仅用2500条提示数据就在8个不同规模的模型上实现了SOTA性能,其数据效率较基线提升20倍。

数学基准测试结果

来源:https://www.tmtpost.com/7715688.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
《神探杰克鼠》发售 华硕B850主板开启幽默冒险

《神探杰克鼠》发售 华硕B850主板开启幽默冒险

《神探杰克鼠》:当复古动画遇上硬核射击,这两套华硕B850配置能让你画质全开 最近有款游戏挺有意思,叫《神探杰克鼠》。它把上世纪30年代风靡的“橡皮管”动画风格,直接搬到了现代第一人称射击游戏里,而且全程采用黑白手绘逐帧呈现,那股子复古又独特的劲儿,一眼就能认出来。游戏舞台设在一个由拟人化动物构成的

时间:2026-04-27 22:46
台积电今年资本支出可能超出预期 目前预计将接近预期上限

台积电今年资本支出可能超出预期 目前预计将接近预期上限

台积电资本支出或将触及预期上限,连续两年大幅扩张 今年年初,台积电给出了一个相当可观的资本支出指引:520亿至560亿美元。这个数字,相比去年实实在在花出去的409亿美元,增幅已经相当显著。不过,最新的信号表明,实际投入的力度可能比年初预想的还要大。 那么,钱会花在哪儿呢?从台积电高级副总裁兼CFO

时间:2026-04-27 17:36
北京车展实拍|坦克500黑武士气场直接拉满

北京车展实拍|坦克500黑武士气场直接拉满

引言:当AI开始“思考” 你猜怎么着?我们正站在一个奇妙的拐点上:人工智能不再仅仅是执行指令的工具,它开始展现出某种“思考”的雏形。这背后,是一场关于技术、伦理与未来想象的深刻变革。今天,我们就来聊聊这个既令人兴奋又需保持清醒的话题。 点击图片跳转视频 一、从“执行”到“意图”:能力跃迁的关键 过去

时间:2026-04-27 17:35
消息称OpenAI正与联发科高通合作研发手机芯片 预计两年后量产

消息称OpenAI正与联发科高通合作研发手机芯片 预计两年后量产

生成式AI重塑终端:智能手机的下一场硬仗 这几年,生成式人工智能火得一塌糊涂,给咱们消费者的体验带来了不少新鲜玩意儿。但热度背后,一个现实问题也摆在了眼前:这股AI浪潮,对咱们手里的终端设备提出了前所未有的高要求。 举个眼前的例子,苹果那套引入了强大生成式模型的个人智能系统,就明确要求设备得搭载A1

时间:2026-04-27 17:35
知乎举办首个独立游戏展 探讨如何让好游戏不再“隐身”?

知乎举办首个独立游戏展 探讨如何让好游戏不再“隐身”?

游戏玩力场2026:当匠人精神遇见现实挑战 4月25日至26日,知乎与游戏星繁在北京联合举办的“游戏玩力场”2026游戏试玩派对,更像是一场关于游戏创作与生存的深度研讨会。活动现场,既有知名游戏人亲临分享创作背后的真实故事,也有聚焦现实的投融资路演专场,共同探讨了从创意诞生到发行出海的全链路挑战。

时间:2026-04-27 17:35
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程