数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

手机教程

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？

热心网友时间：2025-04-25

转载

机器之心报道

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

机器之心编辑部

这会是 DeepSeek R2 的雏形吗？本周五，DeepSeek 提交到 arXiv 上的最新论文正在 AI 社区逐渐升温。

当前，强化学习（RL）已广泛应用于大语言模型（LLM）的后期训练。最近 RL 对 LLM 推理能力的激励表明，适当的学习方法可以实现有效的推理时间可扩展性。RL 的一个关键挑战是在可验证问题或人工规则之外的各个领域获得 LLM 的准确奖励信号。

本周五提交的一项工作中，来自 DeepSeek、清华大学的研究人员探索了奖励模型（RM）的不同方法，发现逐点生成奖励模型（GRM）可以统一纯语言表示中单个、成对和多个响应的评分，从而克服了挑战。研究者探索了某些原则可以指导 GRM 在适当标准内生成奖励，从而提高奖励的质量，这启发我们，RM 的推理时间可扩展性可以通过扩展高质量原则和准确批评的生成来实现。

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？论文标题：Inference-Time Scaling for Generalist Reward Modeling 论文链接：https://www.php.cn/link/0723c0809ca062085a93e8970e58804d GRM 中有效的推理时间可扩展行为。通过利用基于规则的在线 RL，SPCT 使 GRM 能够学习根据输入查询和响应自适应地提出原则和批评，从而在一般领域获得更好的结果奖励。

基于此技术，DeepSeek 提出了 DeepSeek-GRM-27B，它基于 Gemma-2-27B 用 SPCT 进行后训练。对于推理时间扩展，它通过多次采样来扩展计算使用量。通过并行采样，DeepSeek-GRM 可以生成不同的原则集和相应的批评，然后投票选出最终的奖励。通过更大规模的采样，DeepSeek-GRM 可以更准确地判断具有更高多样性的原则，并以更细的粒度输出奖励，从而解决挑战。

除了投票以获得更好的扩展性能外，DeepSeek 还训练了一个元 RM。从实验结果上看，SPCT 显著提高了 GRM 的质量和可扩展性，在多个综合 RM 基准测试中优于现有方法和模型，且没有严重的领域偏差。作者还将 DeepSeek-GRM-27B 的推理时间扩展性能与多达 671B 个参数的较大模型进行了比较，发现它在模型大小上可以获得比训练时间扩展更好的性能。虽然当前方法在效率和特定任务方面面临挑战，但凭借 SPCT 之外的努力，DeepSeek 相信，具有增强可扩展性和效率的 GRM 可以作为通用奖励系统的多功能接口，推动 LLM 后训练和推理的前沿发展。

这项研究的主要贡献有以下三点：

研究者们提出了一种新方法：Self-Principled Critique Tuning（SPCT），用于提升通用奖励模型在推理阶段的可扩展性，并由此训练出 DeepSeek-GRM 系列模型。同时，他们进一步引入了一种元奖励模型（meta RM），使 DeepSeek-GRM 的推理效果在超越传统投票机制的基础上得到进一步提升。实验证明，SPCT 在生成质量和推理阶段的可扩展性方面，明显优于现有方法，并超过了多个强大的开源模型。SPCT 的训练方案还被应用到更大规模的语言模型上。研究者们发现推理阶段的扩展性收益甚至超过了通过增加模型规模所带来的训练效果提升。刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？技术细节

我们一起来看看这篇论文所讨论的技术细节。

Self-Principled Critique Tuning (SPCT)

受到初步实验结果的启发，研究者提出了一种用于逐点通用奖励模型的新方法，能够学习生成具有适应性和高质量的原则，以有效引导批评内容的生成，该方法被称为自我原则批评调整（SPCT）。

如图 3 所示，SPCT 包含两个阶段：

1. 拒绝式微调（rejective fine-tuning），作为冷启动阶段；

2. 基于规则的在线强化学习（rule-based online RL），通过不断优化生成的准则和评论，进一步增强泛化型奖励生成能力。

此外，SPCT 还能促使奖励模型在推理阶段展现出良好的扩展能力。

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？研究者们观察到，高质量的准则能够在特定评判标准下有效引导奖励的生成，是提升奖励模型表现的关键因素。然而，对于通用型奖励模型而言，如何自动生成适应性强、指导性强的准则仍是一个核心难题。

为此，他们提出将准则的作用由传统的理解阶段的辅助性输入，转变为奖励生成过程中的核心组成部分。具体而言，这项研究不再将准则仅作为模型生成前的提示信息，而是使模型能够在生成过程中主动生成并运用准则，从而实现更强的奖励泛化能力与推理阶段的可扩展性。

在该研究的设定中，GRM 可以自主生成准则，并在此基础上生成对应的批评内容，其过程可形式化表示为：

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？其中，p_θ 表示由参数 θ 所定义的准则生成函数，该函数与奖励生成函数 r_θ 共享同一模型架构。这样的设计使得准则可以根据输入的 query 和响应自适应生成，从而动态引导奖励的生成过程。此外，准则及其对应批评的质量与细粒度可以通过对 GRM 进行后训练进一步提升。

当模型具备大规模生成准则的能力后，GRM 便能够在更合理的准则框架下输出更细致的奖励评价，这对于推理阶段的可扩展性具有关键意义。

基于规则的强化学习

为同步优化 GRM 中的原则生成与批判生成，DeepSeek 提出 SPCT 框架，整合了拒绝式微调与基于规则的强化学习。拒绝式微调作为冷启动阶段。

拒绝式微调（冷启动阶段）的核心目标是使 GRM 能够生成格式正确且适配多种输入类型的原则与批判。

不同于 Vu 等人（2024）、Cao 等人（2024）和 Alexandru 等人（2025）将单响应、配对响应和多响应格式的 RM 数据混合使用的方案，DeepSeek 采用第 2.1 节提出的逐点 GRM，能以统一格式为任意数量响应生成奖励。

数据构建方面，除通用指令数据外，DeepSeek 还通过预训练 GRM 对 RM 数据中不同响应数量的查询 - 响应对进行轨迹采样，每个查询 - 响应对采样

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？次。拒绝策略也采用统一标准：拒绝预测奖励与真实值不符（错误）的轨迹，以及所有

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？次轨迹均正确（过于简单）的查询 - 响应对。形式化定义为：令

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？表示查询 x 第 i 个响应

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？的真实奖励，当预测逐点奖励

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？满足以下条件时视为正确：

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？这里需确保真实奖励仅包含一个最大值。然而，与 Zhang 等人（2025a）的研究类似，DeepSeek 发现预训练 GRM 在有限采样次数内难以对部分查询及其响应生成正确奖励。

因此，他们选择性地在 GRM 提示中追加

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？ image.webp（称为暗示采样），期望预测奖励能与真实值对齐，同时保留非暗示采样方式。对于暗示采样，每个查询及其响应仅采样一次，仅当预测错误时才拒绝轨迹。相较于 Li 等人（2024a）和 Mahan 等人（2024）的研究，我们观察到暗示采样轨迹有时会简化生成的批判（尤其在推理任务中），这表明 GRM 在线强化学习的必要性和潜在优势。

通过基于规则的在线 RL，研究者对 GRM 进行了进一步的微调。与 DeepSeek R1 不同的是，没有使用格式奖励。相反，为了确保格式和避免严重偏差，KL 惩罚采用了较大的系数。从形式上看，对给定查询 x 和响应

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？的第 i 次输出 o_i 的奖励为：

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？逐点奖励是

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？从 o_i 中提取的。

奖励函数鼓励 GRM 通过在线优化原则和批判来区分最佳响应，从而实现有效的推理时间扩展。奖励信号可以从任何偏好数据集和标注的 LLM 响应中无缝获取。

SPCT 的推理时扩展

为了进一步提高 DeepSeek-GRM 在使用更多推理计算生成通用奖励方面的性能，研究者探索了基于采样的策略，以实现有效的推理时可扩展性。

利用生成奖励进行投票。回顾第 2.1 节中的方法，逐点 GRM 的投票过程定义为奖励总和：

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？其中，

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？是第 i 个响应（i = 1, ..., n）的最终奖励。由于 S_i,j 通常设置在一个较小的离散范围内，例如 {1，...，10}，因此投票过程实际上将奖励空间扩大了 k 倍，并使 GRM 能够生成大量原则，从而有利于提高最终奖励的质量和粒度。

一个直观的解释是，如果每个原则都可以被视为判断视角的代表，那么更多的原则可能会更准确地反映真实的分布情况，从而提高效率。值得注意的是，为了避免位置偏差和多样性，在采样之前会对回答进行洗牌。

元奖励模型指导投票。DeepSeek-GRM 的投票过程需要多次采样，由于随机性或模型的局限性，少数生成的原则和评论可能存在偏差或质量不高。因此，研究者训练了一个元 RM 来指导投票过程。

引导投票非常简单：元 RM 对 k 个采样奖励输出元奖励，最终结果由 k_meta ≤ k 个元奖励的奖励投票决定，从而过滤掉低质量样本。

奖励模型 Benchmark 上的结果

不同方法和模型在奖励模型基准测试上的整体结果如表 2 所示。

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？不同方法在推理阶段的扩展性能结果如表 3 所示，整体趋势可见图 1。

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？表 4 展示了 SPCT 各个组成部分所做的消融实验结果。

研究者们还进一步研究了 DeepSeek-GRM-27B 在推理阶段和训练阶段的扩展性能，通过在不同规模的 LLM 上进行后训练进行评估。所有模型均在 Reward Bench 上进行测试，结果如图 4 所示。

刚刚，DeepSeek公布推理时Scaling新论文，R2要来了？更多研究细节，可参考原论文。

© THE END

转载请联系本公众号获得授权

来源:https://www.php.cn/faq/1290230.html

上一篇：草莓可以用自来水清洗吗

下一篇：手机锁屏状态显示热点咨询如何关掉_手机热点咨询关掉方法说明

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

同类文章

bluestacks如何root 怎么下载和安装？完整入门说明

bluestacks如何root 怎么下载和安装？完整入门说明

理解Bluestacks与Root权限Bluestacks是一款流行的安卓模拟器，允许用户在个人电脑上运行移动应用程序和游戏。对于许多进阶用户而言，获取模拟器的Root权限意味着能够解锁更深层的系统功能，例如卸载预装软件、修改系统文件、使用需要高级权限的工具或进行深度自定义。需要注意的是，对Blue

时间：2026-04-17 19:41

bluestacks如何root 无法使用怎么办？常见问题排查

bluestacks如何root 无法使用怎么办？常见问题排查

理解Bluestacks的Root权限与限制Bluestacks作为一款流行的安卓模拟器，为用户在电脑上运行移动应用提供了便利。许多高级用户或开发者出于特定需求，例如深度修改系统、运行需要高权限的应用或进行自动化测试，会寻求获取模拟器实例的Root权限。然而，与物理手机不同，Bluestacks的R

时间：2026-04-17 19:37

bluestacks如何root 实操记录：从安装到正常使用

bluestacks如何root 实操记录：从安装到正常使用

理解Bluestacks与Root权限Bluestacks是一款流行的安卓模拟器，允许用户在个人电脑上运行移动应用程序和游戏。对于进阶用户而言，获取模拟器实例的Root权限意味着能够解锁更深层的系统控制，例如卸载预装应用、修改系统文件、使用需要高级权限的工具或进行更深度的自定义。需要注意的是，对模拟

时间：2026-04-17 19:34

ps如何缩小图片

ps如何缩小图片

在使用Photoshop（PS）进行图像处理时，缩小图片或图层的操作十分常见无论是为了适配网页尺寸，还是为了优化文件大小，掌握精准的缩放技巧都是基本功。下面，我们就来详细拆解一下这两个核心操作。缩小图片当你需要对整个图像文件进行尺寸调整时，比如上传到社交媒体或嵌入文档，以下几步就能搞定。 1

时间：2026-04-17 19:24

PPT2010如何播放MP4

PPT2010如何播放MP4

在PPT 2010中播放MP4视频，为演示增添生动元素想让你的PPT演示告别枯燥，瞬间抓住观众眼球吗？在幻灯片里嵌入一段MP4视频，往往能起到事半功倍的效果。下面，我们就来详细拆解一下在PowerPoint 2010中实现这一目标的具体操作流程。第一步，自然是准备工作。你得先确保手头那个要插入的

时间：2026-04-17 18:46

热门专题

刀塔传奇破解版无限钻石下载大全

刀塔传奇破解版无限钻石下载大全

洛克王国正式正版手游下载安装大全

洛克王国正式正版手游下载安装大全

思美人手游下载专区

思美人手游下载专区

好玩的阿拉德之怒游戏下载合集

好玩的阿拉德之怒游戏下载合集

不思议迷宫手游下载合集

不思议迷宫手游下载合集

百宝袋汉化组游戏最新合集

百宝袋汉化组游戏最新合集

jsk游戏合集30款游戏大全

jsk游戏合集30款游戏大全

宾果消消消原版下载大全

宾果消消消原版下载大全

日榜
周榜
月榜

何小鹏重申“跳过L3”，认为最安全路径是从L2直接到L4

这是谐音梗手游好玩吗这是谐音梗手游核心玩法与趣味性解析

GEN横扫HLE晋级四强！Ruler专访揭秘战术：专注心态享受鏖战

字节跳动近亿元挖来DeepSeek员工？官方回应

星际护卫队上线时间星际护卫队什么时候正式开服

企业党建年度工作总结

POD状态一直CrashLoopBackOff？教你三种容器调试技巧

坚果Pro 2S现已正式发售,购买后是否可以刷机了呢?

龚宇：AI影视浪潮下，爱奇艺的坚守与破局丨高端对话

汗水铸就荣光路！KSCERATO斩获TP世锦赛2025 MVP，FURIA让二追三夺冠

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

《问剑长生》新大区预创角开启，是什么福利让玩家直呼夯爆了？

紧急！Axios 被投毒，3亿项目受到影响！教你怎么自查！

兆易创新2025年年营收92亿元，净利16亿元

TensorFlow - AI开发平台,AI开发框架

解决sql server2008注册表写入失败，vs2013核心功能安装失败

《九牧之野》S3乱世诡道主题服开启：4月18日上线，预备盟奖励与开服福利一文看懂

donk：对待季军赛的心态和决赛不一样，总之已经拿不到冠军了

iPhone 15耳机连接后音量小原因排查与解决

蛮荒领主手游测试资格获取方式蛮荒领主内测资格申请渠道与条件详解

极狐S3预告发布：三电可选、宽体运动设计，2026北京车展亮相

相关攻略

相关攻略

《炎龙骑士团2》详细全攻略

2015-03-10 11:25

《炎龙骑士团2》详细全攻略

《东吴霸王传2013》详细全关攻略

2015-03-10 11:05

《东吴霸王传2013》详细全关攻略

《臭作》之100%全完整攻略

2021-08-04 13:30

《臭作》之100%全完整攻略

《兰斯8》剧情攻略详细篇

2015-03-10 11:22

《兰斯8》剧情攻略详细篇

《英雄坛说》详细全攻略

2015-03-10 12:39

《英雄坛说》详细全攻略

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

2022-05-16 18:57

《造梦西游2：十殿阎罗篇》BOSS档案及掉落装备全介绍及攻略

偷窃少女的教育方法全攻略

2025-05-23 13:43

偷窃少女的教育方法全攻略

无法抵挡小恶魔的诱惑攻略

2025-05-23 14:01

无法抵挡小恶魔的诱惑攻略

热门教程

游戏攻略
安卓教程
苹果教程
电脑教程

《红色沙漠》贪婪的西斯莱克打法技巧分享

《红色沙漠》贪婪的西斯莱克打法技巧分享发布于 2026-04-17

魔兽世界混乱控制任务怎么过

魔兽世界混乱控制任务怎么过发布于 2026-04-17

《异环》世间奇遇解锁攻略

《异环》世间奇遇解锁攻略发布于 2026-04-17

《异梦残响》第二关思辩通关攻略

《异梦残响》第二关思辩通关攻略发布于 2026-04-17

夯爆了网络梗的含义分享

夯爆了网络梗的含义分享发布于 2026-04-17

《最终幻想14》金曦秘话第三话现已上线！

《最终幻想14》金曦秘话第三话现已上线！发布于 2026-04-17

《异环》随心泥介绍

《异环》随心泥介绍发布于 2026-04-17

航海王热血航线蓝色双子巨塔在哪_东蓝之海的宝藏

航海王热血航线蓝色双子巨塔在哪_东蓝之海的宝藏发布于 2026-04-17

热门格斗手游推荐 2026爆火的格斗游戏分享

热门格斗手游推荐 2026爆火的格斗游戏分享发布于 2026-04-17

xbox one 游戏实际使用记录与经验整理

xbox one 游戏实际使用记录与经验整理发布于 2026-04-17

功夫熊猫神龙大侠武功秘籍玩法详解:全角色招式、连招技巧与隐藏成就攻略

功夫熊猫神龙大侠武功秘籍玩法详解:全角色招式、连招技巧与隐藏成就攻略发布于 2026-04-17

ps4 xbox one 是什么？基础说明与使用场景

ps4 xbox one 是什么？基础说明与使用场景发布于 2026-04-17

《空之轨迹 the 2nd》发售日公布！预约即送前作下载码！

《空之轨迹 the 2nd》发售日公布！预约即送前作下载码！发布于 2026-04-17

识质存在角色设计引争议：AI少女形象被误读，玩家呼吁理性看待艺术表达

识质存在角色设计引争议：AI少女形象被误读，玩家呼吁理性看待艺术表达发布于 2026-04-17

DNF狄瑞吉版本惩戒者怎么加点-狄瑞吉版本DNF惩戒者加点方法

DNF狄瑞吉版本惩戒者怎么加点-狄瑞吉版本DNF惩戒者加点方法发布于 2026-04-17

《魔界战记》之父新川宗平化身“共享制作人”低价接活时薪仅等于应届生

《魔界战记》之父新川宗平化身“共享制作人”低价接活时薪仅等于应届生发布于 2026-04-17

ubuntu安装教程无法使用怎么办？常见问题排查

ubuntu安装教程无法使用怎么办？常见问题排查发布于 2026-04-17

ubuntu安装教程不同版本有什么区别

ubuntu安装教程不同版本有什么区别发布于 2026-04-17

virtualbox网络使用教程：完整操作步骤详解

virtualbox网络使用教程：完整操作步骤详解发布于 2026-04-17

virtualbox网络用不好怎么办？问题排查指南

virtualbox网络用不好怎么办？问题排查指南发布于 2026-04-17

threadx系统教程：从入门到实际使用

threadx系统教程：从入门到实际使用发布于 2026-04-17

bluehost 使用前要了解哪些关键差异

bluehost 使用前要了解哪些关键差异发布于 2026-04-17

bluehost 常见问题与处理办法汇总

bluehost 常见问题与处理办法汇总发布于 2026-04-17

什么是mes系统基础知识整理：新手先看这篇

什么是mes系统基础知识整理：新手先看这篇发布于 2026-04-17

移动硬盘怎么分区比较好?移动硬盘分区步骤图解

移动硬盘怎么分区比较好?移动硬盘分区步骤图解发布于 2026-04-17

米家扫地机器人充电状态有灯亮吗？

米家扫地机器人充电状态有灯亮吗？发布于 2026-04-17

苹果手机15关机键在哪个位置？

苹果手机15关机键在哪个位置？发布于 2026-04-17

苹果手机15关机键需要长按多久？

苹果手机15关机键需要长按多久？发布于 2026-04-17

vscode怎么新建项目-新建项目的详细步骤

vscode怎么新建项目-新建项目的详细步骤发布于 2026-04-17

2026年笔记本电脑CPU性能天梯图：你的处理器排第几?

2026年笔记本电脑CPU性能天梯图：你的处理器排第几? 发布于 2026-04-17

苹果手机15关机键按不灵敏怎么办？

苹果手机15关机键按不灵敏怎么办？发布于 2026-04-17

头戴式耳机怎样关灯

头戴式耳机怎样关灯发布于 2026-04-17

热门话题

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

魔术游戏下载-魔术游戏-2022热门的魔术小游戏大全

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

刀塔传奇破解版在哪下-刀塔传奇破解版无限钻石下载大全-刀塔传奇破解版内购破解版合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

饥荒下载免费中文版-饥荒下载破解版-饥荒正版全部版本下载合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

拉布布游戏下载-拉布布游戏合集-拉布布系列游戏大全合集

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

洛克王国手游正版下载-洛克王国正版手游下载安装大全-类似洛克王国的手机游戏推荐

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

神魔幻想单机游戏下载-神魔幻想单机游戏推荐-神魔幻想系列游戏下载合集

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

最受女生欢迎的游戏_女生玩的手游_思美人手游下载专区

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

疯狂越野系列游戏下载_疯狂越野全版本合集中文版下载

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集

神庙逃亡2破解无限金币无限钻石下载-神庙逃亡2国际版破解大全-神庙逃亡2版本合集