Outcome Reward Model（结果奖励模型）是什么？

本次查询Outcome Reward ModelAI 热词解释结果

中文解释结果奖励模型

热词类型技术概念

常见场景强化学习 / AI 对齐训练 / 大语言模型优化

一句话解释

结果奖励模型（ORM）是一种只关注最终结果好坏的评分器，它会在任务结束后给出一个分数（例如 0 或 1），用于指导 AI 模型如何调整行为来获得更高分。

随着大语言模型和对话机器人等应用的普及，如何让模型生成更符合人类偏好的回答成为关键。ORM 提供了一种直接根据“最终回答是否合格”来打分的简单方法，相比逐步骤评分更容易获取训练数据。

同时 ORM 与 RLHF（从人类反馈中强化学习）结合紧密，许多开源项目（如 DeepSeek、OpenR1）都在探索使用 ORM 进行模型对齐，因为它能有效降低人工标注成本。

ORM 的核心是训练一个二分类或评分网络，输入是任务完成的全部信息（例如最终的回答文本），输出一个标量分数。这个分数代表该结果符合人类期望的程度。

在强化学习过程中，智能体每完成一个回合就会收到这一分数作为奖励信号，从而学习到哪些策略能带来更好的最终结果。它的主要特点是不关心中间步骤的正确性，只在乎终点成绩。

在数学推理任务中，ORM 用于判断最终答案是否正确；在代码生成任务中，ORM 根据代码测试是否通过给出奖励；在文本摘要任务中，ORM 根据摘要质量和一致性打分。

ORM 也常用于对话模型的 RLHF 训练中，标注员只需判断整段对话是否令人满意，而不需要对每一轮单独标注，大大提升了标注效率。

很多人会把 ORM 和生成式对抗网络（GAN）中的判别器搞混。两者虽都是判断结果好坏，但 GAN 的判别器在训练生成器时会动态演化，而 ORM 通常固定参数后不再更新。

另一个常见混淆是 ORM 与过程奖励模型（PRM）的区别。PRM 对每一步进行评分，适合需要细致过程反馈的任务（如数学推导），而 ORM 只关注最终结果，更适合结果判定简单的任务。

此外，ORM 并不等于强化学习中的“奖励函数”，奖励函数可以是规则或环境反馈，而 ORM 本身是一个学习出来的模型，需要预先训练。

来源：AI 热词解释频道整理

Outcome Reward Model 结果奖励模型奖励模型 RLHF 强化学习

本文内容用于 AI 热词解释和概念整理，仅供学习和理解参考。若涉及表述偏差或内容修正，欢迎联系站点进行更新。

相关热词

RLHF更新：2026-05-14

RLHF是一种通过人类反馈来训练和微调AI模型的技术。它让模型不仅能理解指令，还能学习人类的偏好和价值观，从而生成更安全、更有用、更符合预期的回答。这是ChatGPT等对话模型变得“善解人意”的核心原因之一。

常查热词