数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

大模型对齐技术综合评述：RLHF、RLAIF、PPO、DPO等（二）

AI热点日报时间：2026-05-30

热点解读

3 1 强化学习从人类反馈中学习（RLHF）如果说大模型对齐是一场让机器理解人类意图的修行，那么RLHF（Reinforcement Learning from Human Feedback）无疑是最早被证明有效的方法之一。它的思路很简单：既然模型自己难以判断什么是对的，那就让人类来当老师，用标注

3.1 强化学习从人类反馈中学习（RLHF）

如果说大模型对齐是一场让机器理解人类意图的修行，那么RLHF（Reinforcement Learning from Human Feedback）无疑是最早被证明有效的方法之一。它的思路很简单：既然模型自己难以判断什么是对的，那就让人类来当老师，用标注数据告诉模型“这样做更好”。

3.1.1 背景与发展

RLHF的核心想法其实很直观：与其让模型自己瞎琢磨，不如直接利用人类标注好的数据，手把手指导它优化，让它的输出越来越符合我们的期望。这种方法已经在多个大规模语言模型上得到了验证，其中最知名的就是OpenAI的InstructGPT。

3.1.2 InstructGPT：从RLHF到实践

InstructGPT可以说是RLHF的“样板工程”。它的训练过程被清晰地分成了两个阶段： **奖励模型学习** 在这个阶段，研究人员需要先收集人类标注的反馈数据。具体来说，就是让人工标注者比较模型生成的多个回答，选出最符合期望的那个。有了这些比较数据，就可以训练出一个显式的“奖励模型”——这个模型学会给不同质量的回答打分，分数越高代表越符合人类偏好。 **策略优化** 奖励模型训练好了，接下来就是用它来指导主模型的优化。这里采用的是强化学习的标准套路：奖励模型充当“环境”，而我们要优化的语言模型就是“智能体”。模型不断生成回答，奖励模型给出分数，模型再根据分数调整自己的生成策略。细心的读者可能会问：这样一来，模型会不会跑偏，忘掉自己原本学会的东西？这个问题想得很周到。所以在优化目标里，除了要最大化奖励得分，还加入了一个约束条件——最小化当前策略与原始参考策略之间的KL散度。通俗地说，就是“别偏得太远”。 **实验结果** 实验数据很有说服力：InstructGPT虽然参数量远小于原始GPT-3，但生成质量反而更高。这充分说明，RLHF确实能有效提升模型的实用性和可靠性，尤其是在生成更符合人类需求的内容方面。

3.1.3 Anthropic的RLHF研究：从不同角度进行优化

Anthropic作为AI安全领域的另一重要玩家，在RLHF上也做了大量工作。与OpenAI相比，他们的思路略有不同，更侧重于数据质量和训练细节的打磨。 **数据标注与选择** Anthropic在挑选标注者上下了很大功夫，特别注重标注者的写作能力和与AI深度互动的能力。有趣的是，他们发现即使是经过筛选的标注者，相互之间的一致性也不够理想。这一发现促使他们进一步优化标注者的选择流程，确保数据的质量底线。 **策略优化** 在优化策略方面，Anthropic做了一个很有意思的实验：测试不同规模的模型，观察RLHF的效果变化。结果发现，模型规模越大，RLHF带来的提升越明显。他们还引入了PPO（近端策略优化）技术——这可以理解为给策略更新加了一个“保险丝”，防止单次更新幅度过大导致模型崩坏。 **实验结果** 实验结果印证了一个重要发现：在大模型上使用RLHF，不仅能提升对齐效果，还能减少所谓的“对齐税”（alignment tax）。所谓对齐税，指的是为了对齐人类偏好而导致的模型性能下降。Anthropic的研究表明，在无害性和帮助性这两个关键维度上，RLHF都表现出了更好的对齐效果，同时对原始能力的损伤也更小。

3.1.4 在线与迭代RLHF：提升模型适应性的探索

传统的RLHF方法有个明显的短板：它依赖的是离线收集好的静态数据。可问题是，模型在实际应用中遇到的场景千变万化，静态数据很难覆盖所有可能性。这就好比一个学生只做历年真题，但考试却出了新题型，结果可想而知。为了解决这个痛点，研究者开始探索在线和迭代的RLHF方法。 **在线RLHF** 在线RLHF的核心思路是“边用边学”——模型在生成过程中实时获取新的反馈数据，利用这些数据不断调整自己。这种方法在处理未知任务时的适应性明显更好，但代价也不小：实时获取高质量反馈的成本很高，而且反馈质量的稳定性是个大问题。 **迭代RLHF** 迭代RLHF的做法更温和一些。每轮优化结束后，模型会生成一批新的响应，然后基于这些新数据进行下一轮强化学习。这种做法在需要持续调整和优化的复杂任务中效果相当不错，特别是那些需要“慢工出细活”的场景。

3.2 RLAIF：基于AI反馈的强化学习

3.2.1 RLAIF的背景与动机

随着大模型能力的不断提升，一个问题逐渐浮现：高质量的人类反馈越来越贵、越来越难获取。这就好比一个天才学生不断进步，但他的老师却跟不上他的节奏了。RLAIF（Reinforcement Learning from AI Feedback）正是在这个背景下应运而生——用AI来反馈AI，从而降低标注成本，提升对齐效率。

3.2.2 RLAIF的核心机制

RLAIF的工作流程大致分为两个阶段： **监督学习阶段** 在第一阶段，模型会基于一套预先定义好的原则（被称为“宪法”）进行监督学习。这里用到了链式思维（CoT）框架，帮助模型识别和纠正潜在的有害响应。研究结果很有意思：在某些场景下，通过自监督学习，模型甚至能取得比人类标注更好的效果，尤其是在提升生成内容的安全性和有益性方面。 **RLAIF过程** 第二阶段，传统的RLHF被替换成了RLAIF。具体来说，用一个AI系统来标注无害性数据，然后基于这些数据进行策略优化。为了确保优化过程始终对齐人类价值观，研究者引入了不同的原则和推理方法来指导这个过程。

3.2.3 Anthropic的RLAIF研究

Anthropic在RLAIF上的研究重点很明确：用AI反馈替代昂贵的人类反馈。他们的做法分为两个阶段：1）基于链式思维和宪法引导的监督学习；2）纯RLAIF阶段。实验结果表明，RLAIF在无害性任务上表现特别突出，能在显著降低人工标注成本的同时，保持高水平的模型对齐效果。

3.2.4 Google的RLAIF研究：对比分析

Google在RLAIF上的研究选择了与Anthropic不同的技术路线。他们通过结构化的提示来生成AI反馈，再用这些反馈去优化模型策略。 **AI反馈生成** Google的反馈生成过程非常讲究：设计好一个结构化提示框架——包括引言、少量示例（可选）、待标注的样本以及结尾部分。AI模型根据这些结构化提示生成响应，然后进行偏好评估。 **RLAIF过程** Google在RLAIF过程中探索了两种策略：“蒸馏RLAIF”和“直接RLAIF”。“蒸馏RLAIF”遵循传统RLHF的方法，先训练奖励模型再优化策略；而“直接RLAIF”更直接，直接用AI生成的反馈信号来训练策略。 **实验结果** 在Reddit TL;DR（总结任务）和Anthropic的帮助性/无害性任务上，Google的实验结果很有说服力：RLAIF在生成有帮助性的对话和无害性内容上，表现甚至优于传统的RLHF。尤其是“直接RLAIF”策略，模型能够更好地对齐AI反馈，在某些任务中实现了更高的对齐度。

3.3 直接人类偏好优化：理论与实践的深度解读

RLHF虽然有效，但它的“两条腿走路”——先训练奖励模型，再用强化学习优化策略——实在太重了。有没有更简单直接的方法？直接人类偏好优化（Direct Human Preference Optimization，DPO）就是对这个问题的回答：省掉奖励模型这一步，直接用偏好数据来优化策略。

3.3.1 传统RLHF的局限性

传统RLHF的短板主要来自两个方面： - **显式奖励模型的训练**：训练一个可靠的奖励模型本身就需要大量标注数据。更麻烦的是，在每一步策略优化中都要调用这个奖励模型来计算得分，对于大型模型来说，这简直是资源黑洞。 - **策略优化的复杂性**：为了保持对齐效果，策略优化通常需要反复迭代，每次迭代都要用奖励模型来评估策略，进一步叠加了计算复杂度和资源消耗。这些痛点促使研究者寻找更简洁高效的对齐路径，DPO就是在这样的背景下诞生的。

3.3.2 直接人类偏好优化（DPO）的基本原理

DPO的核心思想可以用一句话概括：直接利用人类偏好数据来优化策略，不再需要训练显式的奖励模型。换个角度看，就是直接在策略空间里做调整——最大化期望响应的概率，同时最小化不期望响应的概率。

3.3.2.1 DPO的数学基础

DPO的优化目标其实非常直观：让模型更倾向于生乘人类标注为“期望”的响应 \( y_w \)，同时减少生成“不期望”的响应 \( y_l \) 的概率。其优化目标可以表示为：

3.3.2.2 优化过程中的KL散度约束

为了避免模型在优化过程中“放飞自我”，DPO引入了KL散度约束来控制策略的变化幅度。听起来有点复杂，但背后的逻辑很简单：给策略更新加一个“安全带”，别让它偏离初始参考策略太远。

通过这个公式，DPO既利用了偏好数据来指导优化，又通过约束保持了生成质量的稳定性——这才是DPO的精髓所在。

3.3.3 DPO的优势与实践中的应用

3.3.3.1 计算效率的显著提升

DPO最直观的优势就是省钱了——省去了训练奖励模型这个步骤，整个优化流程简洁高效。这不仅缩短了训练时间，更降低了对计算资源的需求，使得DPO在大规模模型训练中展现出极高的应用潜力。

3.3.3.2 应对复杂任务的能力

在应对复杂任务时，DPO同样不含糊。通过直接优化人类偏好，它能够更好地捕捉响应之间的细微差异。实验数据显示，在文本生成、问答系统等多个NLP任务中，DPO的表现都优于传统RLHF，尤其是在那些需要精细调整和多层次判断的任务上。

3.3.4 DPO的变种与扩展

DPO虽然已经展示了显著优势，但研究者们并未止步。针对实际应用中的各种挑战，一系列DPO的变种和扩展被陆续提出。

3.3.4.1 SLiC-HF：基于序列似然校准的偏好优化

SLiC-HF（Sequence Likelihood Calibration with Human Feedback）在DPO的基础上引入了最大边际排名损失和正则化项，进一步提升了模型处理复杂任务的适应性。它的核心思路是在优化过程中不仅关注响应的优劣排名，还通过正则化项约束模型生成的多样性，这让它在需要高适应性的任务中表现突出。

3.3.4.2 RSO：拒绝采样优化

拒绝采样优化（Rejection Sampling Optimization, RSO）解决的是一个数据分布偏差问题。通过智能采样策略，确保训练数据更接近最优策略的预期分布。具体来说，RSO基于一个奖励模型来计算每个响应被接受的概率，然后根据这个概率进行采样，让最终进入训练集的数据“质量更好”，自然也就提升了训练效果。

3.3.4.3 β-DPO：动态β校准的偏好优化

现实世界的数据质量参差不齐，β-DPO正是为了解决这个问题而生的。它根据每个训练批次的数据质量动态调整β值——处理高质量数据时更精准地对齐偏好，遇到低质量数据时则保持鲁棒性，有效避免过拟合问题。

3.3.4.4 DPOP：针对小编辑距离数据的优化

DPOP（DPO Positive）专门解决一个棘手场景：当两个响应之间的差异非常小时，传统DPO可能会出现奖励降低的问题。DPOP的做法是增加对期望响应的奖励权重，帮助模型更好地分辨那些细微差别。这个方法在数学推理、逻辑判断等精度要求极高的任务中效果尤为显著。

3.3.4.5 IPO：身份偏好优化

IPO（Identity Preference Optimization）的出发点是对抗过拟合。传统DPO和RLHF都依赖于非线性变换，这在高噪声数据环境下容易导致策略偏差。IPO的解决方案很巧妙：直接优化一个偏好函数，绕开非线性变换带来的风险，在多个实验中验证了其对过拟合的有效抑制。

3.3.4.6 sDPO：自我奖励偏好优化

sDPO（Self-Rewarding Preference Optimization）将偏好优化与自我监督结合，让模型在没有外部反馈的情况下也能自我优化。它的做法是用模型自身生成的奖励信号来引导优化过程，特别适合那些反馈数据稀缺或标注成本高昂的场景。实验证明，即使没有外部反馈，sDPO依然能通过自我优化保持对齐效果。

3.3.4.7 GPO：全局偏好优化

GPO（Global Preference Optimization）的思路是把偏好优化从局部扩展到全局。在处理跨领域或多任务场景时，能够综合多个任务或场景的偏好数据，实现对模型的全局调整。实验表明，GPO在大规模语言模型的通用对齐任务中展现出极强的潜力。

3.3.4.8 Token级别DPO

传统DPO采用响应级优化——对整段生成内容评分一次。但在生成长文本时，这种“一刀切”的做法可能遗漏局部细节的错误。Token级别DPO的做法是：每个词生成后都做一次评分和优化。这样能更精细地控制生成过程，确保每个词的选择都符合预期。当然，精细化的代价是计算量大幅增加。如何在计算成本和生成质量之间找到平衡，是Token级别DPO面临的主要挑战。

3.3.4.9 线上迭代DPO

传统离线DPO依赖静态数据，但模型在实际应用中面临的数据分布是动态变化的。线上迭代DPO的做法很简单：持续获取新反馈，实时更新生成策略。它采用在线学习的框架，结合探索与利用的策略——每轮迭代中，模型生成候选响应，获得反馈，再据此调整策略。实验表明，这种方法在对话系统等数据分布变化较大的场景中适应性极强。当然，代价也不小——对计算资源和反馈数据的质量都有更高要求。

3.3.4.10 长度控制与无参考DPO

大模型生成内容时，长度控制是个常见难题——不是太长就是太短。长度控制与无参考DPO通过在优化过程中加入长度偏差惩罚项来解决这个问题。模型生成每个词时，都会计算当前长度与预定目标的偏差，从而影响下一个词的选择。同时，无参考DPO摒弃了传统方法中保存和计算参考策略的做法，直接优化策略梯度，简化了计算过程。实验表明，在新闻摘要生成、对话系统等需要固定长度输出的任务中，这个方法既提升了质量，又很好地控制了响应长度。

3.3.5 DPO的挑战与未来方向

尽管DPO及其变种展现出巨大潜力，但实践中仍有不少挑战需要面对。

方法名称	背景与动机	核心思想	主要优点	挑战与局限性	实验结果与应用场景
DPO	提高计算效率，简化对齐过程	直接利用偏好数据优化策略，省去奖励模型训练	计算效率显著提升；处理复杂任务表现出色	依赖高质量偏好数据；分布外数据存在局限	多个NLP任务中优于RLHF
SLiC-HF	优化复杂任务适应性	引入最大边际排名损失和正则化项	减少计算开销，提升对齐效果	正则化机制更复杂	复杂任务中表现优异
RSO	解决数据分布偏差	智能采样校正训练数据分布	提升DPO效果，处理复杂数据分布	采样增加计算成本	训练数据质量显著提升
β-DPO	应对数据质量不一致	动态调整β值，根据数据质量优化	处理噪声数据，避免过拟合	β调整可能引入不稳定性	高噪声数据场景适应性强
DPOP	针对小编辑距离数据	增加对期望响应的奖励权重	数学推理、逻辑判断表现优异	大编辑距离任务可能效果不佳	细粒度任务优势明显
IPO	解决过拟合	直接优化偏好函数避免非线性变换偏差	有效减少策略偏差	简单任务可能表现一般	高噪声环境中表现优越
sDPO	应对反馈数据稀缺	自我监督+偏好优化，用自身信号引导	无外部反馈仍能保持对齐	计算资源需求高	多轮反馈任务中表现优异
GPO	处理跨领域任务	全局优化策略，综合多任务偏好	提高通用性和适应性	计算复杂，数据选择要求严格	跨领域任务优势显著
Token级别DPO	解决细粒度生成质量	每个词后评分优化	长文本生成质量提升	计算资源需求高	复杂生成任务表现出色
线上迭代DPO	解决分布偏移	实时采集反馈，持续微调策略	适应动态数据分布	算力需求高，反馈质量是关键	对话系统等动态场景表现优越
长度控制与无参考DPO	控制生成长度，简化优化	引入长度惩罚+无参考策略优化	控制长度且减少计算开销	长度与质量平衡需进一步研究	固定长度任务表现优越

DPO方法的一个根本前提是高质量的人类偏好数据。数据的多样性和准确性直接决定了最终的对齐效果。未来可以探索如何更高效地获取和处理多样化数据，确保DPO在不同场景下的通用性。分布外数据处理是另一个关键挑战。虽然DPO在常规任务中表现优秀，但当面对训练数据中从未见过的场景时，效果可能会打折扣。提升DPO在分布外数据上的鲁棒性，是后续研究的重要方向。总的来说，DPO及其变种为大模型对齐提供了一条高效、简化的路径。通过直接利用偏好数据进行策略优化，DPO在降低计算开销的同时提升了对齐效果。随着各种扩展方法的涌现，DPO在处理复杂任务和跨领域应用中的潜力不断被验证。虽然在实践中仍面临一些挑战，但不断优化的DPO体系，很可能是未来模型对齐任务中的核心手段之一。

3.4 二元反馈（Binary Feedback）

在所有反馈机制中，二元反馈可能是最简单的——只分“好”和“坏”两个标签。这种极简主义的方法反而带来了实现简单、成本低、易于扩展的优势。当然，信息量太少也是它绕不开的短板。

3.4.1 二元反馈的基础原理

在模型对齐过程中，二元反馈的操作很简单：给定一个输入和模型生成的响应，让人类标注者给出“好”或“坏”的判断。这种二选一的判断方式可以快速积累大量反馈数据，帮助模型优化生成策略。在强化学习框架下，二元反馈通常直接充当奖励信号。模型每次生成响应后，根据“好”或“坏”的反馈来更新策略，增加生成“好”响应的概率。操作虽然简单，但遇到复杂任务时就显得后劲不足了。

3.4.2 实验结果与技术分析

实验表明，二元反馈在不同任务中的表现差异很大。在文本摘要生成这类任务中，它的训练效率很高——比偏好反馈收敛得更快，在资源受限的情况下也能提供不错的优化效果。但在面对复杂任务时，问题就暴露出来了。因为二元反馈无法传达响应之间的“相对优劣”，模型在处理需要精确判断的任务时表现就不太好了。比如在多轮对话生成中，模型可能无法学到更高层次的对话策略，导致生成的对话缺乏连贯性和深度。为了缓解这个问题，一些研究提出了分阶段训练策略：初期用二元反馈快速收敛，后期引入偏好反馈或列表反馈来精调。这种组合拳在某些实验中效果相当不错，既保证了训练效率，又提升了最终生成质量。

3.4.3 深度解读

二元反馈的例子说明了一个道理：简单不等于没用。在某些任务中，这种简单的反馈机制确实能高效地指导模型适应人类偏好。但局限性也很明显，面对更复杂的任务时，就需要考虑如何补充信息量，或者设计更智能的反馈机制。从实现角度看，二元反馈的优点在于简单高效——在大规模数据集和快速迭代的场景中，这一点尤为宝贵。未来的研究可以继续探索如何优化它的应用场景，以及如何与其他反馈机制有效结合，形成一个分层、互补的反馈系统。

3.5 合并SFT与对齐方法

在大模型对齐的传统流程中，监督微调（SFT）和对齐是两个独立的阶段。但最近的研究发现，把这两个阶段合二为一，反而能提升训练效率和生成质量。

3.5.1 SFT与对齐的独立过程及其局限性

传统的做法是这样的：先在大规模数据集上对模型进行监督微调，让它学会基础的生成能力；然后通过强化学习或其他对齐技术，在更细粒度的数据上优化，确保输出符合人类期望。这种“分步走”的方法虽然每个阶段目标明确，但短板也很明显。首先，SFT阶段学到的知识可能在对齐阶段被遗忘或覆盖，导致生成质量下降。其次，分开训练需要更多的时间和资源，尤其是在处理大规模数据和复杂任务时。

3.5.2 合并SFT与对齐的方法与技术实现

合并方法的思路很直接：在同一个训练框架中同时进行SFT和对齐。这样模型在学习基础生成任务的同时，也在不断优化输出的对齐效果。在具体实现上，通常使用多任务学习框架，把SFT和对齐作为两个互补的任务，模型在训练中同时优化两个任务的损失函数。比如在多轮对话生成中，模型既要学习生成自然流畅的对话，又要学习让内容更符合伦理和价值观。这种方法的关键优势在于，能够显著减少训练过程中的误差累积。因为SFT和对齐同步进行，模型在每个训练步骤中都同时考虑生成质量和对齐效果，避免了分阶段训练带来的信息丢失。同时，合并方法还能更有效地利用计算资源，减少训练时间。

3.5.3 实验结果与技术分析

在一项对比实验中，研究者在多个不同的生成任务上比较了传统分离式方法和合并方法的效果。结果很清楚：合并方法在生成质量和对齐效果上都优于传统方法，尤其是在复杂任务上，适应性更强。以文本摘要生成任务为例，合并SFT与对齐的方法显著提升了摘要质量——生成的摘要更简洁、更符合用户需求。而传统分离式方法在对齐后，往往会出现信息丢失或质量下降的现象。在多轮对话生成任务中，合并方法让模型在生成流畅对话的同时，保持了内容的连贯性和一致性。这个优势在实际应用中意义重大，特别在需要长时间交互的场景下尤为突出。

3.5.4 深度解读

合并SFT与对齐的方法为大模型对齐提供了一个全新的思路。把两个关键任务统一在一个框架下，既能提高训练效率，减少误差累积，又能提升最终模型的生成质量。从技术角度来看，合并方法在资源利用和训练效率上的优势，让它成为处理大规模模型和复杂任务的重要工具。不过，这种方法在实现过程中也面临一些挑战。比如，如何平衡SFT和对齐的损失函数，确保两个任务有效协同，就是一个需要深入研究的问题。此外，在多任务学习的框架下，如何设计和调整模型架构以适应不同任务的需求，也是未来的重要研究方向。这种方法在医学文本生成、法律文件摘要等高要求的场景中，可能提供一种更高效、更可靠的解决方案。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：大模型对齐技术综合评述：RLHF、RLAIF、PPO、DPO等（二）要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.53ai.com/news/finetuning/2024091293174.html

ai 人工智能

上一篇：国产小钢炮MiniCPM3-4B：小参数蕴含大能量

下一篇：16.99万起，小米SU7最真实对手是这台车

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。