视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈

热心网友时间：2026-05-18

转载

生成模型的偏好对齐，可能正在进入一个新的阶段。

过去几年，大模型后训练最主流的方法，无论是RLHF还是DPO，都绕不开一个核心前提：反馈必须成对出现。但在真实的应用场景里，情况往往并非如此——我们更常拿到的是单个样本的标量分数，比如一个审美评分、一个对齐分数，或者一次用户点击。

为此，新加坡国立大学的研究团队提出了一种更直接的解法：Threshold-Guided Optimization (TGO)。这是一种不依赖成对偏好数据，直接利用独立样本标量评分进行模型对齐的新范式。目前，这项研究已被ICML 2026接收。

它的核心思路很直观：从分数分布中估计一个阈值（例如中位数），高于阈值的样本被视为“伪正例”，低于阈值的则被视为“伪负例”。训练时，模型的任务是提高“伪正例”相对于参考模型的生成概率，同时降低“伪负例”的概率。更重要的是，样本分数离阈值越远，说明监督信号越确定，其在训练中的权重也就越大。

简单说，TGO让生成模型的对齐不再只依赖“哪个更好”的比较，而是开始直接利用“这个有多好”的绝对反馈。

DPO的优雅，来自成对数据

DPO能成为偏好优化的代表方法，关键在于它将复杂的KL正则化强化学习目标，改写成了一个可直接训练的分类目标。它不需要显式训练奖励模型，也无需在线采样，只要有离线的偏好对数据，就能完成策略拟合。

其背后的数学结构很清晰：在KL正则化的对齐目标下，最优策略有一个闭式解，但其中包含一个难以计算的对所有可能输出的求和项（即配分函数）。DPO的巧妙之处在于，当在同一提示词下比较“优选”输出和“被拒”输出时，这个难算的配分函数会在奖励差值中相互抵消。

也就是说，DPO的简洁性很大程度上源于成对偏好数据本身。两个输出一比较，难题就消失了，问题转化为了一个相对概率的分类问题。

但这个优势也反过来限制了它的适用范围。一旦监督信号不再是成对的，而是单个样本的标量分数，原来依靠“两两相减”来抵消配分函数的方法就不再直接适用。

实践中常见的变通方法是把标量分数转化为偏好对，例如在一个批次内排序，或将同一提示下的多个候选结果进行两两比较。这种做法虽然可行，却带来了信息损失。一个9.5分的样本和一个7.5分的样本，在成对训练中可能都被视为“胜者”；而两个分数极为接近（如4.9分和4.8分）的样本，被强行拆分为“胜者/败者”对，在评分噪声较大时，这种人为构造的偏好对可能并不可靠，甚至可能放大错误的监督信号。

对于视觉生成任务，这个问题尤为突出。图像和视频的质量很少是简单的二元判断。一张图可能审美出众但文本对齐稍弱，也可能构图精准但风格欠佳。视频还需考量运动是否自然、主体是否稳定、时间是否连贯。很多时候，一个连续的分数比一个简单的“胜/负”标签更能反映真实的反馈。

三条路线，都在放松成对约束

实际上，TGO并非孤立出现。近期领域内的几项工作都在回应同一个核心问题：偏好优化能否摆脱对成对偏好的强依赖？

PMPO

例如，Google DeepMind在《Preference Optimization as Probabilistic Inference》一文中提出，模型学习偏好并不一定需要严格配对的样本。只要有正例样本或负例样本，甚至只有其中一种反馈，也可以进行优化。该方法基于EM风格的策略改进，目标由三部分组成：提高正例样本的似然、降低负例样本的似然，同时保持新策略接近参考策略。这使得反馈结构更加灵活，更贴合现实任务中数据分布不平衡、反馈不成对的常态。

QRPO

另一篇论文《Quantile Reward Policy Optimization》则试图解决点式绝对奖励下的策略拟合问题。其核心挑战依然是那个难算的配分函数。QRPO的解决方案是将原始奖励转换为分位数奖励。这样一来，在参考策略下，分位数奖励的分布会变成均匀分布，从而使配分函数有了解析形式。模型因此可以通过一个简单的点式回归目标来直接拟合最优策略，而无需依赖成对比较来抵消归一化项。

TGO

而本文介绍的TGO，回答的是同一问题的另一个切面。PMPO关注未配对的正负反馈，QRPO关注点式绝对奖励的可解析策略拟合，TGO则面向视觉生成模型，选择了一个更轻量级的阈值方案。

三者的共同点在于，它们都在尝试将偏好优化从“必须有配对数据”这一前提中解放出来。

TGO的核心：用阈值近似基线

TGO的方法看似简单，但并非随意设定一个阈值做二分类。其背后的推导源于KL正则化对齐目标。理论上，对于一个给定样本，最优策略是提高还是降低其概率，取决于其奖励是否超过某个与实例相关的“神谕”基线。但这个基线与配分函数相关，通常无法计算。

DPO通过成对比较使其抵消；QRPO通过分位数变换使其可解析；TGO则选择用一个数据驱动的全局阈值来近似它。

具体操作上，TGO首先从带分数数据集的分布中估计一个阈值（常用中位数）。随后，所有分数高于阈值的样本被视为“伪正例”，低于阈值的被视为“伪负例”。训练时，模型学习调整其相对于参考模型的对数似然比：对伪正例提高，对伪负例降低。

更进一步，TGO引入了置信度加权。样本分数离阈值越远，意味着将其判为正例或负例的置信度越高，该样本对训练的贡献权重也越大。分数接近阈值的样本则较为模糊，权重相应降低。

这样一来，TGO并未完全丢弃标量分数的幅度信息，而是将分数大小转化为了监督信号的强度。其规则可概括为两层：阈值决定更新方向，距离决定更新力度。这与普通的二值化标签不同，后者只保留正负信息，而TGO的置信度加权继续利用了分数偏离阈值的程度。对于视觉生成这类评分噪声较大、质量分布连续的任务，这一点尤为重要。

当然，TGO并不能消除对反馈质量本身的依赖。标量分数仍需与目标偏好足够相关；如果打分器本身存在偏差或噪声较大，阈值产生的伪标签也会继承这些偏差。因此，TGO解决的是如何更直接地利用标量反馈，而非替代反馈建模本身。

为什么视觉生成尤其适合标量反馈

在语言模型中，成对偏好很自然。人类比较两个回答哪个更好，往往比直接打分更稳定。但在视觉生成领域，情况有所不同。

一张图像的好坏，通常无法用简单的“胜过另一张”来概括。它可能在审美上出众，但提示词对齐稍弱；也可能语义准确，但构图平庸。此外，风格、色调、人物姿态、背景复杂度等偏好因素也更为主观。这些多维度的考量，更适合表达为一个连续分数或多个维度的评分。

视频生成则更为复杂。评估视频不仅要看单帧质量，还需考量运动合理性、时间一致性、主体稳定性、镜头变化以及文本对齐。将这些复杂的信号强行压缩成一个简单的成对偏好，往往会损失大量细节信息。

真实产品环境中的用户反馈也更接近标量或隐式反馈，例如点赞、收藏、点击、停留时长、评分，或对生成结果进行二次编辑。这些信号并非天然成对，却是模型迭代改进的宝贵数据来源。如果对齐方法只能处理“胜者/败者”标签，便很难充分利用这类反馈。

TGO瞄准的正是这一缺口。它不要求每个提示词下都有多个候选结果，也无需人工构造偏好对。只要每个样本有一个分数，就可以投入训练。这使得视觉生成模型的对齐过程，能够更贴近真实世界反馈的收集方式。

从图像到视频：TGO在多种视觉生成范式上验证

该研究的实验覆盖了两类主流的视觉生成范式：基于扩散的模型和基于掩码的生成模型。前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等，后者则包括Meissonic这类掩码生成式Transformer。这表明TGO并非只适配特定架构，而更像是一种通用的标量反馈对齐框架。

在图像生成实验中，研究者在Pick-a-Pic、PartiPrompts和HPSv2等多个测试集上评估TGO，并使用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION审美评分等多个奖励模型作为评价指标。

结果显示，与SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等方法相比，TGO在多种设置下都能取得更高的奖励模型分数。更重要的是，TGO在多个不同的奖励模型上均有提升，这说明它并非简单地“刷高”某一个特定打分器，而是在更广泛的视觉偏好维度上带来了真实的改进，缓解了“奖励黑客”的担忧。

在视频生成方面，基于LoRA的TGO-LoRA被应用于Wan 1.3B模型并结合VideoReward进行评估。结果表明，它不仅提升了整体的VideoReward分数，也改善了多个组件指标。这证明这种基于阈值的标量反馈对齐方法，有潜力从图像生成扩展到更复杂的视频生成任务。

不是替代DPO，而是补上另一种反馈接口

需要明确的是，TGO并非要否定DPO。成对偏好仍然非常重要，在许多任务中它依然是最稳定、最直观的反馈形式。尤其是当人类难以给出绝对分数，但能明确比较两个结果的优劣时，成对偏好具有不可替代的实用价值。

但问题在于，成对偏好不应该是唯一的接口。

随着生成模型深入更多真实应用场景，现实中的反馈并不会总是以“优选/被拒”配对的形式出现。语言模型会有奖励模型分数、可验证奖励、数学验证结果、代码通过率；图像模型会有审美分数、图文对齐分数、人类评分；视频模型涉及运动质量、时间一致性；多模态系统还会有点击、收藏、停留、编辑等用户行为信号。这些反馈大多是点式的，它们不告诉模型“这个比那个好”，而是告诉模型“这个结果本身有多好”。如果对齐方法只能处理比较数据，就会错过大量自然存在的监督信号。

PMPO、QRPO和TGO的共同意义，正在于将偏好优化从成对监督扩展到更一般的反馈优化。PMPO展示了未配对的正负反馈如何被纳入概率推断式的策略改进；QRPO证明了绝对奖励如何通过分位数奖励进入可解析的策略拟合；TGO则说明，在视觉生成中，一个经验阈值加上置信度权重，就足以将标量分数转化为有效的对齐信号。

为什么这件事现在值得认真对待？因为生成模型越贴近产品，反馈形态就越复杂。早期的对齐研究可以假设存在干净的偏好对数据，但真实用户不会总是配合系统做A/B测试。更多时候，系统拿到的是一个分数、一次点击、一次收藏或一次修改。这些信号看似零散，却可能构成下一阶段后训练的主要数据来源。

对于视觉生成尤其如此。图像和视频的质量本质上是审美、语义、结构、运动、风格和个体偏好的综合结果。直接从标量反馈中学习，可能比先构造成对偏好更自然，也更容易扩展。

TGO的价值正在于此。它没有将问题复杂化，而是用一种相当克制的方式，将标量反馈接入了KL正则化对齐目标。理论上，它用经验阈值近似了不可计算的神谕基线；工程上，它只需要带分数的样本就能训练；实践上，它能同时覆盖扩散模型和掩码生成模型范式，并在图像和视频任务上带来稳定提升。

这或许是生成模型对齐迈向下一步的关键：模型不能只会从“谁赢了”中学习，也必须学会理解“这个结果到底有多好”。