视觉生成模型对齐新方法TGO无需偏好对仅用标量反馈
生成模型的偏好对齐,可能正在进入一个新的阶段。
过去几年,大模型后训练最主流的方法,无论是RLHF还是DPO,都绕不开一个核心前提:反馈必须成对出现。但在真实的应用场景里,情况往往并非如此——我们更常拿到的是单个样本的标量分数,比如一个审美评分、一个对齐分数,或者一次用户点击。
为此,新加坡国立大学的研究团队提出了一种更直接的解法:Threshold-Guided Optimization (TGO)。这是一种不依赖成对偏好数据,直接利用独立样本标量评分进行模型对齐的新范式。目前,这项研究已被ICML 2026接收。

它的核心思路很直观:从分数分布中估计一个阈值(例如中位数),高于阈值的样本被视为“伪正例”,低于阈值的则被视为“伪负例”。训练时,模型的任务是提高“伪正例”相对于参考模型的生成概率,同时降低“伪负例”的概率。更重要的是,样本分数离阈值越远,说明监督信号越确定,其在训练中的权重也就越大。
简单说,TGO让生成模型的对齐不再只依赖“哪个更好”的比较,而是开始直接利用“这个有多好”的绝对反馈。
DPO的优雅,来自成对数据
DPO能成为偏好优化的代表方法,关键在于它将复杂的KL正则化强化学习目标,改写成了一个可直接训练的分类目标。它不需要显式训练奖励模型,也无需在线采样,只要有离线的偏好对数据,就能完成策略拟合。
其背后的数学结构很清晰:在KL正则化的对齐目标下,最优策略有一个闭式解,但其中包含一个难以计算的对所有可能输出的求和项(即配分函数)。DPO的巧妙之处在于,当在同一提示词下比较“优选”输出和“被拒”输出时,这个难算的配分函数会在奖励差值中相互抵消。
也就是说,DPO的简洁性很大程度上源于成对偏好数据本身。两个输出一比较,难题就消失了,问题转化为了一个相对概率的分类问题。
但这个优势也反过来限制了它的适用范围。一旦监督信号不再是成对的,而是单个样本的标量分数,原来依靠“两两相减”来抵消配分函数的方法就不再直接适用。
实践中常见的变通方法是把标量分数转化为偏好对,例如在一个批次内排序,或将同一提示下的多个候选结果进行两两比较。这种做法虽然可行,却带来了信息损失。一个9.5分的样本和一个7.5分的样本,在成对训练中可能都被视为“胜者”;而两个分数极为接近(如4.9分和4.8分)的样本,被强行拆分为“胜者/败者”对,在评分噪声较大时,这种人为构造的偏好对可能并不可靠,甚至可能放大错误的监督信号。
对于视觉生成任务,这个问题尤为突出。图像和视频的质量很少是简单的二元判断。一张图可能审美出众但文本对齐稍弱,也可能构图精准但风格欠佳。视频还需考量运动是否自然、主体是否稳定、时间是否连贯。很多时候,一个连续的分数比一个简单的“胜/负”标签更能反映真实的反馈。
三条路线,都在放松成对约束
实际上,TGO并非孤立出现。近期领域内的几项工作都在回应同一个核心问题:偏好优化能否摆脱对成对偏好的强依赖?
PMPO
例如,Google DeepMind在《Preference Optimization as Probabilistic Inference》一文中提出,模型学习偏好并不一定需要严格配对的样本。只要有正例样本或负例样本,甚至只有其中一种反馈,也可以进行优化。该方法基于EM风格的策略改进,目标由三部分组成:提高正例样本的似然、降低负例样本的似然,同时保持新策略接近参考策略。这使得反馈结构更加灵活,更贴合现实任务中数据分布不平衡、反馈不成对的常态。


QRPO
另一篇论文《Quantile Reward Policy Optimization》则试图解决点式绝对奖励下的策略拟合问题。其核心挑战依然是那个难算的配分函数。QRPO的解决方案是将原始奖励转换为分位数奖励。这样一来,在参考策略下,分位数奖励的分布会变成均匀分布,从而使配分函数有了解析形式。模型因此可以通过一个简单的点式回归目标来直接拟合最优策略,而无需依赖成对比较来抵消归一化项。

TGO
而本文介绍的TGO,回答的是同一问题的另一个切面。PMPO关注未配对的正负反馈,QRPO关注点式绝对奖励的可解析策略拟合,TGO则面向视觉生成模型,选择了一个更轻量级的阈值方案。

三者的共同点在于,它们都在尝试将偏好优化从“必须有配对数据”这一前提中解放出来。
TGO的核心:用阈值近似基线
TGO的方法看似简单,但并非随意设定一个阈值做二分类。其背后的推导源于KL正则化对齐目标。理论上,对于一个给定样本,最优策略是提高还是降低其概率,取决于其奖励是否超过某个与实例相关的“神谕”基线。但这个基线与配分函数相关,通常无法计算。
DPO通过成对比较使其抵消;QRPO通过分位数变换使其可解析;TGO则选择用一个数据驱动的全局阈值来近似它。

具体操作上,TGO首先从带分数数据集的分布中估计一个阈值(常用中位数)。随后,所有分数高于阈值的样本被视为“伪正例”,低于阈值的被视为“伪负例”。训练时,模型学习调整其相对于参考模型的对数似然比:对伪正例提高,对伪负例降低。
更进一步,TGO引入了置信度加权。样本分数离阈值越远,意味着将其判为正例或负例的置信度越高,该样本对训练的贡献权重也越大。分数接近阈值的样本则较为模糊,权重相应降低。
这样一来,TGO并未完全丢弃标量分数的幅度信息,而是将分数大小转化为了监督信号的强度。其规则可概括为两层:阈值决定更新方向,距离决定更新力度。这与普通的二值化标签不同,后者只保留正负信息,而TGO的置信度加权继续利用了分数偏离阈值的程度。对于视觉生成这类评分噪声较大、质量分布连续的任务,这一点尤为重要。
当然,TGO并不能消除对反馈质量本身的依赖。标量分数仍需与目标偏好足够相关;如果打分器本身存在偏差或噪声较大,阈值产生的伪标签也会继承这些偏差。因此,TGO解决的是如何更直接地利用标量反馈,而非替代反馈建模本身。
为什么视觉生成尤其适合标量反馈
在语言模型中,成对偏好很自然。人类比较两个回答哪个更好,往往比直接打分更稳定。但在视觉生成领域,情况有所不同。
一张图像的好坏,通常无法用简单的“胜过另一张”来概括。它可能在审美上出众,但提示词对齐稍弱;也可能语义准确,但构图平庸。此外,风格、色调、人物姿态、背景复杂度等偏好因素也更为主观。这些多维度的考量,更适合表达为一个连续分数或多个维度的评分。
视频生成则更为复杂。评估视频不仅要看单帧质量,还需考量运动合理性、时间一致性、主体稳定性、镜头变化以及文本对齐。将这些复杂的信号强行压缩成一个简单的成对偏好,往往会损失大量细节信息。
真实产品环境中的用户反馈也更接近标量或隐式反馈,例如点赞、收藏、点击、停留时长、评分,或对生成结果进行二次编辑。这些信号并非天然成对,却是模型迭代改进的宝贵数据来源。如果对齐方法只能处理“胜者/败者”标签,便很难充分利用这类反馈。
TGO瞄准的正是这一缺口。它不要求每个提示词下都有多个候选结果,也无需人工构造偏好对。只要每个样本有一个分数,就可以投入训练。这使得视觉生成模型的对齐过程,能够更贴近真实世界反馈的收集方式。
从图像到视频:TGO在多种视觉生成范式上验证
该研究的实验覆盖了两类主流的视觉生成范式:基于扩散的模型和基于掩码的生成模型。前者包括Stable Diffusion v1.5、FLUX、Wan 1.3B等,后者则包括Meissonic这类掩码生成式Transformer。这表明TGO并非只适配特定架构,而更像是一种通用的标量反馈对齐框架。
在图像生成实验中,研究者在Pick-a-Pic、PartiPrompts和HPSv2等多个测试集上评估TGO,并使用HPSv2.1、PickScore、ImageReward、CLIPScore、LAION审美评分等多个奖励模型作为评价指标。

结果显示,与SFT、CSFT、AlignProp、Diffusion-DPO、Diffusion-KTO、DSPO等方法相比,TGO在多种设置下都能取得更高的奖励模型分数。更重要的是,TGO在多个不同的奖励模型上均有提升,这说明它并非简单地“刷高”某一个特定打分器,而是在更广泛的视觉偏好维度上带来了真实的改进,缓解了“奖励黑客”的担忧。

在视频生成方面,基于LoRA的TGO-LoRA被应用于Wan 1.3B模型并结合VideoReward进行评估。结果表明,它不仅提升了整体的VideoReward分数,也改善了多个组件指标。这证明这种基于阈值的标量反馈对齐方法,有潜力从图像生成扩展到更复杂的视频生成任务。
不是替代DPO,而是补上另一种反馈接口
需要明确的是,TGO并非要否定DPO。成对偏好仍然非常重要,在许多任务中它依然是最稳定、最直观的反馈形式。尤其是当人类难以给出绝对分数,但能明确比较两个结果的优劣时,成对偏好具有不可替代的实用价值。
但问题在于,成对偏好不应该是唯一的接口。
随着生成模型深入更多真实应用场景,现实中的反馈并不会总是以“优选/被拒”配对的形式出现。语言模型会有奖励模型分数、可验证奖励、数学验证结果、代码通过率;图像模型会有审美分数、图文对齐分数、人类评分;视频模型涉及运动质量、时间一致性;多模态系统还会有点击、收藏、停留、编辑等用户行为信号。这些反馈大多是点式的,它们不告诉模型“这个比那个好”,而是告诉模型“这个结果本身有多好”。如果对齐方法只能处理比较数据,就会错过大量自然存在的监督信号。
PMPO、QRPO和TGO的共同意义,正在于将偏好优化从成对监督扩展到更一般的反馈优化。PMPO展示了未配对的正负反馈如何被纳入概率推断式的策略改进;QRPO证明了绝对奖励如何通过分位数奖励进入可解析的策略拟合;TGO则说明,在视觉生成中,一个经验阈值加上置信度权重,就足以将标量分数转化为有效的对齐信号。
为什么这件事现在值得认真对待?因为生成模型越贴近产品,反馈形态就越复杂。早期的对齐研究可以假设存在干净的偏好对数据,但真实用户不会总是配合系统做A/B测试。更多时候,系统拿到的是一个分数、一次点击、一次收藏或一次修改。这些信号看似零散,却可能构成下一阶段后训练的主要数据来源。
对于视觉生成尤其如此。图像和视频的质量本质上是审美、语义、结构、运动、风格和个体偏好的综合结果。直接从标量反馈中学习,可能比先构造成对偏好更自然,也更容易扩展。
TGO的价值正在于此。它没有将问题复杂化,而是用一种相当克制的方式,将标量反馈接入了KL正则化对齐目标。理论上,它用经验阈值近似了不可计算的神谕基线;工程上,它只需要带分数的样本就能训练;实践上,它能同时覆盖扩散模型和掩码生成模型范式,并在图像和视频任务上带来稳定提升。
这或许是生成模型对齐迈向下一步的关键:模型不能只会从“谁赢了”中学习,也必须学会理解“这个结果到底有多好”。

回顾过去,偏好优化的主流接口是成对比较。这个接口足够清晰,也催生了DPO、GRPO等简洁有效的方法。
但随着生成模型进入更复杂的应用场景,反馈本身正变得日益多样。评分、通过率、奖励模型输出、用户行为日志、编辑操作……这些点式信号将越来越常见。
TGO给出的答案很直接:不一定非要把它们都折叠成“胜者”和“败者”。对于视觉生成模型,只要找到一个合理的阈值,就可以将标量分数转化为更新方向;再利用分数与阈值的距离,来衡量这个监督信号的可信度。
这并不是一个复杂的重型系统,而更像是在把真实反馈中本就存在的信息,以更直接的方式交给模型去学习。
如果说DPO让偏好优化摆脱了复杂的强化学习流程,那么TGO、QRPO和PMPO这类工作,正在让偏好优化进一步摆脱对成对比较的强依赖。生成模型对齐的下一步,或许不只是继续追问“哪个更好”,而是要让模型真正学会评估:“这个,到底有多好。”
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
通用世界模型问世机器人将具备自主进化与认知能力
33天后,你家或许就要迎来一位不知疲倦的硅基新成员了。 它将面对的是日复一日的家庭琐事:随处散落的衣物、孩子扔在地上的玩具、桌边摇摇欲坠的杯子,或是被猫咪“重新布置”过的客厅……这些看似永远做不完的家务,正是家庭服务机器人需要攻克的核心场景。关键在于,它能24小时在线工作,并且通过持续学习,越干越明
腾讯混元大模型正式上线姚顺雨团队主导研发
腾讯混元的新一代模型,Hy3 preview,刚刚揭开面纱。 这不仅是混元团队在架构与基础设施层面重新出发后的首个版本,更因其“实用性”的明确标签而备受关注。首批发布的模型尺寸相对较小,目标直指落地应用。同样引人注目的是,这也是AI专家姚顺雨归国加盟腾讯后交出的首份重要答卷,其背后贯彻的正是他所倡导
月之暗面Kimi浏览器插件安装与使用指南
月之暗面推出KimiWebBridge浏览器扩展,使本地AI助手能直接操作已登录的浏览器。该工具复用用户会话状态,可自动执行网页导航、表单填写及数据抓取等任务,所有处理均在本地完成以保障隐私。它支持与主流AI代理框架集成,并能将常用流程编译为命令行工具以提升效率。
OpenClaw养虾守护进程安装与使用指南
要让你的OpenClaw智能体实现7x24小时稳定在线与可靠运行,后台守护进程是至关重要的核心组件。它如同一位全天候值守的智能管家,不仅默默维持着Agent核心服务的生命线,还负责管理所有外部渠道的连接会话,并确保各类定时任务能够被精准、准时地调度与执行。 所有涉及守护进程生命周期管理的操作,都通过
PowerShell执行openclaw命令报错解决方法
许多开发者在Windows系统中配置开发工具时,都会遇到一个典型的权限问题:在PowerShell终端中输入openclaw指令后,系统提示无法执行相关脚本。 无法加载文件 C: Users xxx AppData Roaming npm openclaw ps1,因为在此系统上禁止运行脚本。 这一
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

