ICCV 2025：港科与牛津推出AlignGuard，革新文生图模型对齐框架

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

ICCV 2025：港科与牛津推出AlignGuard，革新文生图模型对齐框架

热心网友时间：2025-10-31

转载

当前文本到图像生成模型普遍面临安全防护不足的挑战，这使得用户可能无意识或故意地生成包含有害内容的图像，进而造成潜在滥用风险。AlignGuard 创新性地提出了一种基于直接偏好优化（DPO）的安全对齐方法。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

本文由香港科技大学计算机科学方向的博士研究生刘润涛和陈弈杰共同完成，研究聚焦于多模态生成模型与偏好优化的前沿领域。

1. 背景介绍

随着文图生成模型在各行各业快速普及，其内置的有限安全防护机制往往难以有效防范用户生成有害图像内容。现有安全措施主要依赖于文本过滤或概念移除策略，只能从模型的生成能力中剔除少数几个特定概念。

在ICCV 2025会议上，AlignGuard推出了通过直接偏好优化训练文图生成模型的全新安全对齐框架。通过构建包含有害与安全图像文本对的数据集CoProV2，该研究使DPO技术能够规模化应用于文图生成模型的安全防护。AlignGuard的创新架构允许针对不同有害概念引入独立的安全专家模块，通过训练低秩适应（LoRA）矩阵来引导模型减少生成特定有害内容。

2. AlignGuard 安全对齐框架

这项工作的核心贡献在于提出面向扩散模型的可规模化安全对齐方案。通过生成针对安全内容的文图数据集，AlignGuard的训练框架能够在保持原始图像生成质量的同时，有效去除图片中的有害元素。

2.1 CoProv2 数据集构建

AlignGuard率先围绕多种有害概念，构建了包含安全和不安全的图像文本对数据集CoProV2。该数据集针对不同有害概念，利用大语言模型生成一系列具有相似语义的有害与安全提示词对，并为每个提示词生成对应的图像样本。

相较于现有的人造数据集如UD和I2P缺少文本数据对应图像，CoProV2在规模和完整性方面更具优势，能够提供高质量的文本-图像对应关系。同时该数据集在保留一定程度的原生内容基础上，专门优化了适用于直接偏好优化的安全对齐训练。

2.2 AlignGuard 的训练架构设计

针对CoProV2中不同的安全类别，AlignGuard运用直接偏好优化技术为各个安全类别分别训练专用的LoRA矩阵，涵盖"仇恨言论"、"成人内容"、"暴力场景"等多个类别。在训练过程中，每个专家模块专注于学习特定领域的安全特征，确保高效的概念移除效果。最终，这些独立的LoRA矩阵将被合并为单一矩阵，从而构建能够全面预防各类有害提示词的安全文图生成模型。

2.3 LoRA 专家合并策略

为实现不同安全专家模块的有效整合，AlignGuard基于各专家的信号强度进行权重分析，并以此制定合并策略将多个LoRA专家整合为单一模型，从而在计算效率与安全性之间达到最佳平衡。该合并方案充分考虑了不同安全类别之间的相互作用，确保融合后的模型在所有安全维度上都能保持稳定性能。

3. 实验结果

3.1 生成定量结果

AlignGuard在CoProV2有害概念移除任务中表现优异，其移除的有害概念数量比现有方法高出7倍，同时保持了图像生成质量与文本对齐程度。在未见数据集I2P和UD上也显著优于现有方案，表明该框架在面对新的有害概念时仍能保持稳健的安全性能。

3.2 生成定性结果

与未经安全对齐的基线模型相比，AlignGuard能够在包含有害词语的提示词上生成更加安全的图像内容。该安全对齐策略的精妙之处在于，仅针对有害元素进行精准去除，而不会过度影响图像的核心内容。

3.3 专家 LoRA 合并策略分析

相较于为每个安全概念单独训练专家模型并直接使用，AlignGuard展示了合并不同专家模型能够更有效地去除有害内容。

与加权平均等传统LoRA矩阵合并策略相比，AlignGuard的信号权重合并方案能够在有效降低有害内容生成的同时，保持模型的图像品质与图文对齐度。该合并策略有效平衡了不同安全专家之间的权重分配，避免专家间的冲突并最大化整体安全性能。

4. 总结

文本到图像生成模型在缺乏有效安全措施的情况下，确实存在被用户滥用的风险。AlignGuard提出的基于直接偏好优化（DPO）的安全对齐方案，为解决这一难题提供了创新思路。该框架的核心突破体现在三个方面：首先，将直接偏好优化技术规模化应用于文图生成模型的安全领域；其次，采用专家系统架构，针对不同有害图像类别训练专门的LoRA矩阵，然后通过模型信号强度构建权重并整合为单一LoRA，显著提升了计算效率；最后，构建了包含有害与无害图文对的数据集CoProV2，为直接偏好优化训练提供坚实基础。这种创新方法在保持模型生成质量的同时，能够移除比基准方法多7倍的有害概念。

来源:https://www.51cto.com/article/828467.html

上一篇： Python新星uv解析：如何重塑十年生态系统开发效率

下一篇：人大清华DeepAnalyze：用大模型实现数据分析智能升级