北大联合小红书提出Uni-Instruct：ImageNet单步生图迈进FID 1.0时代

首页

热心网友

转载

2025-10-30

来自北京大学、小红书 hi-lab 等机构的华人研究者们共同提出了一项名为 Uni-Instruct 的单步生成大一统理论框架，目前该成果已被 NeurIPS 2025 接收。这一框架不仅在理论上统一了十余种现有的单步扩散模型蒸馏方法，还在多项生成任务中取得了当前最优（SoTA）的性能表现。

近年来，单步扩散模型因其卓越的生成能力和高效的推理速度，在图像生成、文本到视频转换、图像编辑等领域的表现尤为亮眼。目前主流的训练方法是通过知识蒸馏，最小化学生模型与教师扩散模型之间的分布差异。然而，现有方法主要沿着两条平行的技术路线发展：

基于 KL 散度最小化的方法（如 Diff-Instruct[1]、DMD[2] 等）：收敛速度快，但可能存在模式崩溃风险，进而影响生成质量。基于分数散度最小化的方法（如 SIM[3]、SiD[4] 等）：生成效果更稳定，但训练收敛速度相对较慢。

这两条技术路线在理论上似乎相互割裂。那么，我们能否在一个统一的框架下将它们整合起来？如果可以，这个统一的理论框架能否带来更强大的模型性能？

来自北京大学与小红书 hi-lab 等机构的研究团队提出的 Uni-Instruct 框架，成功打破了单步生成模型领域的技术壁垒。该框架不仅从理论层面统一了超过十种现有的单步扩散蒸馏方法，更在多项基准测试中刷新了性能纪录。

论文标题：Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

论文地址：https://arxiv.org/abs/2505.20755v4

代码库：https://github.com/a-little-hoof/Uni_Instruct

研究单位：北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab

论文作者：Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun

特别值得注意的是，通过基于展开的 Jeffrey-KL 散度（Expanded Jeffrey-KL divergence）进行 Uni-Instruct 蒸馏得到的单步图像生成模型，在 ImageNet-64 数据集上取得了历史最低的 1.02 单步生成 FID 指标，这一成绩甚至超越了需要 1000 步采样的标准扩散模型（详见论文图2右表）。

核心贡献：Uni-Instruct 理论框架

研究团队提出了名为 Uni-Instruct 的统一理论框架，其核心创新在于引入了 f-散度扩散展开定理（diffusion expansion theory of the f-divergence family）。

简单来说，该定理推广了 De Bruijin 等式，将静态的数据空间教师模型与单步生成模型之间的 f-散度展开为沿着扩散过程的动态散度积分。

虽然原始的展开形式难以直接优化，但团队通过引入新的梯度等价定理，推导出了一个等价的且可计算的目标函数。

最令人惊喜的是，最终得到的目标函数梯度恰好是 Diff-Instruct（DI）梯度和 Score Implicit Matching（SIM）梯度的加权组合！

通过选择不同的 f-散度函数（如 KL 散度、卡方散度等），Uni-Instruct 能够复现出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角，也标志着单步扩散模型理论体系走向统一。

图注 1：Uni-Instruct 单步生成模型在不同基准数据集上的生成效果。左：CIFAR10（无条件生成）；中：CIFAR10（有条件生成）；右：ImageNet 64x64（有条件生成）。可以清晰看到，生成样本的质量和多样性都达到了出色水准。

图注 2：Uni-Instruct 单步生成模型在不同基准数据集上的评测效果。左：CIFAR10（无条件生成）；右：ImageNet 64x64（有条件生成）。可见该模型在两个榜单上都展现出显著的性能和效率优势。

实验结果

Uni-Instruct 在多个主流基准测试中打破了性能纪录：

CIFAR10 数据集：

a. 无条件生成 FID 达到 1.46。

b. 条件生成 FID 达到 1.38。

ImageNet 64x64 数据集：

a. 条件生成 FID 取得 1.02 的突破性成绩，明显优于需要 79 步采样的教师模型（1.02 vs 2.35）！

这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等此前所有单步生成模型，甚至大幅超越了需要 1000 步采样的标准扩散模型。

更广泛的应用：文本到 3D 生成

Uni-Instruct 的影响力不仅限于 2D 图像领域。研究团队成功将其应用于文本到 3D 生成任务，作为一种知识迁移方法，用以指导 NeRF 模型的优化过程。

实验结果表明，与 SDS 和 VSD 等现有方法相比，Uni-Instruct 能够在生成 3D 内容的质量和多样性方面取得更优异的表现。

图注 3：左图为 ProlificDreamer 生成结果，右图为 Uni-Instruct 生成效果

总结与展望

Uni-Instruct 提供了一个坚实的理论基础，成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论统一不仅带来了对高效扩散模型的深刻理解，其卓越的实证性能也为高效生成模型的未来研究开辟了新的方向。这项工作是高效生成模型领域的一次重要理论突破，我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索！

本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本文通讯作者罗维健在北京大学数学学院取得博士学位，现于小红书 hi-lab 担任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。