北大联合小红书提出Uni-Instruct:ImageNet单步生图迈进FID 1.0时代

来自北京大学、小红书 hi-lab 等机构的华人研究者们共同提出了一项名为 Uni-Instruct 的单步生成大一统理论框架,目前该成果已被 NeurIPS 2025 接收。这一框架不仅在理论上统一了十余种现有的单步扩散模型蒸馏方法,还在多项生成任务中取得了当前最优(SoTA)的性能表现。
近年来,单步扩散模型因其卓越的生成能力和高效的推理速度,在图像生成、文本到视频转换、图像编辑等领域的表现尤为亮眼。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有方法主要沿着两条平行的技术路线发展:
基于 KL 散度最小化的方法(如 Diff-Instruct[1]、DMD[2] 等):收敛速度快,但可能存在模式崩溃风险,进而影响生成质量。基于分数散度最小化的方法(如 SIM[3]、SiD[4] 等):生成效果更稳定,但训练收敛速度相对较慢。
这两条技术路线在理论上似乎相互割裂。那么,我们能否在一个统一的框架下将它们整合起来?如果可以,这个统一的理论框架能否带来更强大的模型性能?
来自北京大学与小红书 hi-lab 等机构的研究团队提出的 Uni-Instruct 框架,成功打破了单步生成模型领域的技术壁垒。该框架不仅从理论层面统一了超过十种现有的单步扩散蒸馏方法,更在多项基准测试中刷新了性能纪录。

论文标题:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction
论文地址:https://arxiv.org/abs/2505.20755v4
代码库:https://github.com/a-little-hoof/Uni_Instruct
研究单位:北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab
论文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun
特别值得注意的是,通过基于展开的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)进行 Uni-Instruct 蒸馏得到的单步图像生成模型,在 ImageNet-64 数据集上取得了历史最低的 1.02 单步生成 FID 指标,这一成绩甚至超越了需要 1000 步采样的标准扩散模型(详见论文图2右表)。
核心贡献:Uni-Instruct 理论框架
研究团队提出了名为 Uni-Instruct 的统一理论框架,其核心创新在于引入了 f-散度扩散展开定理(diffusion expansion theory of the f-divergence family)。

简单来说,该定理推广了 De Bruijin 等式,将静态的数据空间教师模型与单步生成模型之间的 f-散度展开为沿着扩散过程的动态散度积分。
虽然原始的展开形式难以直接优化,但团队通过引入新的梯度等价定理,推导出了一个等价的且可计算的目标函数。

最令人惊喜的是,最终得到的目标函数梯度恰好是 Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的加权组合!

通过选择不同的 f-散度函数(如 KL 散度、卡方散度等),Uni-Instruct 能够复现出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角,也标志着单步扩散模型理论体系走向统一。


图注 1:Uni-Instruct 单步生成模型在不同基准数据集上的生成效果。左:CIFAR10(无条件生成);中:CIFAR10(有条件生成);右:ImageNet 64x64(有条件生成)。可以清晰看到,生成样本的质量和多样性都达到了出色水准。

图注 2:Uni-Instruct 单步生成模型在不同基准数据集上的评测效果。左:CIFAR10(无条件生成);右:ImageNet 64x64(有条件生成)。可见该模型在两个榜单上都展现出显著的性能和效率优势。
实验结果
Uni-Instruct 在多个主流基准测试中打破了性能纪录:
CIFAR10 数据集:
a. 无条件生成 FID 达到 1.46。
b. 条件生成 FID 达到 1.38。
ImageNet 64x64 数据集:
a. 条件生成 FID 取得 1.02 的突破性成绩,明显优于需要 79 步采样的教师模型(1.02 vs 2.35)!
这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等此前所有单步生成模型,甚至大幅超越了需要 1000 步采样的标准扩散模型。
更广泛的应用:文本到 3D 生成
Uni-Instruct 的影响力不仅限于 2D 图像领域。研究团队成功将其应用于文本到 3D 生成任务,作为一种知识迁移方法,用以指导 NeRF 模型的优化过程。
实验结果表明,与 SDS 和 VSD 等现有方法相比,Uni-Instruct 能够在生成 3D 内容的质量和多样性方面取得更优异的表现。

图注 3:左图为 ProlificDreamer 生成结果,右图为 Uni-Instruct 生成效果
总结与展望
Uni-Instruct 提供了一个坚实的理论基础,成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论统一不仅带来了对高效扩散模型的深刻理解,其卓越的实证性能也为高效生成模型的未来研究开辟了新的方向。这项工作是高效生成模型领域的一次重要理论突破,我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索!
本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本文通讯作者罗维健在北京大学数学学院取得博士学位,现于小红书 hi-lab 担任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
360智能体平台发布,助力政企全链路智能化转型
在近日举办的一场聚焦人工智能领域的重要活动中,360集团面向政企市场推出了具有里程碑意义的企业级智能体解决方案。该平台凭借覆盖L2至L4全阶段的技术能力,成为全球首个实现智能体全生命周期管理的企业级
AI存储需求激增 大容量SSD供应趋紧 厂商扩产应对短缺
存储器行业正迎来新一轮发展热潮,主要厂商近期纷纷调整产品价格策略以应对市场变化。据行业消息,三星与SK海力士已率先上调今年第四季度DRAM及NAND闪存报价,部分型号涨幅最高触及30%,这一调整预计
OpenAI路线图:2026年AI研究助理,2028年进阶科学家
在近期的一场公开直播活动中,OpenAI首席执行官萨姆·奥特曼向外界透露了该公司正在推进的深度学习技术发展蓝图。他指出,当前人工智能系统的能力提升正呈现“指数级”增长态势,并预测到2026年9月前,
联想戴炜揭秘:AI如何破解城市普惠难题,加速智慧城市4.0落地
在深圳举办的2025世界数字城市大会上,联想集团高级副总裁、中国方案服务业务群总经理戴炜以《城市超级智能体 引领智慧城市4 0》为题发表演讲,系统阐释了联想在混合式人工智能赋能智慧城市领域的创新实践
亚马逊裁员1.4万人背后:AI重塑未来架构,精简运营成趋势
全球电商领军企业亚马逊近日宣布了一项重大人事调整计划。据公司高层透露,为优化运营效率并加速人工智能技术布局,将削减约1 4万个公司管理岗位。这一决策被视为企业应对行业变革的关键举措。人力体验与技术部
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程








