当前位置: 首页
AI资讯
北大联合小红书提出Uni-Instruct:ImageNet单步生图迈进FID 1.0时代

北大联合小红书提出Uni-Instruct:ImageNet单步生图迈进FID 1.0时代

热心网友 时间:2025-10-30
转载

来自北京大学、小红书 hi-lab 等机构的华人研究者们共同提出了一项名为 Uni-Instruct 的单步生成大一统理论框架,目前该成果已被 NeurIPS 2025 接收。这一框架不仅在理论上统一了十余种现有的单步扩散模型蒸馏方法,还在多项生成任务中取得了当前最优(SoTA)的性能表现。

近年来,单步扩散模型因其卓越的生成能力和高效的推理速度,在图像生成、文本到视频转换、图像编辑等领域的表现尤为亮眼。目前主流的训练方法是通过知识蒸馏,最小化学生模型与教师扩散模型之间的分布差异。然而,现有方法主要沿着两条平行的技术路线发展:

基于 KL 散度最小化的方法(如 Diff-Instruct[1]、DMD[2] 等):收敛速度快,但可能存在模式崩溃风险,进而影响生成质量。基于分数散度最小化的方法(如 SIM[3]、SiD[4] 等):生成效果更稳定,但训练收敛速度相对较慢。

这两条技术路线在理论上似乎相互割裂。那么,我们能否在一个统一的框架下将它们整合起来?如果可以,这个统一的理论框架能否带来更强大的模型性能?

来自北京大学与小红书 hi-lab 等机构的研究团队提出的 Uni-Instruct 框架,成功打破了单步生成模型领域的技术壁垒。该框架不仅从理论层面统一了超过十种现有的单步扩散蒸馏方法,更在多项基准测试中刷新了性能纪录。

论文标题:Uni-Instruct: One-step Diffusion Model through Unified Diffusion Divergence Instruction

论文地址:https://arxiv.org/abs/2505.20755v4

代码库:https://github.com/a-little-hoof/Uni_Instruct

研究单位:北京大学未来技术学院、国家生物医学成像中心、北京大学前沿交叉学科研究院、小红书 hi-lab

论文作者:Yifei Wang, Weimin Bai, Colin Zhang, Debing Zhang, Weijian Luo, He Sun

特别值得注意的是,通过基于展开的 Jeffrey-KL 散度(Expanded Jeffrey-KL divergence)进行 Uni-Instruct 蒸馏得到的单步图像生成模型,在 ImageNet-64 数据集上取得了历史最低的 1.02 单步生成 FID 指标,这一成绩甚至超越了需要 1000 步采样的标准扩散模型(详见论文图2右表)。

核心贡献:Uni-Instruct 理论框架

研究团队提出了名为 Uni-Instruct 的统一理论框架,其核心创新在于引入了 f-散度扩散展开定理(diffusion expansion theory of the f-divergence family)。

简单来说,该定理推广了 De Bruijin 等式,将静态的数据空间教师模型与单步生成模型之间的 f-散度展开为沿着扩散过程的动态散度积分。

虽然原始的展开形式难以直接优化,但团队通过引入新的梯度等价定理,推导出了一个等价的且可计算的目标函数。

最令人惊喜的是,最终得到的目标函数梯度恰好是 Diff-Instruct(DI)梯度和 Score Implicit Matching(SIM)梯度的加权组合!

通过选择不同的 f-散度函数(如 KL 散度、卡方散度等),Uni-Instruct 能够复现出包括 Diff-Instruct[1]、DMD[2]、f-distill[5]、SIM[3]、SiD[4] 在内的十余种现有方法的损失函数。这不仅为理解现有工作提供了全新的高层视角,也标志着单步扩散模型理论体系走向统一。

图注 1:Uni-Instruct 单步生成模型在不同基准数据集上的生成效果。左:CIFAR10(无条件生成);中:CIFAR10(有条件生成);右:ImageNet 64x64(有条件生成)。可以清晰看到,生成样本的质量和多样性都达到了出色水准。

图注 2:Uni-Instruct 单步生成模型在不同基准数据集上的评测效果。左:CIFAR10(无条件生成);右:ImageNet 64x64(有条件生成)。可见该模型在两个榜单上都展现出显著的性能和效率优势。

实验结果

Uni-Instruct 在多个主流基准测试中打破了性能纪录:

CIFAR10 数据集:

a. 无条件生成 FID 达到 1.46。

b. 条件生成 FID 达到 1.38。

ImageNet 64x64 数据集:

a. 条件生成 FID 取得 1.02 的突破性成绩,明显优于需要 79 步采样的教师模型(1.02 vs 2.35)!

这些结果全面超越了 Diff-Instruct、Score Implicit Matching、f-distill、SiDA、DMD、Consistency Model 等此前所有单步生成模型,甚至大幅超越了需要 1000 步采样的标准扩散模型。

更广泛的应用:文本到 3D 生成

Uni-Instruct 的影响力不仅限于 2D 图像领域。研究团队成功将其应用于文本到 3D 生成任务,作为一种知识迁移方法,用以指导 NeRF 模型的优化过程。

实验结果表明,与 SDS 和 VSD 等现有方法相比,Uni-Instruct 能够在生成 3D 内容的质量和多样性方面取得更优异的表现。

图注 3:左图为 ProlificDreamer 生成结果,右图为 Uni-Instruct 生成效果

总结与展望

Uni-Instruct 提供了一个坚实的理论基础,成功地将十余种看似不同的扩散模型蒸馏方法囊括在一个统一的框架之下。这种理论统一不仅带来了对高效扩散模型的深刻理解,其卓越的实证性能也为高效生成模型的未来研究开辟了新的方向。这项工作是高效生成模型领域的一次重要理论突破,我们期待它能激发更多关于扩散模型知识迁移和高效生成的前沿探索!

本工作由北京大学计算科学成像实验室本科生王翼飞与博士生柏为民合作完成。本文通讯作者罗维健在北京大学数学学院取得博士学位,现于小红书 hi-lab 担任多模态大模型研究员。末位作者为北京大学未来技术学院孙赫助理教授。

来源:https://www.51cto.com/article/828308.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

蚂蚁开源万亿参数思考模型Ring-2.5-1T详解

Ring-2 5-1T是什么 在当今大模型技术激烈竞争的赛道上,追求更长的上下文处理能力和更强大的深度推理性能已成为核心焦点。近日,蚂蚁集团旗下的inclusionAI团队重磅开源了Ring-2 5-1T模型,这是一个参数规模高达万亿级别的混合线性思考大语言模型。该模型基于先进的Ling 2 5架构

时间:2026-05-23 22:59
Teamily AI:原生智能通讯平台,开启人机协作新纪元

Teamily AI:原生智能通讯平台,开启人机协作新纪元

Teamily AI是什么 想象一下,你手机里的微信群聊,除了家人朋友同事,还多了一位特殊的“成员”——它从不缺席,能瞬间理解所有对话,还能帮你处理图片、视频甚至写报告。这不再是科幻场景,而是南加州大学团队带来的现实:全球首个AI原生即时通讯平台,Teamily AI。 它的核心思路很巧妙:不再把A

时间:2026-05-23 22:58
字节跳动Seedream 5.0 Lite AI图像生成模型详解

字节跳动Seedream 5.0 Lite AI图像生成模型详解

Seedream 5 0 Lite是什么 在AI图像生成技术飞速发展的今天,字节跳动Seed团队正式推出了其重磅升级产品——Seedream 5 0 Lite。作为Seedream 4 0的迭代版本,这款全新的AI绘画模型在文本理解、视觉推理与图像生成三大核心维度上实现了显著突破。 该模型采用了创新

时间:2026-05-23 22:58
WorkAny Bot云端AI助手基于OpenClaw框架详解

WorkAny Bot云端AI助手基于OpenClaw框架详解

WorkAny Bot是什么 想象一下,有一个永不掉线的智能助手,它住在云端,随时准备响应你的召唤。这就是WorkAny Bot——一个基于OpenClaw AI框架构建的云端智能体。它的核心价值在于,将强大的AI能力变成一项即开即用的服务。 你可以把它理解为你私人的、功能齐全的AI工作站。它支持接

时间:2026-05-23 22:58
KiloClaw推出全托管云服务OpenClaw

KiloClaw推出全托管云服务OpenClaw

KiloClaw是什么 想快速拥有一个能接入几十个聊天平台、还能执行系统命令的AI助手,但一听到要自己部署维护就头疼?这确实是很多开发者和团队面临的现实困境。OpenClaw这个开源项目功能强大,支持50多种平台,可真要自己从零搭建,光是配置环境可能就得折腾半小时以上,后续的更新、监控更是麻烦事。

时间:2026-05-23 22:57
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程