当前位置: 首页
业界动态
OpenAI参与,重卷ImageNet:终于把FID做成训练

OpenAI参与,重卷ImageNet:终于把FID做成训练

热心网友 时间:2026-05-06
转载

统治AI图像生成近10年的黄金标准,第一次被拉下场当了教练

这里说的是FID(Frechet Inception Distance)。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

自2017年诞生以来,这个指标一直是评估生成模型质量的“金科玉律”,但有个尴尬的现实:它始终无法直接用于日常训练。原因很简单,计算FID需要数万张图片的统计分布,而GPU单次训练能处理的批次(batch)通常只有几百到几千张。强行把数万样本塞进反向传播,显存恐怕会立刻“罢工”。

如今,这个窘境被打破了。

来自南加州大学(USC)、卡内基梅隆大学(CMU)、香港中文大学(CUHK)和OpenAI的全华人研究团队,提出了一个名为FD-loss的方法。其核心思想堪称“四两拨千斤”:将“用于统计的样本池”和“用于计算梯度的批次”彻底解耦。

具体来说,他们利用一个由数万张图像特征组成的大容量缓存队列,或者采用指数移动平均(EMA)机制,来稳定地估算真实与生成数据的整体分布。而梯度回传,则仅针对当前训练的小批量数据进行。这样一来,长期被束之高阁的FID,终于能作为训练损失函数,直接指导模型的优化过程了。

实验结果令人眼前一亮:

  • 一个现成的单步生成器,经过微调后,在ImageNet 256×256数据集上FID直接刷到0.72,而且推理成本没有丝毫增加。
  • 一个原本需要50步采样的多步扩散模型,被他们“重新利用”为单步生成器,无需复杂的教师蒸馏或对抗训练,效果依然能打。
  • 最碘伏认知的发现或许是:FID数值最优的模型,视觉观感未必最好。那些基于DINOv2、MAE、SigLIP等现代视觉表征训练的模型,虽然FID分数可能不如基于老牌Inception架构优化的版本,但生成图像的物体结构完整性和细节还原度却明显更胜一筹。

这引出了一个更深层的问题:行业长期扎堆优化的FID分数,或许早已触及性能瓶颈,甚至可能将研究引入歧途。

为此,团队提出了一个更鲁棒的新评估标准:对6种不同表征空间计算归一化弗雷歇特距离(FD)并取平均,得到综合指标FDrk。按照这个新标准,真实验证集的基准值为1.0,而当前顶尖生成模型的数值仍高达1.89。

这足以说明,在ImageNet级别的图像生成任务上,技术远未成熟。

解耦统计量与梯度计算

FID的核心逻辑是衡量生成图像分布与真实图像分布的接近程度。数值越小,代表越逼真。传统上,它只是个“事后裁判”,无法参与训练。

新研究的破局点,就在于“解耦”二字。

研究团队用一个大窗口(队列或EMA)来稳定估算全局的均值与协方差,确保FD计算准确无误;同时,梯度计算只作用于当前的小批量数据,完美避开了显存爆炸的难题。

他们设计了两种工程实现方案:

第一种是队列法(Queue)。维护一个超大特征队列(例如5万条),每次新批次生成,就入队最新特征,同时踢出最旧的特征。计算FD时,使用整个队列的统计量;反向传播时,只对当前批次的特征计算梯度。历史特征不参与梯度更新,从而在保证统计稳健性的同时,不增加额外训练开销。

第二种是指数移动平均法(EMA)。这种方法更巧妙,它根本不存储具体特征,而是通过平滑更新的方式,实时维护生成样本特征的一阶矩和二阶矩估计。每一步都用当前批次的统计量去更新这个全局估计。同样,梯度也只作用于当前批次。这种方法显存占用极低,统计结果更平滑,还能轻松适配多表征空间的联合优化,在实验中表现更优,也成为论文默认的方案。

为了验证解耦机制的有效性,研究者在最小的pMF-B/16模型上做了两组消融实验。

第一组对比队列长度。不用队列时,FID反而从3.31劣化到3.84。当队列长度增加到5万时,FID骤降至0.89;但盲目堆到50万后,由于历史特征过于陈旧,性能指标FDr6直接崩回17.67。

第二组对比EMA衰减率。当β=0.999时,FID达到最佳的0.81,优于队列法,也显著好于衰减过快(β=0.9,FID 0.98)或过慢(β=0.9999,FID 0.98)的情况。因此,后续所有实验均默认采用EMA方案。

三个“反常识”的实验发现

FD-loss本质上是一个轻量级的后训练分布对齐目标。它的工作流程非常简洁:从一个预训练好的生成器出发,只用FD-loss进行微调。真实图像的统计量(均值和协方差)只需在离线阶段计算一次并保存,之后模型再也“见不到”真图,只对着自己生成的样本进行自我修正和分布对齐。

这意味着它无需改动原有模型架构,无需从头训练,也无需依赖教师蒸馏或对抗学习,就像一个即插即用的“质量增强插件”。无论是像素空间还是隐空间模型,单步还是多步架构,都能无缝接入。

正是基于这个轻量框架,研究团队系统性地探索了当FID真正成为损失函数后,会发生什么。结果带来了三个重要的反常识发现。

发现一:FD-loss让单步生成模型首次实现画质与速度的双重突破。研究者选取了一个已训练好的单步生成器pMF-H,仅用FD-loss微调100轮。结果在ImageNet 256×256上,FID从2.29大幅降至0.77,同时依然保持1步生成。这一成绩甚至超越了以往多步扩散模型的最佳水平,打破了“高质量必须多步采样”的固有认知。换句话说,推理成本一分没加,画质却实现了跃升。同样的操作在隐空间模型iMF-XL上也奏效,FID从1.82压到了0.76。更重要的是,这种提升并非“刷分”,定性对比显示,微调后的图像细节(如鹦鹉羽毛、雪豹斑点)明显更加清晰锐利。

发现二:FD-loss能将成熟的多步扩散模型直接改造为高性能单步生成器。研究者将原本设计为50步采样的多步模型JiT-L,强行切换到单步模式(输入纯噪声,只推理一次)。结果可想而知,FID崩坏至291.59,图像糊成一片。然而,他们仅用FD-loss对这个“残疾”的单步模式进行微调,不引入任何蒸馏或对抗训练。50轮后,FID从291骤降至0.77,生成质量与原多步模型相当甚至更优,推理速度却提升了数十倍。

发现三:FID最低的,未必是人眼最喜欢的。这是最具行业反思价值的发现。当研究者在不同视觉表征空间(如Inception-v3, DINOv2, MAE等)中应用FD-loss时,出现了诡异的分歧:基于老牌Inception特征优化的模型能获得最低的FID分数,但其生成图像在物体结构、细节纹理和整体感知质量上,却弱于使用DINOv2、MAE等现代视觉表征训练的模型。后者FID数值可能更高,但人眼主观评价却更好。这直接警示我们,过度追求FID这一单一指标,可能会让模型优化偏离人类视觉感知的真实方向。

团队提出新标准

那么,如果FID已不可全信,我们该如何更全面地评估生成模型的进步?

研究团队提出了一个跨6种表征空间的归一化平均指标:FDrk。该指标通过对Inception-v3、ConvNeXtv2、DINOv2、MAE、SigLIP2、CLIP这6种不同且互补的视觉表征空间分别计算归一化FD比值,然后取平均值得到FDr6。这相当于组建了一个“评审团”,综合多维度意见,评估结果自然更鲁棒。

按照这一新标准,真实验证集的基准值为1.0,而当前最强的生成模型FDr6仍高达1.89,直观地揭示了ImageNet级别图像生成任务仍有巨大提升空间。此外,在人类盲选偏好实验中,即便最优的pMF-H模型,得票率也仅为37.4%,真实图片仍以62.6%的胜率占据绝对优势。

值得一提的是,FD-loss的实用门槛极低。它作为一个轻量级后训练插件,无需修改主干网络结构,不引入复杂架构改动,也避免了从头训练的巨额开销。无论是像素空间还是隐空间模型,单步还是多步生成器,条件生成还是文生图任务,它都能即插即用,通过队列或EMA机制稳定收敛。

这种简洁而通用的设计,极大地降低了实现高质量、极速生成模型的工程门槛,让各类现有架构都能快速获得显著的感知质量提升。低成本、高回报,这正是FD-loss对工业界产生巨大吸引力的关键所在。

团队介绍

这项工作的作者团队是一支全华人力量。

一作Jiawei Yang,南加州大学(USC)计算机系博士生,师从Yue Wang教授,研究方向聚焦于以视觉为中心的多模态模型的统一生成与理解。他硕士毕业于加州大学洛杉矶分校(UCLA),曾获NVIDIA研究生奖学金。

Zhengyang Geng,本科毕业于四川大学计算金融专业,现为卡内基梅隆大学(CMU)计算机科学博士生,导师为Zico Kolter。他长期专注于单步生成、动态系统与模型高效化,是MeanFlow、pMF等系列工作的核心作者。其个人主页显示“与Kaiming He有紧密合作”,两人已连续合作发表多篇单步生成领域的核心论文。

Xuan Ju,香港中文大学(CUHK)博士生,师从徐强教授,主攻图像与视频生成、高效多模态模型。她在ICCV、SIGGRAPH等顶级会议上发表过多篇成果。

Yonglong Tian,博士毕业于麻省理工学院(MIT)计算机科学专业,现为OpenAI研究员。他是监督对比学习(SupContrast)等表征学习标志性工作的作者,曾任职于Google DeepMind。

通讯作者Yue Wang,南加州大学(USC)助理教授,同时兼任英伟达研究科学家。他本科毕业于浙江大学,硕士毕业于加州大学圣地亚哥分校(UCSD),博士毕业于麻省理工学院(MIT),研究横跨3D视觉、生成模型与机器人。

论文已发布于arXiv:https://arxiv.org/abs/2604.28190

来源:https://www.qbitai.com/2026/05/412882.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
QoderWake – 阿里推出的生产级AI数字员工平台与岗位自动执行系统

QoderWake – 阿里推出的生产级AI数字员工平台与岗位自动执行系统

QoderWake是什么:生产级AI数字员工平台概览 在自动化工具层出不穷的今天,阿里巴巴旗下Qoder团队推出的QoderWake,带来了一种新思路:它不再仅仅是辅助工具,而是一个AI数字员工平台。简单来说,它旨在将AI直接“派驻”到真实的工作岗位上,承担起具体的职责,实现任务的自动执行与持续进化

时间:2026-05-06 14:08
荣耀罗巍透露同期还有一家手机厂商也在寻求与ARRI阿莱的合作

荣耀罗巍透露同期还有一家手机厂商也在寻求与ARRI阿莱的合作

荣耀与ARRI达成战略合作,Robot Phone影像体验或将迎来“完全体” 今年三月,在MWC 2026的全球发布会上,荣耀宣布了一项重磅合作:与拥有百年历史的顶级电影摄影机厂商ARRI(阿莱)达成战略技术合作。这标志着移动影像与专业电影工业之间,架起了一座新的桥梁。 从发布会透露的信息来看,双方

时间:2026-05-06 14:07
小米13手机全系电池升级服务上线:官方原厂配件,定价189元

小米13手机全系电池升级服务上线:官方原厂配件,定价189元

小米13系列电池升级服务上线:最高扩容541mAh,189元焕新续航 如果你手头的小米13系列手机感觉续航不如当年,现在有个官方“回血”方案来了。小米商城服务页面显示,小米13系列全系现已支持电池升级服务,用户可付费将旧电池更换为容量更大的新款原厂电池。 这项服务的核心吸引力在于“扩容”而非简单的“

时间:2026-05-06 14:07
王心凌演出被镭射激光烫到腿:仍坚持完成表演

王心凌演出被镭射激光烫到腿:仍坚持完成表演

王心凌演唱会突发意外:舞台激光直射艺人引关注 近日,一场演唱会上的意外插曲,将舞台安全这个老话题再次推到了聚光灯下。在王心凌“声幻奇境”超级演唱会深圳站的演出过程中,现场发生了颇为惊险的一幕。 根据多位在场粉丝发布的现场视频,舞台上方用于营造氛围的镭射激光设备疑似出现失控状况。原本应扫向观众席或空中

时间:2026-05-06 14:05
张雪路边摊见证第三冠!激动大喊:我们拿冠军了 全场我买单

张雪路边摊见证第三冠!激动大喊:我们拿冠军了 全场我买单

张雪路边摊见证第三冠!激动大喊:我们拿冠军了 全场我买单 昨晚,世界超级摩托车锦标赛(WSBK)匈牙利站的第一回合正赛,上演了一出精彩的绝地反击。张雪机车旗下的53号车手瓦伦丁·德比斯,在最后一圈抓住机会,连续超越两名雅马哈车手,硬生生从第四名逆转夺冠。 这可不是普通的胜利——这是张雪机车在本赛季W

时间:2026-05-06 14:04
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程