李飞飞团队新突破:简单调整生成顺序,显著提升图像生成质量

文章转载于量子位
作者:闻乐
长期以来,AI生图被一个经典矛盾困扰。
潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。
要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。
但扩散模型生图,顺序真的对吗?
李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序。

简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。
Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。
1
传统方法瓶颈
在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。
传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。
模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。
为了解决这个问题,行业此前大多转向潜空间。
它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。
但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。

于是李飞飞团队思考——
能不能既保留像素级的无损精度,又获得潜空间的结构引导?
1
先打个草稿
Latent Forcing的答案是——
对扩散轨迹重新排序。

怎么做的呢?
在不改变基础Transformer架构的前提下,引入了双时间变量机制。
在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:
潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;
像素填色:在结构确定后,像素部分再跟进进行精细化降噪。

这么一看,潜变量就像是一个临时的草稿本。
生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。
整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。
这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。
在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。

在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。
创下像素空间扩散Transformer新的SOTA。

过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。
Latent Forcing则用数据反驳了这一观点——
在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。
Latent Forcing项目由李飞飞领衔。
第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。

其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。
此外,密歇根大学教授Justin Johnson作为合作作者参与其中。
论文地址:https://arxiv.org/abs/2602.11401
点个“爱心”,再走 吧
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
马斯克携幼子访华引热议 孩子穿中式服装学普通话
5月14日,特斯拉CEO埃隆·马斯克现身北京人民大会堂,其6岁儿子X AE A-XII(昵称小X)的造型成为全场焦点。这位小男孩身着复古中式马甲与虎头帽,手拎精致虎头包,活泼可爱的模样迅速在各大社交平台引发热议,收获无数网友点赞。 当晚,马斯克本人在社交媒体上用中文发文,分享了一个温馨细节:“我的儿
蓝色起源月球着陆器模拟舱进驻NASA航天中心
在休斯敦约翰逊航天中心的9号大楼内,坐落着一个至关重要的训练设施——美国国家航空航天局(NASA)的猎户座飞船全尺寸训练模拟器。这个高保真度的复刻模型,是阿耳忒弥斯2号任务宇航员过去一年多进行密集演练的核心场所,旨在为历史性的载人绕月飞行任务做好万全准备。 长期以来,这个猎户座模拟器在航天器模拟设施
赛意信息拟投200亿开展算力服务器融资租赁业务
【热点动态】 科翔股份(300903 SZ):旗下陶积电公司AI陶瓷基板研发进展,目前处于打样验证阶段 中船特气(688146 SH):公司当前未签订新的长期大额订单或实质性协议 瑞华泰(688323 SH):航天领域业务以项目合作研发为主,营收占比低于1% 【项目投资与建设】 鑫铂股份(00303
中兴通讯遭摩根大通减持超220万股股份
根据香港交易所最新发布的权益披露资料,国际知名投资机构摩根大通于5月11日对中兴通讯(00763 HK)股份进行了减持操作。本次减持以每股平均价27 4824港元成交,共计减持好仓220 9万股,涉及总金额约6070 96万港元。 完成此次减持后,摩根大通所持有的中兴通讯好仓总数降至5271 036
章泽天戛纳红裙造型惊艳气质出众获赞
有钱有颜又有闲,这或许是大众对京东老板娘章泽天的普遍印象。5月12日清晨,有网友在戛纳电影节现场偶遇了她,相关视频在社交媒体发布后,迅速登上热搜榜单。 视频中,章泽天身穿一袭亮眼的正红色长裙,在人群中格外醒目,身边仅跟随一位助理。不得不说,远观的整体氛围感确实十分出众。 图源:小红书 当然,仅凭一个
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

