当前位置: 首页
科技数码
李飞飞团队新突破:简单调整生成顺序,显著提升图像生成质量

李飞飞团队新突破:简单调整生成顺序,显著提升图像生成质量

热心网友 时间:2026-02-15
转载


免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

文章转载于量子位
作者:闻乐

长期以来,AI生图被一个经典矛盾困扰。

潜空间模型效率高,但细节有损耗;像素空间模型保真度高,却容易结构混乱、速度慢。

要么快要没准,大家几乎默认这是架构带来的取舍问题,没法彻底解决。

但扩散模型生图,顺序真的对吗?

李飞飞团队最新论文提出的Latent Forcing方法直接打破了这一共识,他们发现生成的质量瓶颈不在架构,而在顺序。


简单说就像画画必须先打草稿再填色,AI也需要一个「先定结构、后填细节」的强制逻辑。

Latent Forcing仅通过重排生成轨迹,像素扩散模型不仅找回了效率,更在多项指标上刷新SOTA。

1

传统方法瓶颈

在深入了解Latent Forcing之前,咱先来说说当前两大方法的瓶颈。

传统像素级扩散模型之所以画图会画歪,是因为它在降噪过程中,高频的纹理细节往往会干扰低频的语义结构。

模型常常在还没搞清楚物体的整体轮廓时,就被迫去预测局部的像素颜色,其实这在本质上就违背了视觉生成的自然逻辑。

为了解决这个问题,行业此前大多转向潜空间。

它通过预训练的tokenizer把图像压到低维空间,生成速度飞起。

但潜空间模型必须依赖一个预训练的解码器,但这不仅会引入重建误差,也让模型失去了端到端建模原始数据的能力。


于是李飞飞团队思考——

能不能既保留像素级的无损精度,又获得潜空间的结构引导?

1

先打个草稿

Latent Forcing的答案是——

对扩散轨迹重新排序。


怎么做的呢?

在不改变基础Transformer架构的前提下,引入了双时间变量机制。

在训练和生成过程中,模型会同时处理像素和潜变量。不同的是,团队为两者定制了独立的降噪节奏:

潜变量先行:在生成初期,潜变量会率先完成降噪,在大尺度上确立图像的语义骨架;

像素填色:在结构确定后,像素部分再跟进进行精细化降噪。


这么一看,潜变量就像是一个临时的草稿本。

生成结束时,这个草稿本直接丢弃,最终输出仍是100%无损的原始像素图像,没有任何decoder。

整个过程端到端、可扩展,几乎不增加计算量(token数量不变,速度接近原生DiT)。

这种先latent后pixel的细微调整,在ImageNet榜单上展现了出色的表现。

在相同计算规模,训练80个epochs的条件下,Latent Forcing在ImageNet-256任务中,条件生成的FID分数较此前最强的像素级模型JiT+REPA,从18.60降到9.76,接近腰斩。


在200个epoch的最终模型(ViT‑L 规模)下,Latent Forcing实现了条件生成FID 2.48(guided)、无条件生成FID 7.2(unguided)的分数。

创下像素空间扩散Transformer新的SOTA。


过去学术界普遍认为,必须通过更高倍率的有损压缩才能换取好的FID表现。

Latent Forcing则用数据反驳了这一观点——

在保持100%原始像素精度的情况下,我们依然能跑出超越有损模型的性能。

Latent Forcing项目由李飞飞领衔。

第一作者Alan Baade是李飞飞的学生,斯坦福计算机系博士生,在扩散模型和生成建模方向有深入研究。


其他斯坦福共同作者包括Eric Ryan Chan、Kyle Sargent、Changan Chen和Ehsan Adeli。

此外,密歇根大学教授Justin Johnson作为合作作者参与其中。

论文地址:https://arxiv.org/abs/2602.11401

点个“爱心”,再走 吧

来源:https://www.163.com/dy/article/KLQ86U440511N33R.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Sora暂停开放,国产视频大模型的机遇与未来在哪里?

Sora暂停开放,国产视频大模型的机遇与未来在哪里?

1两年前横空出世的Sora,曾给AI业界和全球网民带来巨大的震撼。到2026年,它突然退场,没能再掀起那样大的波澜。从商业决策的角度看,这其实早就是意料之中的事。极高的视频生成成本、少得可怜的付费用

时间:2026-03-28 10:55
中国电动车强势入局柏林,德国汽车产业遇挑战

中国电动车强势入局柏林,德国汽车产业遇挑战

【文 观察者网专栏作者 扬之】过去十多年里,德国政府对电动车产业的态度,可以用“战略上高度重视,战术上反复摇摆”来概括。它的宏观目标非常清晰:一方面要落实欧盟层面的减排目标和气候承诺,另一方面要保障

时间:2026-03-28 10:55
宁德时代如何稳居榜首:穿越周期挑战的“薄冰”策略

宁德时代如何稳居榜首:穿越周期挑战的“薄冰”策略

【文 观察者网 心智观察所】 1 2026年1月,密歇根州共和党籍众议员约翰·穆莱纳尔给福特汽车CEO吉姆·法利写了一封信。这位“美中战略竞争特别委员会”的主席在信中言辞激烈,要求福特解释为什么要

时间:2026-03-28 10:55
3大运营商提升算力收入,全面转向Token服务经营主线

3大运营商提升算力收入,全面转向Token服务经营主线

近日,三大电信运营商2025年年报陆续出炉。总的来看,运营商主要业绩指标高位运行,但就总量而言,增长乏力的状况并没有显著改善,算力服务、创新业务、国际业务等结构性收入增长仍是主要亮点。2025年,三

时间:2026-03-28 10:55
苹果或向第三方开放Siri;Meta增投百亿建美国AI数据中心

苹果或向第三方开放Siri;Meta增投百亿建美国AI数据中心

Meta将美国得州AI数据中心投资额增至100亿美元Meta当地时间3月26日宣布,将对美国得州埃尔帕索AI数据中心的投资额增加至100亿美元,目标在该设施预计于2028年投运前达到1吉瓦容量。Me

时间:2026-03-28 10:55
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程