当前位置: 首页
AI
何恺明新作:大二本生用扩散模型颠覆图像生成,简化多步采样

何恺明新作:大二本生用扩散模型颠覆图像生成,简化多步采样

热心网友 时间:2026-02-02
转载

梦晨 发自 凹非寺
量子位 | 公众号 QbitAI

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

何恺明,再次出手精简架构。

新方法Pixel Mean Flow(pMF),突破传统扩散模型/流模型限制。

两大传统组件多步采样和潜空间都被砍了,现在只需一步,直接在像素空间生成图像。



在ImageNet 256×256分辨率上,pMF达到了2.22 FID;512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取得的最佳成绩之一。



砍掉扩散模型的两大件

现代扩散模型生成图像,一直离不开多步采样和潜空间编码。

多步采样意味着生成一张图需要跑几十甚至上百次神经网络,潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一个极度复杂的生成问题拆解成若干个相对简单的子问题。

近年来,研究社区分别在这两个方向上取得了进展:

一致性模型(Consistency Models)和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。



何恺明团队2026年1月提出的JiT(Just image Transformers)则证明了在原始像素空间做扩散模型的可行性。



但把这两条路合到一起,难度陡增。

少步模型要求单个网络能够处理不同起点和终点的轨迹;像素空间模型则需要在没有预训练tokenizer的情况下完成压缩和抽象。

两边的挑战叠加在一起,对架构设计提出了更高的要求。

pMF的核心设计

pMF的思路可以概括为:网络直接输出像素级别的去噪图像,但训练时用速度场来计算损失。

具体来说,pMF定义了一个新的场x,它是从平均速度场u通过简单变换得到的。

x场的关键特性是看起来像干净的图像。



论文通过追踪ODE轨迹进行可视化发现,平均速度场u对应的是噪声图像,而变换后的x场则对应近乎干净或略微模糊的图像。



这背后的假设是流形假设(manifold hypothesis):自然图像实际上位于一个低维流形上,让网络直接预测这个低维流形上的量,比预测高维噪声空间中的量要容易得多。



团队用一个2D玩具模型验证了这一点。

当把2D数据投影到512维观察空间时,传统的u-prediction直接崩溃,而x-prediction仍然能够正常工作。



在真实的ImageNet实验中也是如此:256×256分辨率下,patch维度达到768(16×16×3),u-prediction的FID直接飙到164.89,而 x-prediction则保持在个位数。



pMF还有一个独特优势:

因为网络直接输出像素图像,可以自然地使用感知损失(perceptual loss)。

这本是潜空间方法在训练VAE时才能用的技巧,pMF把它带到了生成器本身的训练中。实

实验显示,加入感知损失后,FID从9.56直接降到3.53,提升了约6个点。



实验结果与对比

在ImageNet 256×256上,pMF-H/16模型以2.22 FID的成绩,超越了此前唯一的同类方法EPG(8.82 FID)。与GAN方法相比,pMF达到了相近的FID,但计算量大幅下降——StyleGAN-XL每次前向传播需要1574 Gflops,是pMF-H/16的5.8倍。



在512×512分辨率上,pMF采用了32×32的大patch尺寸,保持与256×256相近的计算开销,达到了2.48 FID。



另外,潜空间方法还有一笔经常被忽略的开销:VAE解码器。

标准SD-VAE解码器在256分辨率下需要310 Gflops,512分辨率下需要1230 Gflops,这个开销已经超过了pMF整个生成器的计算量。

论文还进行了大量消融实验:

优化器方面,Muon比Adam收敛更快且效果更好;



时间采样方面,MeanFlow的全平面采样策略不可或缺,只在r=t或r=0单线上采样都会导致失败;

预条件器(pre-conditioner)方面,传统的EDM和sCM风格设计在这个高维场景下不如直接的 x-prediction有效。



团队介绍

一个图像生成模型,本质上就是从噪声到像素的映射。

多步采样和潜空间编码都是历史上为了降低难度而引入的折中方案,但随着模型能力的提升和训练技巧的进步,这些“拐杖”正在变得不那么必要。

团队在结尾写道:希望这项工作能够鼓励未来对直接、端到端生成建模的探索。从实验结果来看,单步无潜空间生成已经从“是否可行”进入到“如何做得更好”的阶段了。



共同一作Yiyang Lu(陆伊炀)、Susie Lu、Qiao Sun(孙启傲)、Hanhong Zhao(赵瀚宏)为MIT本科生。

其中孙启傲是IMO金牌得主,赵瀚宏是国际物理奥林匹克竞赛IPhO金牌得主,陆伊炀是全国中学生物理竞赛CPhO金牌得主。

论文地址:
https://arxiv.org/abs/2601.22158

来源:https://www.163.com/dy/article/KKP9Q0AI0511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
磁力金牛如何成为快手商家AI时代的经营合伙人

磁力金牛如何成为快手商家AI时代的经营合伙人

这几年,AI的热点一个接一个,让人眼花缭乱。在营销领域,AI的应用也走过了清晰的演进路线:从最初的AIGC生成素材,到后来的Agent智能投放,再到“养龙虾”概念的火爆,每一步都在刷新行业的认知。 技术迭代的节奏固然令人兴奋,但如果我们把视角切换到商家一侧,感受就完全不同了。 对于大量中小微企业和个

时间:2026-05-13 20:22
Figma组件属性命名规范指南 AI智能重命名技巧

Figma组件属性命名规范指南 AI智能重命名技巧

在Figma中,规范组件集属性命名对协作和开发至关重要。面对命名混乱问题,可借助AI辅助解决:一是通过插件批量扫描属性值,由AI聚类提供标准化建议,用户确认后安全应用;二是通过API导出数据,在本地结合自定义脚本进行深度清洗与映射,尤其适合有严格命名要求的大型团队。两种方式均能有效提。

时间:2026-05-13 20:22
豆包AI竞品分析教程 方法与步骤详解

豆包AI竞品分析教程 方法与步骤详解

使用豆包AI进行竞品分析时,若结果不够深入,常因输入信息不够结构化或指令不明确。可通过以下方法提升分析质量:一是结构化输入数据,将竞品公开资料整理为纯文本并明确标注,配合具体指令进行多维度对比;二是分步引导,将复杂问题拆解为连续小问题,逐步深入分析策略意图;三是利。

时间:2026-05-13 20:22
Recraft AI账号注册教程 新用户环境搭建完整指南

Recraft AI账号注册教程 新用户环境搭建完整指南

RecraftAI新用户需访问官网并点击登录按钮,选择邮箱或Google账号注册。邮箱注册需填写信息并设置强密码,提交后完成邮箱验证方可使用核心功能。验证成功后登录即可进入工作台,确认免费计划及界面元素齐备后便可开始创作。

时间:2026-05-13 20:22
香港特首李家超:着力发展具身智能等未来产业

香港特首李家超:着力发展具身智能等未来产业

香港正以前瞻性视野,加速布局未来产业新赛道。特区行政长官李家超于5月12日出席首届香港具身智能产业峰会时强调,国家“十五五”规划已将未来产业列为前瞻性战略重点,其中具身智能作为人工智能发展的重要方向,被视为驱动经济增长的新引擎。香港将积极对接国家战略与“人工智能+”行动计划,集中优势资源,全力推动具

时间:2026-05-13 19:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程