数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

何恺明新作：大二本生用扩散模型颠覆图像生成，简化多步采样

AI热点日报时间：2026-02-02

热点解读

梦晨发自凹非寺量子位 | 公众号 QbitAI何恺明，再次出手精简架构。新方法Pixel Mean Flow（pMF），突破传统扩散模型流模型限制。两大传统组件多步采样和潜空间都被砍了，现在只

梦晨发自凹非寺
量子位 | 公众号 QbitAI

何恺明，再次出手精简架构。

新方法Pixel Mean Flow（pMF），突破传统扩散模型/流模型限制。

两大传统组件多步采样和潜空间都被砍了，现在只需一步，直接在像素空间生成图像。

在ImageNet 256×256分辨率上，pMF达到了2.22 FID；512×512分辨率上则是2.48 FID。这是目前单步、无潜空间扩散模型在该基准上取得的最佳成绩之一。

砍掉扩散模型的两大件

现代扩散模型生成图像，一直离不开多步采样和潜空间编码。

多步采样意味着生成一张图需要跑几十甚至上百次神经网络，潜空间则需要先把图像压缩到一个低维空间再进行操作。两者的共同目的是把一个极度复杂的生成问题拆解成若干个相对简单的子问题。

近年来，研究社区分别在这两个方向上取得了进展：

一致性模型（Consistency Models）和何恺明团队2025年提出的MeanFlow在少步、单步采样上持续突破。

何恺明团队2026年1月提出的JiT（Just image Transformers）则证明了在原始像素空间做扩散模型的可行性。

但把这两条路合到一起，难度陡增。

少步模型要求单个网络能够处理不同起点和终点的轨迹；像素空间模型则需要在没有预训练tokenizer的情况下完成压缩和抽象。

两边的挑战叠加在一起，对架构设计提出了更高的要求。

pMF的核心设计

pMF的思路可以概括为：网络直接输出像素级别的去噪图像，但训练时用速度场来计算损失。

具体来说，pMF定义了一个新的场x，它是从平均速度场u通过简单变换得到的。

x场的关键特性是看起来像干净的图像。

论文通过追踪ODE轨迹进行可视化发现，平均速度场u对应的是噪声图像，而变换后的x场则对应近乎干净或略微模糊的图像。

这背后的假设是流形假设（manifold hypothesis）：自然图像实际上位于一个低维流形上，让网络直接预测这个低维流形上的量，比预测高维噪声空间中的量要容易得多。

团队用一个2D玩具模型验证了这一点。

当把2D数据投影到512维观察空间时，传统的u-prediction直接崩溃，而x-prediction仍然能够正常工作。

在真实的ImageNet实验中也是如此：256×256分辨率下，patch维度达到768（16×16×3），u-prediction的FID直接飙到164.89，而 x-prediction则保持在个位数。

pMF还有一个独特优势：

因为网络直接输出像素图像，可以自然地使用感知损失（perceptual loss）。

这本是潜空间方法在训练VAE时才能用的技巧，pMF把它带到了生成器本身的训练中。实

实验显示，加入感知损失后，FID从9.56直接降到3.53，提升了约6个点。

实验结果与对比

在ImageNet 256×256上，pMF-H/16模型以2.22 FID的成绩，超越了此前唯一的同类方法EPG（8.82 FID）。与GAN方法相比，pMF达到了相近的FID，但计算量大幅下降——StyleGAN-XL每次前向传播需要1574 Gflops，是pMF-H/16的5.8倍。

在512×512分辨率上，pMF采用了32×32的大patch尺寸，保持与256×256相近的计算开销，达到了2.48 FID。

另外，潜空间方法还有一笔经常被忽略的开销：VAE解码器。

标准SD-VAE解码器在256分辨率下需要310 Gflops，512分辨率下需要1230 Gflops，这个开销已经超过了pMF整个生成器的计算量。

论文还进行了大量消融实验：

优化器方面，Muon比Adam收敛更快且效果更好；

时间采样方面，MeanFlow的全平面采样策略不可或缺，只在r=t或r=0单线上采样都会导致失败；

预条件器（pre-conditioner）方面，传统的EDM和sCM风格设计在这个高维场景下不如直接的 x-prediction有效。

团队介绍

一个图像生成模型，本质上就是从噪声到像素的映射。

多步采样和潜空间编码都是历史上为了降低难度而引入的折中方案，但随着模型能力的提升和训练技巧的进步，这些“拐杖”正在变得不那么必要。

团队在结尾写道：希望这项工作能够鼓励未来对直接、端到端生成建模的探索。从实验结果来看，单步无潜空间生成已经从“是否可行”进入到“如何做得更好”的阶段了。

共同一作Yiyang Lu（陆伊炀）、Susie Lu、Qiao Sun（孙启傲）、Hanhong Zhao（赵瀚宏）为MIT本科生。

其中孙启傲是IMO金牌得主，赵瀚宏是国际物理奥林匹克竞赛IPhO金牌得主，陆伊炀是全国中学生物理竞赛CPhO金牌得主。

论文地址：
https://arxiv.org/abs/2601.22158

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：何恺明新作：大二本生用扩散模型颠覆图像生成，简化多步采样要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KKP9Q0AI0511DSSR.html

实验潜空间本科生何恺明图像生成

上一篇：机器人租赁赛道火爆：上线三周用户数破20万大关

下一篇：特斯拉欧洲销量大跌：法国锐减42%，挪威暴跌88%创新低

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜
周榜
月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周ASKWay GPT-4超强AI助手，赋能工作与生活 02 / 本周ForgeFluencer 一体化工具多功能集成高效操作简单易用 03 / 本周ShowHype AI视频创作翻译与内容生成平台 04 / 本周Stanford Alpaca 7B：基于52K指令演示训练的AI模型 05 / 本周Torq AI ChatGPT助手，智能提升生产力

01 / 本月ASKWay GPT-4超强AI助手，赋能工作与生活 02 / 本月ForgeFluencer 一体化工具多功能集成高效操作简单易用 03 / 本月ShowHype AI视频创作翻译与内容生成平台 04 / 本月Stanford Alpaca 7B：基于52K指令演示训练的AI模型 05 / 本月Torq AI ChatGPT助手，智能提升生产力

热点快看

07-13 19:07ASKWay GPT-4超强AI助手，赋能工作与生活 07-13 19:07ForgeFluencer 一体化工具多功能集成高效操作简单易用 07-13 19:07ShowHype AI视频创作翻译与内容生成平台 07-13 19:07Stanford Alpaca 7B：基于52K指令演示训练的AI模型 07-13 19:06Torq AI ChatGPT助手，智能提升生产力

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别