pMF开启像素级生成:何恺明团队新作如何实现无潜单步成像

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
机器之心编辑部
何恺明团队新论文,再次诠释“大道至简”。
这项研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病,并提出了一种用于单步、无潜空间的图像生成新框架。

论文标题:One-step Latent-free Image Generation with Pixel Mean Flows
在生成式 AI 领域,追求更高效、更直接的生成范式一直是学界的核心目标。
当前,以 DiT 为代表的主流扩散模型与流匹配模型主要依赖两大支柱来降低生成难度,一是通过多步采样将复杂的分布转换分解为微小的步进,二是在预训练 VAE(变分自编码器)的潜在空间中运行以降低计算维度。
尽管这些设计在图像质量上取得了巨大成功,但从深度学习“端到端”的精神来看,这种对多步迭代和预置编码器的依赖,无疑增加了系统的复杂性和推理开销。
面对这些挑战,何恺明团队提出了用于单步、无潜空间图像生成的 Pixel MeanFlow(pMF)框架。该框架继承了改进均值流(Improved MeanFlow, MF)的思路,通过在瞬时速度(即 v)空间内定义损失函数,来学习平均速度场(即 u)。
与此同时,受“仅图像变换器”(JiT)的启发,pMF 直接对类似于去噪图像的物理量(即 x-prediction 值)进行参数化,并预期该物理量位于低维流形上。
为了兼容这两种设计,团队引入了一种转换机制,将 v、u 和 x 三个场联系起来。实验证明,这种设计更符合流形假设,并且产生了一个更易于学习的目标(见下图 1)。

概括来说,pMF 训练了一个能将噪声输入直接映射为图像像素的网络。它具备“所见即所得”的特性,而这在多步采样或基于潜在空间的方法中是不存在的。这一特性使得感知损失能够自然地集成到 pMF 中,从而进一步提升生成质量。
实验结果显示,pMF 在单步、无潜空间生成方面表现强劲,在 ImageNet 数据集上,256x256 分辨率下的 FID 达到 2.22,512x512 分辨率下达到 2.48。团队进一步证明,选择合适的预测目标至关重要:在像素空间直接预测速度场会导致性能崩溃。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
22岁辍学生凭AI垃圾分类估值10亿,数据生意改写垃圾回收
智东西编译 陈佳编辑 程茜智东西3月27日消息,据外媒Business Insider昨日报道,美国AI数据采集创企Kled AI正在付费让普通人帮忙采集AI训练数据,其平台上线仅两个月用户数已突破
一口气发布三大王炸模型!昆仑万维公布2026年AGI战略蓝图
编辑|杜伟就在 27 日下午,在火热进行中的 2026 中关村论坛上,一家国产头部 AI 厂商引爆了全场!昆仑万维,这家 2024 年便已「All in AGI 与 AIGC」的实力玩家,亮出了其实
刚刚NeurIPS退稿?了解审稿趋势与避坑指南
机器之心编辑部就在刚刚,正在舆论风口上左摇右摆的 AI 顶会 NeurIPS 发布了一条长推文,针对此前的「NeurIPS 限制华为等实体机构投稿」事件做了解释、道歉、承诺三件事:解释:在编制 Ne
Avata+360创作者新边界:大疆赠予的360%变革
大疆用一英寸全景影像、O4+ 图传与全向避障,带来了对「每个人都能飞出好片」最认真的一次回答。作者|张勇毅编辑|郑玄3 月 26 日,大疆发布了 Avata 360——大疆首款 8K 全景旗舰无人机
昆仑万维推出AIGC全家桶大模型,AI视频游戏音乐全线齐发
智东西作者|江宇编辑|冰倩智东西3月27日报道,今日,在2026中关村论坛“人工智能主题日”现场,昆仑万维旗下天工AI集中发布了其最新的“AIGC全家桶大模型”。其中包括:游戏世界模型Matrix-
- 日榜
- 周榜
- 月榜
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程

