当前位置: 首页
AI
pMF开启像素级生成:何恺明团队新作如何实现无潜单步成像

pMF开启像素级生成:何恺明团队新作如何实现无潜单步成像

热心网友 时间:2026-02-04
转载



免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

机器之心编辑部

何恺明团队新论文,再次诠释“大道至简”。

这项研究直指当前以 DiT 为代表的主流扩散模型与流匹配模型存在的通病,并提出了一种用于单步、无潜空间的图像生成新框架。



论文标题:One-step Latent-free Image Generation with Pixel Mean Flows

在生成式 AI 领域,追求更高效、更直接的生成范式一直是学界的核心目标。

当前,以 DiT 为代表的主流扩散模型与流匹配模型主要依赖两大支柱来降低生成难度,一是通过多步采样将复杂的分布转换分解为微小的步进,二是在预训练 VAE(变分自编码器)的潜在空间中运行以降低计算维度。

尽管这些设计在图像质量上取得了巨大成功,但从深度学习“端到端”的精神来看,这种对多步迭代和预置编码器的依赖,无疑增加了系统的复杂性和推理开销。

面对这些挑战,何恺明团队提出了用于单步、无潜空间图像生成的 Pixel MeanFlow(pMF)框架。该框架继承了改进均值流(Improved MeanFlow, MF)的思路,通过在瞬时速度(即 v)空间内定义损失函数,来学习平均速度场(即 u)。

与此同时,受“仅图像变换器”(JiT)的启发,pMF 直接对类似于去噪图像的物理量(即 x-prediction 值)进行参数化,并预期该物理量位于低维流形上。

为了兼容这两种设计,团队引入了一种转换机制,将 v、u 和 x 三个场联系起来。实验证明,这种设计更符合流形假设,并且产生了一个更易于学习的目标(见下图 1)。



概括来说,pMF 训练了一个能将噪声输入直接映射为图像像素的网络。它具备“所见即所得”的特性,而这在多步采样或基于潜在空间的方法中是不存在的。这一特性使得感知损失能够自然地集成到 pMF 中,从而进一步提升生成质量。

实验结果显示,pMF 在单步、无潜空间生成方面表现强劲,在 ImageNet 数据集上,256x256 分辨率下的 FID 达到 2.22,512x512 分辨率下达到 2.48。团队进一步证明,选择合适的预测目标至关重要:在像素空间直接预测速度场会导致性能崩溃。

来源:https://www.163.com/dy/article/KKTU02BN0511AQHO.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
eBay团队AI新突破让机器深度理解电商场景奥秘

eBay团队AI新突破让机器深度理解电商场景奥秘

这项由eBay公司与阿姆斯特丹大学合作完成的研究发表于2026年2月,研究编号为arXiv:2602 11733v1。 当您浏览购物网站时,是否好奇AI助手如何精准筛选商品?例如,搜索“红色连衣裙”时,AI如何从海量图片中准确识别?或者,当您想了解一双鞋的材质细节时,AI又是怎样从复杂的商品图中提取

时间:2026-05-12 18:31
MIT人工智能实现多乐器同步演奏 一键生成完整乐队伴奏

MIT人工智能实现多乐器同步演奏 一键生成完整乐队伴奏

近期,麻省理工学院计算机科学与人工智能实验室(MIT CSAIL)与Adobe Research的一项合作研究,在AI音乐生成领域取得了突破性进展。这项研究成果已正式发表于2026年的顶级学术会议,论文编号为arXiv:2602 09891v1,为技术爱好者提供了详尽的技术文档。他们开发的STEMP

时间:2026-05-12 18:30
腾讯研究新突破AI模型如何自主生成难题提升推理能力

腾讯研究新突破AI模型如何自主生成难题提升推理能力

在数学教育中,教师常引导学生:“将这两道基础题融合,尝试解决一个更综合的难题。”近期,腾讯HY、香港科技大学与香港大学的研究团队,正是受此经典教学智慧的启发,开发出一套名为Composition-RL的创新性方法。这项于2026年2月13日发布在arXiv(论文编号:2602 12036v1)上的研

时间:2026-05-12 18:30
UNC与谷歌DeepMind揭示推理链如何压缩AI学习空间的核心秘密

UNC与谷歌DeepMind揭示推理链如何压缩AI学习空间的核心秘密

近期,一项由北卡罗来纳大学教堂山分校与谷歌DeepMind联合开展的研究,在人工智能领域引发了广泛关注。这项发表于2026年2月(论文预印本编号:arXiv:2602 09276v1)的成果,系统性地探究了不同推理策略如何塑造大语言模型的学习效能。其核心结论极具启发性:最高效的推理链条能够“压缩”模

时间:2026-05-12 18:29
北京大学联合美团破解AI推理难题:多路径思考让AI更智能

北京大学联合美团破解AI推理难题:多路径思考让AI更智能

这项由北京大学国家软件工程研究中心与美团集团联合开展的研究发表于2026年2月,有兴趣的读者可通过arXiv预印本平台编号arXiv:2602 08344v1查阅完整论文。 面对复杂的数学难题,人类解题者通常会尝试多种思路——先用代数方法,不行再试几何法,或者从特殊情况入手。这种“多管齐下”的并行思

时间:2026-05-12 18:23
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程