苹果另辟蹊径:利用“归一化流”技术打造 AI 生图模型

感谢网友 对的时间点 提供的线索!
6 月 24 日消息,目前业界普遍采用扩散模型或自回归模型来开发 AI 图像生成系统。然而,苹果公司最近发布的一篇论文表明,他们正在探索一条较少被关注的技术路径——归一化流(Normalizing Flows)。
据悉,这种“归一化流”技术是一种通过学习数学变换方法,将现实世界的数据(如图片)转化为结构化噪声,并能够从噪声中还原出图像样本的生成机制。其最大特点是可以准确计算生成图像的概率分布,这是扩散模型所不具备的能力。这一特性使得归一化流在一些对概率精确性要求较高的应用场景中具有显著优势。但此类模型并不常见,主要原因是开发难度较大,且早期使用该技术生成的图像常常显得模糊、缺乏细节。
根据苹果发布的论文《Normalizing Flows are Capable Generative Models》,他们提出了一种新的归一化流模型,命名为 TarFlow(Transformer AutoRegressive Flow)。该模型的核心理念是将待生成的大图划分为多个小区域,然后以这些区域为单位逐个生成像素值。每个区块的生成都依赖于之前已经生成的内容,从而逐步构建出完整的图像。这种方法有效地避免了将图像压缩为固定词汇表时所带来的质量下降和表现力受限的问题。
不过,TarFlow 在高分辨率图像生成方面仍存在局限,因此苹果又推出了第二项研究:《STARFlow: Scaling Latent Normalizing Flows for High-resolution Image Synthesis》。
在这项研究中,苹果基于 TarFlow 基础上开发了升级版模型:STARFlow(Scalable Transformer AutoRegressive Flow)。
这项改进的最大亮点在于,STARFlow 不再直接在像素级别生成图像,而是转而在“潜空间”(latent space)中操作。它首先生成图像的压缩表示,随后通过解码器将其放大还原。这种方式使模型无需处理数百万个像素点,而是先构建图像的整体结构,再由解码器补充细节内容,从而在保证画质的前提下提升了生成效率。
除此之外,STARFlow 还优化了文本提示的处理方式。它不再内置专门的文本编码器,而是支持调用外部语言模型(例如谷歌推出的小型语言模型 Gemma,理论上可在本地设备上运行),用于解析用户的文字指令。这样一来,图像生成模块可以更加专注于图像细节的创作与优化。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
赵露思瘦身成功变身御姐,新造型获封"千金颜"
近日,演员赵露思因在新剧《许我荣耀》中的形象蜕变引发全网热议。从路透照到正式剧照,这位以甜美形象著称的女星通过减重与塑形,实现了从“邻家女孩”到“职场御姐”的惊艳转型,网友纷纷感叹其颜值与气质的双重
TCL SQD-Mini LED电视首发:全局高色域革命
在显示技术领域持续领跑的TCL,近日以一场主题为“不颠覆不发布”的秋季新品发布会,向全球展示了其最新研发成果——SQD-Mini LED技术。作为该技术落地的首款产品,旗舰电视TCL X11L凭借在
纽恩泰空气能选购指南:推荐购买的十大理由解析
九月,北方冷空气来得猝不及防,选采暖时总犯难——烧煤又脏又费劲,开空调暖风干得难受。其实不用纠结,纽恩泰空气能就很合适!要买空气能,先看纽恩泰,为什么内行人会这么说呢?以下十大“王炸”理由,每一个都
国产GPU第一股:摩尔线程IPO过会
9月26日,国产GPU创业公司摩尔线程通过上交所审核,迈过冲刺科创板上市的关键一步,继续冲刺“国产GPU第一股”。 据悉,摩尔线程科创板IPO申请于2025年6月30日获受理,期间完成两轮问询。自
空港商旅首选!重庆机场诺富特酒店五星品质体验
重庆渝北区机场东二路21号,一座以“空港便捷+高端品质”为核心理念的诺富特品牌酒店,正成为西部商旅市场的焦点。作为华住与雅高集团联合打造的五星级标准酒店,重庆机场诺富特酒店凭借77000平方米的超大
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程



















