FlashAR高效微调技术:0.05%数据激活自回归图像模型
大语言模型的突破性进展,使得“下一个词预测”这一核心范式成功扩展至图像生成领域。通过将图像编码为离散的视觉标记,并像预测文本序列一样逐个生成,自回归模型已成为图像生成的主流方法之一。从早期的PixelCNN、iGPT,到近期备受关注的Emu3.5、LlamaGen,自回归模型的图像生成质量已全面对标,甚至在部分细节和可控性上超越了扩散模型。
然而,自回归模型始终面临一个难以回避的性能瓶颈:生成速度过慢。传统的光栅扫描解码方式,严格遵循从左到右、从上到下的顺序,每一步仅能生成一个标记。生成一张512×512分辨率的图像,需要完成32×32=1024步的串行推理,单次生成耗时常常超过两分钟。其延迟与图像分辨率呈线性增长,使得GPU强大的并行计算能力无从发挥。在高分辨率生成和实时交互应用中,这种速度瓶颈严重制约了其实用价值。
为了攻克这一难题,研究社区提出了多种加速方案,但各自存在明显局限:
一是彻底重构生成范式,例如VAR的“下一尺度预测”或NAR的“近邻预测”。这类方法能大幅减少解码步数,但代价是需要从零开始预训练一个全新模型,无法迁移利用现有的大规模预训练权重,导致训练成本极其高昂。
二是通过离散扩散进行适配,如Emu3.5原论文采用的DiDA方法。它通过后训练将自回归模型转化为支持并行解码的离散扩散模型。但这种方法改变了模型原始的预测目标,导致预训练与推理阶段存在不一致性,通常会显著损害生成质量。在我们的复现测试中,Emu3.5经过Block Diffusion后训练后,其生成评估分数出现了较为明显的下滑。
三是采用推测解码等无需训练的加速插件,但其实际加速效果严重依赖于草稿模型的“接受率”,加速上限存在明显天花板。
这引出了一个关键的研究问题:是否存在一种方法,能够在不重新训练、也不改变模型原始学习目标的前提下,将已训练好的高性能自回归模型,高效地改造为高度并行的图像生成器,同时完整保留其强大的生成能力?
近期,来自浙江大学与阿德莱德大学的研究团队给出了一个令人瞩目的解决方案:FlashAR。这是一个极其轻量化的后训练加速框架。它无需从头训练,在拥有340亿参数的巨型模型Emu3.5-Image-34B上,仅使用了原始训练数据的0.05%(约8万张图像),便成功将预训练好的自回归模型改造为高度并行的生成器Emu3.5-34B-Flash,实现了最高22.9倍的端到端加速比。


核心原理:从“串行生成”到“对角线并行解码”
传统的自回归图像生成遵循严格的光栅扫描顺序,如同阅读文字,每一步只预测水平方向的下一个视觉标记。对于一张由H行W列标记构成的图像,生成需要H×W步。
FlashAR的巧妙创新在于,它深刻利用了图像的二维空间特性。如果能让模型同时具备预测“水平方向下一个标记”和“垂直方向下一个标记”的能力,那么在每一个解码步骤中,水平与垂直两个预测头便可并行工作。由此,总解码步数将从H×W急剧减少至H+W-1步。以512×512分辨率(标记化为32×32网格)为例,解码步数从1024步骤降至63步,实现了数量级的效率提升。
随之而来的核心挑战是:如何让一个仅经过“水平方向”预测训练的模型,快速学会“垂直方向”预测?FlashAR通过三个核心组件解决了这一问题。

1. 中间层分支设计
FlashAR并未将新增的垂直预测头直接连接到预训练模型的最终输出层,而是选择从模型的中间层“分叉”,引出一条全新的并行支路,使其与原有的水平预测头协同工作。
为何不直接使用最终层?原因在于:经过完整预训练后,最终层的特征表示已高度特化,完美适配了水平方向的光栅扫描预测任务。这种“专精化”虽然带来了强大的原始生成能力,但也意味着其表征空间可能不再适合直接学习一个全新的垂直预测任务。相比之下,模型中间层的特征通常保留了更丰富、更通用的二维空间结构信息,从此处引出新分支来适配垂直预测,学习效率更高、效果更好。
这一设计还带来了额外优势:从中间层分支后,垂直预测头的计算可与原有分支并行进行,这为模型整体的推理吞吐量提供了进一步的优化空间。消融实验也验证了该设计的合理性:通过对预训练模型不同层的特征进行线性探测评估,发现最终层特征确实不是垂直预测任务的最佳选择,从而支持了中间层分支的策略。

2. 可学习自适应融合门
水平与垂直方向的预测,分别建模了图像在二维空间上互补的依赖关系。它们的相对重要性,在不同图像区域和不同生成阶段很可能动态变化。基于此洞察,FlashAR引入了一个轻量级的多层感知机作为“自适应融合门”。该门控网络能够在每个空间位置的粒度上,智能地融合两个方向的预测结果,避免了固定权重平均可能导致的预测模糊,实现了更精准的生成控制。
3. 渐进式两阶段适配训练
为确保后训练过程的稳定性与数据利用的高效性,FlashAR采用了渐进式的两阶段训练策略:
第一阶段,冻结庞大的预训练骨干网络所有权重,仅优化新添加的垂直预测头,使其快速习得有意义的垂直方向预测能力。第二阶段,解冻骨干网络,联合微调垂直预测头及部分骨干参数,使整个模型更好地适应全新的“对角线并行”解码范式。
在推理部署阶段,FlashAR还集成了硬件感知的优化管线:利用FlexAttention动态编译稀疏的二维近邻注意力掩码,并配合批量化更新KV缓存技术,确保理论上的并行性能够切实转化为端到端的实际加速收益。
实验效果与性能评估
Emu3.5-Image-34B 加速表现
将FlashAR应用于340亿参数的“巨无霸”模型Emu3.5,是对其框架普适性与有效性的严格检验。

实验结果令人印象深刻:仅使用0.05%的原始训练数据(约8000万标记,对应8万张图像),FlashAR便将512×512图像的生成时间从130.10秒大幅缩短至5.68秒,实现了22.9倍的加速。更为关键的是,这种加速几乎未牺牲生成质量。在GenEval综合基准测试中,FlashAR的总分仅微降0.19分(从80.48降至80.29),而在颜色准确性与物体位置两个具体子项上,其分数甚至超过了原始模型。作为对比,BlockDiffusion方法在相同设置下,生成质量出现了显著下降。
ImageNet 类别条件生成基准测试
在ImageNet 256×256的标准条件生成测试中,FlashAR在四种不同模型规模上全面超越了现有的后训练加速方法BlockDiffusion。

其中几个亮点尤为突出:
FlashAR-L模型的Inception Score达到了289.0,甚至超过了需要从头训练的NAR-L模型(263.9),而FlashAR仅需轻量级后训练。FlashAR-B模型实现了每秒447.2张图像的吞吐量,超越了NAR-B模型(419.7 img/s)。FlashAR仅需25个训练周期,这仅为BlockDiffusion所需训练量的三分之一,数据效率极高。
FlashAR 高效性的关键因素
综上所述,FlashAR的成功源于多个核心优势的协同作用:
它完全复用现有的大规模预训练模型,避免了昂贵的从头训练,极大降低了计算成本与门槛。数据利用效率极高,仅需万分之五的原始数据即可完成有效适配。在实现惊人加速比的同时,生成质量保持近乎无损,部分评估指标还有所提升。框架通用性强,已在不同模型架构与规模上得到有效验证。最终实现了显著且可实际部署的端到端加速,推动自回归视觉模型走向实用化。
FlashAR的研究证明了一个重要结论:通过精心设计的、轻量级的后训练适配,完全可以在几乎不改变模型原始训练目标的前提下,将串行的自回归模型,高效地改造为高度并行的图像生成器,并完整继承其强大的预训练先验知识。这为大规模自回归视觉模型在实际场景中的高效部署与应用,开辟了一条极具前景的新路径。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
即梦AI图片水印去除方法及付费后是否仍存在
即梦AI免费账户生成的图片会带有平台水印。付费会员也需在导出时手动勾选“去除品牌水印”选项才能获得无水印图片。对于免费用户,可通过网页版画布编辑功能导出高清无水印图片,或使用开发者工具提取原图链接。已下载的图片可尝试使用平台内置的消除笔工具处理。
如何用即梦AI制作文字粒子飘散消失特效
实现文字粒子飘散效果需遵循四个步骤:启用动态粒子引擎并配置短生命周期、高随机初速的消散型发射器;将发射器绑定至文字轮廓,设置发射速率递减与径向排斥力;为粒子添加不透明度与缩放的缓出动画,确保视觉消散;最后用反向蒙版裁切粒子,使其脱离轮廓后强制消失,以控制消散。
如何用可灵AI制作森林丁达尔效应光线视频
在可灵AI中创造林间丁达尔光束,可通过图生视频与文生视频两种方法实现。图生视频需上传构图丰富、带薄雾的静态图,并用精准提示词描述光束动态及雾气互动,调整运动参数。文生视频则需结构化描述光源、介质与动态关系,关闭自动美化,设定关键帧引导。效果不佳时可微调提示词或后期。
通义万象文生图与图生图功能区别详解
通义万象的“文生图”与“图生图”存在系统性差异。文生图完全依赖文本描述从零生成图像,适合创意构思。图生图则需基于现有图像进行局部修改或风格迁移,控制更精准。两者在技术路径、适用场景及资源消耗规则上均有不同。
Seede AI优化电商产品标题与描述的实用指南
电商文案优化可借助智能工具提升标题与描述的转化效果。系统能基于产品参数自动生成覆盖多维度信息的高点击率标题,并对描述内容进行视觉与逻辑分层,突出核心卖点。同时支持嵌入图文素材增强可信度,并能跨平台导出可统一编辑的文案资产包,大幅提升维护效率。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

