FlashAR高效微调技术：0.05%数据激活自回归图像模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

FlashAR高效微调技术：0.05%数据激活自回归图像模型

热心网友时间：2026-05-24

转载

大语言模型的突破性进展，使得“下一个词预测”这一核心范式成功扩展至图像生成领域。通过将图像编码为离散的视觉标记，并像预测文本序列一样逐个生成，自回归模型已成为图像生成的主流方法之一。从早期的PixelCNN、iGPT，到近期备受关注的Emu3.5、LlamaGen，自回归模型的图像生成质量已全面对标，甚至在部分细节和可控性上超越了扩散模型。

然而，自回归模型始终面临一个难以回避的性能瓶颈：生成速度过慢。传统的光栅扫描解码方式，严格遵循从左到右、从上到下的顺序，每一步仅能生成一个标记。生成一张512×512分辨率的图像，需要完成32×32=1024步的串行推理，单次生成耗时常常超过两分钟。其延迟与图像分辨率呈线性增长，使得GPU强大的并行计算能力无从发挥。在高分辨率生成和实时交互应用中，这种速度瓶颈严重制约了其实用价值。

为了攻克这一难题，研究社区提出了多种加速方案，但各自存在明显局限：

一是彻底重构生成范式，例如VAR的“下一尺度预测”或NAR的“近邻预测”。这类方法能大幅减少解码步数，但代价是需要从零开始预训练一个全新模型，无法迁移利用现有的大规模预训练权重，导致训练成本极其高昂。

二是通过离散扩散进行适配，如Emu3.5原论文采用的DiDA方法。它通过后训练将自回归模型转化为支持并行解码的离散扩散模型。但这种方法改变了模型原始的预测目标，导致预训练与推理阶段存在不一致性，通常会显著损害生成质量。在我们的复现测试中，Emu3.5经过Block Diffusion后训练后，其生成评估分数出现了较为明显的下滑。

三是采用推测解码等无需训练的加速插件，但其实际加速效果严重依赖于草稿模型的“接受率”，加速上限存在明显天花板。

这引出了一个关键的研究问题：是否存在一种方法，能够在不重新训练、也不改变模型原始学习目标的前提下，将已训练好的高性能自回归模型，高效地改造为高度并行的图像生成器，同时完整保留其强大的生成能力？

近期，来自浙江大学与阿德莱德大学的研究团队给出了一个令人瞩目的解决方案：FlashAR。这是一个极其轻量化的后训练加速框架。它无需从头训练，在拥有340亿参数的巨型模型Emu3.5-Image-34B上，仅使用了原始训练数据的0.05%（约8万张图像），便成功将预训练好的自回归模型改造为高度并行的生成器Emu3.5-34B-Flash，实现了最高22.9倍的端到端加速比。

核心原理：从“串行生成”到“对角线并行解码”

传统的自回归图像生成遵循严格的光栅扫描顺序，如同阅读文字，每一步只预测水平方向的下一个视觉标记。对于一张由H行W列标记构成的图像，生成需要H×W步。

FlashAR的巧妙创新在于，它深刻利用了图像的二维空间特性。如果能让模型同时具备预测“水平方向下一个标记”和“垂直方向下一个标记”的能力，那么在每一个解码步骤中，水平与垂直两个预测头便可并行工作。由此，总解码步数将从H×W急剧减少至H+W-1步。以512×512分辨率（标记化为32×32网格）为例，解码步数从1024步骤降至63步，实现了数量级的效率提升。

随之而来的核心挑战是：如何让一个仅经过“水平方向”预测训练的模型，快速学会“垂直方向”预测？FlashAR通过三个核心组件解决了这一问题。

1. 中间层分支设计

FlashAR并未将新增的垂直预测头直接连接到预训练模型的最终输出层，而是选择从模型的中间层“分叉”，引出一条全新的并行支路，使其与原有的水平预测头协同工作。

为何不直接使用最终层？原因在于：经过完整预训练后，最终层的特征表示已高度特化，完美适配了水平方向的光栅扫描预测任务。这种“专精化”虽然带来了强大的原始生成能力，但也意味着其表征空间可能不再适合直接学习一个全新的垂直预测任务。相比之下，模型中间层的特征通常保留了更丰富、更通用的二维空间结构信息，从此处引出新分支来适配垂直预测，学习效率更高、效果更好。

这一设计还带来了额外优势：从中间层分支后，垂直预测头的计算可与原有分支并行进行，这为模型整体的推理吞吐量提供了进一步的优化空间。消融实验也验证了该设计的合理性：通过对预训练模型不同层的特征进行线性探测评估，发现最终层特征确实不是垂直预测任务的最佳选择，从而支持了中间层分支的策略。

2. 可学习自适应融合门

水平与垂直方向的预测，分别建模了图像在二维空间上互补的依赖关系。它们的相对重要性，在不同图像区域和不同生成阶段很可能动态变化。基于此洞察，FlashAR引入了一个轻量级的多层感知机作为“自适应融合门”。该门控网络能够在每个空间位置的粒度上，智能地融合两个方向的预测结果，避免了固定权重平均可能导致的预测模糊，实现了更精准的生成控制。

3. 渐进式两阶段适配训练

为确保后训练过程的稳定性与数据利用的高效性，FlashAR采用了渐进式的两阶段训练策略：

第一阶段，冻结庞大的预训练骨干网络所有权重，仅优化新添加的垂直预测头，使其快速习得有意义的垂直方向预测能力。第二阶段，解冻骨干网络，联合微调垂直预测头及部分骨干参数，使整个模型更好地适应全新的“对角线并行”解码范式。

在推理部署阶段，FlashAR还集成了硬件感知的优化管线：利用FlexAttention动态编译稀疏的二维近邻注意力掩码，并配合批量化更新KV缓存技术，确保理论上的并行性能够切实转化为端到端的实际加速收益。

实验效果与性能评估

Emu3.5-Image-34B 加速表现

将FlashAR应用于340亿参数的“巨无霸”模型Emu3.5，是对其框架普适性与有效性的严格检验。

实验结果令人印象深刻：仅使用0.05%的原始训练数据（约8000万标记，对应8万张图像），FlashAR便将512×512图像的生成时间从130.10秒大幅缩短至5.68秒，实现了22.9倍的加速。更为关键的是，这种加速几乎未牺牲生成质量。在GenEval综合基准测试中，FlashAR的总分仅微降0.19分（从80.48降至80.29），而在颜色准确性与物体位置两个具体子项上，其分数甚至超过了原始模型。作为对比，BlockDiffusion方法在相同设置下，生成质量出现了显著下降。

ImageNet 类别条件生成基准测试

在ImageNet 256×256的标准条件生成测试中，FlashAR在四种不同模型规模上全面超越了现有的后训练加速方法BlockDiffusion。

其中几个亮点尤为突出：

FlashAR-L模型的Inception Score达到了289.0，甚至超过了需要从头训练的NAR-L模型（263.9），而FlashAR仅需轻量级后训练。FlashAR-B模型实现了每秒447.2张图像的吞吐量，超越了NAR-B模型（419.7 img/s）。FlashAR仅需25个训练周期，这仅为BlockDiffusion所需训练量的三分之一，数据效率极高。

FlashAR 高效性的关键因素

综上所述，FlashAR的成功源于多个核心优势的协同作用：

它完全复用现有的大规模预训练模型，避免了昂贵的从头训练，极大降低了计算成本与门槛。数据利用效率极高，仅需万分之五的原始数据即可完成有效适配。在实现惊人加速比的同时，生成质量保持近乎无损，部分评估指标还有所提升。框架通用性强，已在不同模型架构与规模上得到有效验证。最终实现了显著且可实际部署的端到端加速，推动自回归视觉模型走向实用化。

FlashAR的研究证明了一个重要结论：通过精心设计的、轻量级的后训练适配，完全可以在几乎不改变模型原始训练目标的前提下，将串行的自回归模型，高效地改造为高度并行的图像生成器，并完整继承其强大的预训练先验知识。这为大规模自回归视觉模型在实际场景中的高效部署与应用，开辟了一条极具前景的新路径。

来源:https://www.163.com/dy/article/KTNA7SNQ0511AQHO.html

上一篇： Vidu生成物理交互画面的真实感如何

下一篇： QoderWake集成Git实现智能分支切换与Commit模板配置