当前位置: 首页
AI资讯
FlashAR高效微调技术:0.05%数据实现22.9倍图像生成加速

FlashAR高效微调技术:0.05%数据实现22.9倍图像生成加速

热心网友 时间:2026-05-24
转载

大语言模型的突破性进展,使得“下一个词预测”这一核心范式成功地从文本领域扩展至图像生成领域。其基本原理是将图像编码为离散的视觉标记(token),然后以自回归的方式逐个预测,如同完成一幅视觉拼图。从早期的PixelCNN、iGPT,到近期的Emu3.5、LlamaGen,自回归图像生成模型的质量已大幅提升,在多项任务上甚至媲美或超越了当前主流的扩散模型。

然而,一个显著的性能瓶颈也随之凸显:生成速度过慢。传统的自回归模型采用光栅扫描顺序解码,即从左到右、从上到下逐token生成。这种串行方式导致生成一张512×512分辨率的图像(通常对应32×32=1024个视觉token)需要执行上千步顺序推理,单卡耗时往往超过两分钟。其延迟与图像分辨率呈线性增长,却无法充分利用GPU强大的并行计算能力。这严重制约了其在需要高分辨率输出或实时交互场景下的实际应用与部署。

现有加速方案及其局限

为了攻克这一效率难题,研究人员探索了多种技术路径,但各自存在明显短板:

  • 重构生成范式:例如VAR的“下一尺度预测”、NAR的“近邻预测”或PAR的分组并行解码。这些方法能显著减少解码步数,但核心问题在于,它们通常需要从零开始预训练全新的模型,无法直接迁移和利用现有的大规模预训练自回归模型,导致训练成本极其高昂。
  • 离散扩散适配:以Emu3.5中采用的DiDA(离散扩散适配)为代表。该方法通过后训练将自回归模型转换为支持并行采样的离散扩散模型。但其代价是改变了模型原始的预测目标函数,造成预训练任务与推理任务之间的不一致,往往导致生成图像质量出现可感知的下降。
  • 推测解码:作为一种无需额外训练的“即插即用”加速技术,其实际加速效果高度依赖于草稿模型的预测准确率(接受率),加速上限相对有限,难以实现数量级的提升。

因此,一个关键的研究问题亟待解决:能否在不重新训练、也不改变模型原始学习目标的前提下,将已训练成熟的自回归模型,高效地改造为支持高度并行化的生成器,并完全保留其卓越的生成能力?

近期,来自浙江大学与阿德莱德大学的研究团队提出了一个突破性的解决方案:FlashAR。这是一个极其轻量化的后训练加速框架。无需从头预训练,仅需利用原始训练数据的极小部分(例如,在拥有340亿参数的Emu3.5-Image-34B模型上,仅使用约0.05%即8万张图片),即可将预训练好的自回归模型转化为并行生成器,实现最高达22.9倍的端到端生成加速。

核心原理:从“串行逐个”到“对角线并行”

理解FlashAR的巧妙设计,需从传统自回归模型的工作机制入手。它们严格遵循一维光栅扫描顺序,每一步仅预测当前token右侧的下一个token。对于一张由H行W列token构成的图像,总共需要H×W步才能完成生成。

FlashAR的关键洞见在于:图像本质是二维结构。如果能让模型同时具备预测“右侧”和“下方”相邻token的能力,那么在每一个解码步,模型就可以沿着图像的对角线方向,并行预测一整批token。如此一来,总解码步数将从H×W急剧减少至H+W-1步。以512×512分辨率(token网格为32×32)为例,解码步数从1024步降至仅63步,理论加速潜力巨大。

那么,如何让一个只学过“向右看”的模型,快速学会“向下看”?FlashAR通过三个精心设计的核心组件实现了这一目标。

1. 中间层特征分支

FlashAR并未简单地将新增的垂直预测头连接到预训练模型的最后一层。相反,它选择从模型的中间网络层引出分支,构建一条与原有水平预测头并行的新支路。

为何不直接使用最终层特征?原因在于,经过充分预训练后,模型最终层的特征表示已高度特化,专精于原始的水平方向预测任务,但其空间信息的通用性和灵活性可能有所减弱。相比之下,模型中间层的特征通常保留了更丰富、更通用的二维空间上下文信息,因此更适合作为学习新预测方向(垂直方向)的起点。

这一设计还带来额外优势:由于从中间层就开始分支,垂直预测头的计算可以与原有水平分支的计算并行执行,这为进一步提升整体推理吞吐量创造了条件。

2. 自适应融合门控机制

水平与垂直两个方向的预测,实际上分别建模了图像中互补的空间依赖关系。它们的相对重要性在不同图像区域、不同空间位置应是动态变化的。基于此,FlashAR引入了一个轻量级的多层感知机(MLP)作为可学习的融合门控。该模块能在每个token的位置上,自适应地学习如何加权融合两个方向的预测结果,从而避免了简单平均池化可能导致的细节模糊,实现了更精准的预测融合。

3. 渐进式两阶段适配训练

为确保后训练过程的稳定性与数据高效性,FlashAR采用了渐进式的两阶段训练策略:

  • 第一阶段(垂直头训练):完全冻结预训练好的骨干网络权重,仅训练新添加的垂直预测头,使其快速学习有意义的垂直方向预测能力。
  • 第二阶段(联合微调):解冻骨干网络的部分层(通常是靠近分支的层),与垂直预测头进行联合微调,使整个模型更好地协同适应新的并行解码范式。

在推理部署阶段,FlashAR还集成了硬件感知的优化技术。例如,利用FlexAttention动态编译稀疏的二维近邻注意力掩码,并结合批量化键值(KV)缓存更新策略,确保理论上的并行性能够高效转化为实际的端到端加速收益。

实验效果与性能评估

Emu3.5-Image-34B模型加速表现

将FlashAR应用于参数量高达340亿的Emu3.5模型,是对其扩展能力的严格检验。实验结果令人印象深刻:

仅使用0.05%的原始训练数据(约8万张图片)进行适配,FlashAR便将512×512图像的生成时间从130.10秒大幅缩短至5.68秒,实现了22.9倍的端到端加速。更为关键的是,这种加速几乎未牺牲生成质量。在综合评估基准GenEval上,FlashAR模型的总分仅比原始模型微降0.19分(从80.48降至80.29),且在“颜色准确性”和“物体位置”两个子项上,得分甚至超过了原始模型。作为对比,同样采用后训练方式的BlockDiffusion方法,在相同设置下性能下降显著,GenEval总分降至73.83。

ImageNet类别条件生成基准测试

在ImageNet 256×256类别条件生成标准测试中,FlashAR在四种不同模型规模(Base, Large, XL, XXL)上均全面超越了现有的后训练加速方法BlockDiffusion。

其中几个突出亮点包括:

  • FlashAR-L模型的Inception Score (IS)达到了289.0,这一分数甚至超过了需要从头开始训练的NAR-L模型(263.9),而FlashAR仅需轻量级后训练。
  • FlashAR-B模型的生成吞吐量高达447.2 img/s,超过了NAR-B模型的419.7 img/s。
  • FlashAR仅需25个训练周期即可收敛,这仅为BlockDiffusion所需训练周期的三分之一,数据效率极高。

FlashAR高效性的核心优势总结

综上所述,FlashAR的成功源于其以下几大核心优势:

  • 免于从头训练:直接复用现有强大的预训练自回归模型,站在巨人肩膀上。
  • 数据利用极致高效:仅需极少量数据(如0.05%)进行轻量适配,大幅降低计算成本。
  • 生成质量无损保持:在实现数量级加速的同时,图像生成质量几乎无损,部分指标还有提升。
  • 框架通用性强:其有效性已在从1.2亿到340亿参数的不同规模模型(如LlamaGen, Emu3.5)上得到广泛验证。
  • 实际加速效果显著:最高22.9倍的端到端加速比,使得高分辨率自回归图像生成具备了实际应用价值。

FlashAR的研究工作证明了一个重要观点:通过精巧的后训练适配架构设计,我们完全可以在几乎不改变原始模型核心学习目标的前提下,将串行解码的自回归模型,高效地改造为支持高度并行的强大生成器。这为释放大规模预训练自回归视觉模型在实用场景中的巨大潜力,开辟了一条高效、可行且极具前景的新路径。

来源:https://www.jiqizhixin.com/articles/2026-05-23-8

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
谷歌Nano Banana 2图像生成模型全面解析

谷歌Nano Banana 2图像生成模型全面解析

什么是Nano Banana 2? 在竞争激烈的AI图像生成领域,谷歌DeepMind再次取得突破性进展。其最新发布的Nano Banana 2,是Gemini 3 1 Flash模型在视觉创作方向的专项强化版本。该模型的核心优势在于,深度融合了庞大的知识图谱与实时网络检索能力,使其不仅具备“绘画”

时间:2026-05-24 07:08
清华联合斯坦福推出具身世界模型Ctrl-World

清华联合斯坦福推出具身世界模型Ctrl-World

Ctrl-World是什么 在机器人技术研发中,一个核心挑战是如何在虚拟仿真环境中,高精度地模拟真实物理世界的复杂规律。近期,由清华大学陈建宇团队与斯坦福大学Chelsea Finn团队联合研发的具身世界模型——Ctrl-World,为此提供了突破性解决方案。该模型在权威评测平台WorldArena

时间:2026-05-24 07:07
MiniMax OpenClaw 一键云端部署方案详解

MiniMax OpenClaw 一键云端部署方案详解

MaxClaw是什么 如果你正在寻找一个能快速上手的AI智能体部署方案,MaxClaw值得重点关注。简单来说,它是MiniMax Agent平台推出的OpenClaw一键云端部署方案。最大的亮点是什么?彻底告别繁琐的服务器配置。用户只需点击几下,10秒内就能完成部署,真正实现了零技术门槛和零后期维护

时间:2026-05-24 07:07
阿里开源轻量向量数据库Zvec嵌入式应用指南

阿里开源轻量向量数据库Zvec嵌入式应用指南

Zvec是什么 在构建AI应用时,高效精准的向量相似度检索往往是核心需求。然而,传统独立的向量数据库通常需要复杂的部署和运维流程,对于追求快速迭代和轻量化的开发团队而言,这套方案显得过于笨重。那么,是否存在一种更便捷的解决方案,能够像调用普通Python库一样轻松实现向量检索呢? 答案是肯定的。Zv

时间:2026-05-24 07:07
开源NanoClaw轻量AI助手安全替代OpenClaw

开源NanoClaw轻量AI助手安全替代OpenClaw

在开源AI助手领域,一个名为NanoClaw的项目正吸引着技术社区的注意。它被定位为OpenClaw的轻量级替代品,其核心设计理念围绕着安全与用户掌控展开。每个运行在其中的智能体(Agent)都被置于独立的沙箱环境中,仅能访问用户明确挂载的目录,从架构层面强化了隔离性。 NanoClaw的主要功能

时间:2026-05-24 07:07
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程