阿里与港科大突破AI绘图模型灾难性遗忘难题实现快速出图

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

阿里与港科大突破AI绘图模型灾难性遗忘难题实现快速出图

热心网友时间：2026-05-13

转载

这项由香港科技大学、阿里巴巴Z-Image团队、加州大学圣地亚哥分校和香港中文大学联合完成的研究，以技术报告形式发布于2026年5月，论文编号为arXiv:2605.05204。对于技术细节感兴趣的同行，可以通过这个编号在arXiv平台上查阅全文。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

香港科技大学与阿里巴巴联手破解AI绘图模型的

一、当AI画师学了新技能，却忘了怎么快速出图

如今，像Z-Image-Turbo和FLUX.2-klein这类“快速出图模型”或“快速文生图模型”已经成了行业宠儿。它们经过特殊的“提速训练”或“蒸馏优化”后，只需四步或八步迭代，就能生成一张高质量的图像，效率远超过去需要几十甚至上百步的老式扩散模型，质量却毫不逊色。

但一个核心问题也随之而来。当你想让这些“快枪手”学习点新知识——比如记住某个特定玩偶的模样（即概念定制），或者掌握一种独特的艺术风格（即风格微调）——麻烦就出现了。沿用传统的微调方法给模型“补课”，往往会严重损害其快速出图的能力。原本四步就能勾勒出的清晰画面，学完新知识后，可能退化成一团模糊的涂鸦，需要更多步骤才能勉强成型，这被称为“灾难性遗忘”或“能力退化”。

这就好比一位能用寥寥数笔完成精准素描的画家，在上完一堂新技法课后，反而需要反复涂抹上百笔才能画出一幅像样的作品，原有的灵巧与效率荡然无存。

研究团队将这个问题称为“训练测试不一致”。其根源在于，常规的微调方法，是将加了噪声的目标图像塞给模型，让它学习从这些被污染的“错误起点”预测回干净图像。然而，这些人为构造的噪声状态，与模型在实际快速出图时经历的那几个关键步骤，根本不在同一条轨迹上。模型在“错误的道路”上学到的东西，自然无法在“正确的道路”上发挥作用，甚至会扰乱原有的出图节奏和采样动力学。

于是，核心挑战变得明确：必须找到一种方法，让快速出图模型能够持续学习新知识，同时绝不牺牲其赖以成名的“快准稳”天赋。

二、“强化学习”的路走不通，“普通补课”的路又太窄

在介绍最终方案前，不妨先看看那些被排除的选项，理解为什么看似合理的路径都行不通。

首先想到的是强化学习。既然普通微调会打乱节奏，那么让模型在自己真实的出图过程中，通过“试错-奖励”来学习，是否可行？理论上，这条路确实不会损伤快速出图能力，因为模型始终在自己实际行走的轨迹上学习。

但强化学习有个致命前提：你需要一个精准的“评分官”（即奖励模型），来告诉模型什么样的图是好图。这对于资源雄厚的大公司或许不是问题，但对于广大的开发者和创作者而言，他们通常只有一批图文配对数据，根本没有条件去训练一个复杂的奖励模型。

因此，一个更贴近现实的目标被提了出来：解决方案必须仅依赖普通的图文对数据，无需任何额外评分工具；同时，训练必须发生在模型真实的出图轨迹上，以避免路线偏差。这听起来像是“既要马儿跑，又要马儿不吃草”，但研究团队确实找到了一个巧妙的突破口。

三、一个意外发现：模型天生就有“参照临摹”的能力

转机来自对模型架构本身的深入观察。新一代快速出图模型与早期模型有一个关键区别：它们的文本编码器不再是单纯的T5或CLIP，而是换成了大语言模型或多模态大模型。这就好比早期的模型只有一个“文字秘书”，而新模型的秘书升级成了“图文通才”。

研究团队做了一个简单却关键的实验：他们将一张目标图像和一段文字描述同时输入这个“通才秘书”，得到一个融合了图文信息的“多模态特征”，再用这个特征去引导模型出图；同时，他们也测试了仅输入文字描述的“纯文本特征”情况。

对比结果令人惊喜。当模型接收到“多模态特征”时，即使未经任何额外训练，其生成的图像也会自发地保留目标图像的概念风格或视觉特征。例如，目标图是一只毛绒玩具狼，生成的图像就会出现造型相似的毛绒狼；目标图是某种港口色调，生成的图像也会呈现类似的色彩氛围。模型似乎天生就具备“参照临摹”的潜力，这为后续的“自蒸馏”训练提供了可能。

这个发现打开了新思路：既然模型可以通过“参照特征”获得更强的出图指导，那么何不利用这一点，构建一个“老师”，来教导同一个模型在仅使用“文字特征”时，如何学习新知识？

四、D-OPSD：让同一个模型同时扮演学生和老师

基于上述洞察，研究团队提出了D-OPSD（在线策略自蒸馏）方法。其核心思想可以用一个学画场景来类比。

想象一位画家，平时接单只收到文字描述（如“一只坐在木地板上的狼形玩具”），然后凭理解创作。而在培训时，教练会在旁边放一张参考照片，让他对照着画，自然能画得更像。D-OPSD的做法是：在训练期间，让这位画家“一人分饰两角”——一个是只看文字描述作画的“学生”（正常出图模式），一个是同时参照目标图片和文字描述作画的“老师”（增强模式）。学生按照自己平时的四步节奏画出一幅草稿，老师则在同样的这四个步骤上，基于更全面的信息做出自己的判断。最终，用老师的判断来纠正学生的判断，引导学生向老师靠拢。

关键在于，整个学习过程始终发生在学生自己真实的出图轨迹上。老师并没有从一个被噪声污染的、与正常出图完全不同的起点去指导学生；而是和学生站在同一条路的同一位置，只是手里多拿了一张“参考照片”，从而能给出更具指导性的建议。这就彻底避免了“训练路线”与“出图路线”的偏差，保住了快速出图的能力。

从技术实现看，模型在每个出图步骤都会预测一个“速度方向”，决定图像如何从噪声演变为清晰画面。D-OPSD让学生和老师在同一个步骤、同一个状态点上，分别预测速度方向，并通过最小化两者差异来训练学生。老师的参数通过指数移动平均技术从学生参数平滑更新而来，这保证了老师既能追踪学生的进步，又不会因学生的单次波动而剧烈变化，确保了训练稳定性。

这一机制在语言模型领域早有先例——“在线策略自蒸馏”已在大型语言模型的持续学习中验证有效。D-OPSD的贡献在于，成功地将这一思路迁移到图像生成领域，并解决了最关键的难题：如何在不破坏出图轨迹的前提下，将目标图像的信息有效引入训练过程。

五、实验验证：新知识学到了，老本领也没丢

研究团队在Z-Image-Turbo和FLUX.2-klein两个主流快速出图模型上，对D-OPSD进行了全面测试，涵盖小规模概念定制与大规模风格微调两种场景。

在小规模定制（约4张图）测试中，目标是让模型记住如特定毛绒玩具等概念，并在全新场景描述中生成它。评估指标包括概念相似度、文本跟随能力、图像质量与美感等。

结果显示，在Z-Image-Turbo上，D-OPSD在图像质量与美感分数上显著优于传统微调方法，证明其快速出图能力得到了完好保留。在概念学习上，D-OPSD与当时先进的PSO方法在相似度上持平，但在文本跟随能力上大幅领先，这表明D-OPSD学到的概念能更好地迁移到训练集未见过的新场景中，而PSO则出现了过拟合，换描述就不灵了。在FLUX.2-klein模型上也观察到高度一致的优势。

在大规模风格微调（2.5万张动漫图）测试中，目标是让模型偏向动漫风格，同时不忘旧识。除了风格相似度，还增加了FID指标以及Geneval、DPG等综合基准来评估模型原有知识的保留情况。

结果更具说服力。D-OPSD微调后的模型，其FID分数远优于其他方法，甚至接近未微调的基础模型，说明风格学习成功且分布自然。更重要的是，在Geneval和DPG基准上，D-OPSD模型的得分与基础模型差距很小，而传统微调方法得分则大幅下滑，意味着后者在学新风格时几乎遗忘了大量原有知识。这清晰地证明了D-OPSD在实现持续学习上的有效性。

六、消融实验：拆开每个零件，看看各自的贡献

为了厘清D-OPSD各个组件的作用，研究团队进行了一组“拆解”实验，对比了四种训练方案：1）传统目标图像流匹配训练；2）用“老师”生成的样本做流匹配训练；3）在固定数据集上让学生对齐老师预测；4）完整的D-OPSD（在学生自身轨迹上对齐老师）。

实验结果通过两条曲线清晰呈现。在图像质量曲线上，传统方法随着训练步数增加持续下滑，印证了“能力受损”问题；而三种涉及“老师”的蒸馏方案，质量均保持稳定甚至提升，说明蒸馏思路本身是保护出图能力的关键。在概念相似度曲线上，完整的D-OPSD收敛速度最快，学习效率最高。

此外，关于“老师”模型的构建方式也经过了精细调试。直接使用学生副本会导致训练崩溃；使用冻结的原始模型作为老师则效果有限；最终，采用高平滑系数的指数移动平均来更新老师参数，取得了最佳效果，能够在保持训练稳定的同时，有效追踪学生的学习进程。

七、技术细节：为什么直接换个VLM编码器行不通

在工程实现中，团队遇到了一个具体挑战。Z-Image-Turbo和FLUX.2-klein都使用Qwen3-4B作为文本编码器。为了让“老师”能处理多模态输入，最直接的想法是将编码器替换为对应的多模态版本Qwen3-VL-4B。

但测试发现，直接替换会导致生成图像出现高频噪点和过度锐化。问题根源在于“特征空间不一致”：Qwen3-VL虽然基于Qwen3-LM继续训练，增强了多模态能力，但其输出的特征分布已经与绘图模型最初训练时所适应的分布发生了偏离。

解决方案颇具创意：进行“参数拼接”。保留Qwen3-VL的视觉感知部分，但将其语言处理部分的参数替换回Qwen3-4B的参数。这样，模型保留了理解图像的能力，同时输出的特征分布又重新对齐了绘图模型的训练环境。这相当于将VLM“回退”到视觉能力已具备、但语言参数尚未大幅更新的一个中间状态，虽然多模态理解稍弱，但对绘图模型更为友好。

可以预见，随着“原生多模态”架构成为语言模型的主流，未来编码器从一开始就在统一框架内训练，这种特征空间偏离问题将自然消失，D-OPSD的实现也会更加简洁。

八、还有哪些事情做不到，以及未来能走向哪里

研究团队对方法的局限性保持了坦诚。

首先，D-OPSD的训练成本大约是普通微调的两倍（每次迭代需同时计算学生和老师的轨迹），计算量约为四倍。但这个代价被认为是值得的，因为若采用普通微调，之后通常需要额外的“提速蒸馏”来恢复快速出图能力，总体算来D-OPSD反而可能更经济。

其次，方法的有效性依赖于“老师”的能力。如果“老师”模式本身就无法根据给定的多模态特征生成有意义的图像变体（例如，目标是一个特定角色，老师却只生成了普通背景），那么整个训练就会失败，因为老师无法提供有效的指导信号。

展望未来，有几个方向值得探索：可以引入图像编辑或视频生成模型来构建更强的“老师”侧参考信号；可以将D-OPSD与其他训练约束相结合以提升效果；还有一个有趣的设想，即先训练多个不同领域的“专家模型”，再通过D-OPSD将它们的知识蒸馏回一个统一的“基础模型”，实现多能力聚合。

归根结底，这项研究解决了一个看似简单、实则棘手的难题：如何让一个已经掌握“快速出图”内功的AI画师，还能持续学习新题材而不伤及根本。答案的核心是：让模型在自己真实的出图道路上，接受一个“更强自己”的指导，步步为营，稳健进化。

对于开发者和使用者而言，这意味着未来定制专属的快速出图AI时，或许不再需要在新知识学习与速度质量保持之间做痛苦权衡。一个既快又好、还能持续成长的AI画师，正变得越来越触手可及。

Q&A

Q1：D-OPSD方法为什么不会损坏快速出图模型的出图能力？

A：根本原因在于，D-OPSD的训练始终锚定在模型自己真实的四步或八步出图轨迹上。老师和学生都在模型实际行走的路径上进行比较和优化，因此不会干扰其固有的高效采样节奏。相比之下，传统微调是在一条模型从未也不会经历的、由噪声图像构造的路径上学习，自然会破坏原有的出图动力学。

Q2：D-OPSD训练时老师和学生有什么区别？

A：老师和学生本质是同一套模型参数的不同“模式”。学生模式仅接收文本特征输入，与模型正常推理时完全一致；老师模式则接收融合了目标图像信息的“多模态特征”输入，因此能基于更全面的参考信息做出预测。训练的目标是让学生在自己出图的每一步上，其预测方向都逐渐向老师的预测方向对齐，从而将目标图像的信息内化到学生模型中。

Q3：PSO方法和D-OPSD有什么本质差异，为什么PSO会过拟合？

A：核心差异在于训练数据的来源。PSO方法的训练状态和监督信号仍然来源于由目标图像构造的固定数据集，这些状态并非模型当前出图策略所产生的。因此，模型学到的是如何复现训练集中那些特定状态，缺乏泛化性，遇到新的文本描述时表现就会下降。而D-OPSD始终基于模型自身当前出图策略所产生的实时轨迹进行学习，学到的知识更具普适性，能够更好地迁移到未见过的场景描述中。

来源:https://www.techwalker.com/2026/0512/3186634.shtml

上一篇： Figma实例查找器快速定位过时组件方法

下一篇： AI智能体未来趋势与企业文化核心作用解析