字节跳动与新加坡国立大学合作推出AI调色师

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

字节跳动与新加坡国立大学合作推出AI调色师

热心网友时间：2026-07-01

转载

这项由字节跳动、新加坡国立大学、马里兰大学和香港科技大学联合完成的成果，以预印本形式于2026年6月25日发布在arXiv平台，论文编号arXiv:2606.27377。

先设想一个场景。你打开一款AI绘画软件，希望它既能根据一句描述凭空生成一张精美的照片，又能把你手中那张普通的咖啡馆街景一键转为油画风格，甚至还能只把画面中的咖啡杯换成一只小猫，而其他所有细节都保持不变。这三件事听起来都不算困难，但让同一个AI模型同时完美完成它们，却是一个极其棘手的挑战。

这就好比要求同一位厨师，既要能做出一流的原创佳肴，又要能精准复刻一道老菜，还得在不改变整桌菜肴风味的前提下，悄悄替换其中一道菜的食材。这三件事对厨师的要求截然不同，甚至在本质上相互冲突——一个追求极致创意的厨师，往往很难忍受“照单复刻”的约束。

研究团队将这个困境提炼为一个核心问题：如何让一个AI模型同时掌握多种能力，并且这些能力之间不会互相拖累？他们的答案，就是这篇论文提出的方法——DanceOPD，一个“现场取经”式的生成能力蒸馏框架。

一、为什么AI同时学多种技能这么难

要理解这个难题，得先了解现代AI图像生成模型的底层逻辑。这类模型的本质，是在一张充满噪点的“雪花屏”上，逐步“擦去”噪点，最终还原出清晰的图像。每一步擦除的方向和力度，就是所谓的“速度场”——模型在每个时刻、每个位置，都需要判断“该往哪个方向擦”。

当模型只做一件事，比如纯粹的文字生图，它只需要学会一种擦除方式。可一旦要求它同时掌握“自由创作”、“局部精确修改”和“整体风格改变”三种截然不同的能力，麻烦就来了。

文字生图需要模型放开手脚，追求整体的视觉冲击力和对文本的高度忠实。局部编辑则要求它小心翼翼，像外科手术一样仅改动指定区域，周围保持不变。全局编辑介于两者之间——要大幅度改变整体氛围，例如把照片变成梵高风格，但又不能让人物面目全非。

这三种能力的“拧劲”极为明显。一旦把它们混在一起训练，模型就会变得不上不下：文字生图能力被编辑任务拉偏，编辑任务又被全局风格转变的思路带跑，最终每种能力都只剩下平庸的“平均水平”。就像同时学钢琴、游泳和举重，不仅进步缓慢，还可能因为肌肉记忆相互干扰而三项都学得一塌糊涂。

现有的解决方案各有各的短板。把不同类型的数据混在一起训练，会导致每种能力的监督信号被稀释；把不同模型的参数强行合并，则像把几个厨师的菜谱叠加，往往得到一个不伦不类的产物；至于在推理时才把不同模型的信号合并，等于把问题踢给了用户，模型自身根本没有学会如何协调这些能力。

二、把每种能力看作一种“速度场”：换个角度，豁然开朗

DanceOPD的出发点非常优雅——重新定义问题。研究团队不再把“文字生图能力”、“局部编辑能力”、“全局编辑能力”当作三种截然不同的东西，而是统一看作同一片“地图”上的三种不同“导航方式”。

这片“地图”，就是模型在去噪过程中经过的“状态空间”——从满是噪点的雪花屏到清晰图像之间的所有中间状态。无论是文字生图、局部编辑还是全局编辑，模型都在同一片地图上行走，只是路线不同。每种能力，本质上就是在每个位置、每个时刻告诉模型“该往哪走”——这正是“速度场”的含义。

有了这个统一视角，多能力的组合问题就变成了“如何在地图上同时服从多个向导”。研究团队把每个训练好的专项模型（文字生图专家、编辑专家、风格转换专家）都当作“冻结的向导”，它们已经知道在每个位置该怎么走，而需要训练的“学生模型”则要学会在合适的时候听从合适的向导。

这种框架带来一个额外好处：连“分类器自由引导”（CFG，一种让AI更“听话”的调节技术）也可以被看作一种速度场，直接学进模型，省去推理时反复计算的麻烦。

三、三个关键问题：向哪个向导取经、在哪里取经、取几次

一旦把多能力组合转化为“向多个向导取经”的问题，三个具体的设计选择就摆上台面，它们直接决定了最终效果。

第一个问题：同一张训练图，应该同时向所有向导取经，还是每次只向一个向导取经？

乍看之下，同时听取所有向导的建议似乎更高效。但问题在于，不同向导的建议方向可能截然相反。文字生图向导说“往左走”，局部编辑向导说“往右走”，两个指令平均一下，结果就是“哪儿也去不了”。这就像同时接到两个朋友的电话，一个让你去北京，一个让你去上海，折中一下，你就在两个城市之间的小城待着，哪边的会都赶不上。

DanceOPD的解决方案是“硬路由”：每张训练图只听从一位向导。文字生图的样本向文字生图专家取经，编辑样本向编辑专家取经，风格样本向风格专家取经，绝不混搭。长期下来，学生模型通过分门别类的训练，自然而然地学会每种情境下该走哪条路，各个能力的学习互不干扰。

第二个问题：应该在“向导熟悉的路”上取经，还是在“学生自己走过的路”上取经？

一个向导在自己熟悉的路上游刃有余，但学生走的路可能和向导习惯的不一样。如果学生在一条向导从未走过的路上，却按照向导在另一条路上给出的建议行动，结果往往南辕北辙。这就是“分布偏移”问题——好比你在陌生城市迷路，打电话给在北京的朋友问路，他按北京路况给你指路，对你毫无用处。

DanceOPD的做法是，每次取经都发生在学生自己“走路”过程中经过的真实状态上。训练时先让学生模型完整走一遍去噪的路，记录下实际经过的中间状态，再在这些状态上向对应向导取经，用向导给出的方向来纠正学生。这样，取经地点始终与学生真实的生成路径保持一致，从根本上消除了“路况不符”的问题。

第三个问题：在学生的这条路上，应该在很多地方取经，还是只在一个地方取经？

直觉上，取经次数越多、覆盖越全，效果应该越好。但研究团队发现，事情没这么简单。学生在一次完整的去噪过程中，所有中间状态都来自同一个初始噪点、同一段文字描述、同一次生成过程——它们携带的信息高度重叠，多取一千次并不会比取一次多知道多少新东西。

专业地说，同一次生成过程中的多个状态之间存在高度相关性。用它们反复调整模型，相当于反复用同一个方向的力推同一个方向，可能适得其反——不仅浪费计算资源，还可能让某些能力的训练信号被过度强调，打破能力间的平衡。

DanceOPD的选择是：每次只取一次经，而且专门选在去噪路径接近终点的地方。为什么是终点？因为越靠近最终的清晰图像，状态中包含的信息越具体——风格细节、颜色倾向、局部属性都集中在此，恰恰是编辑和风格相关能力最需要学习的信号密集区。而高噪点区域的状态主要携带粗糙的结构信息，与具体能力关联不大。

四、一步训练的完整流程：三个设计打包在一起

把上面三个设计组合起来，DanceOPD的每一步训练就变成了一个简洁的流程：

首先，随机抽取一个能力方向（比如今天这个样本属于“局部编辑”），从对应训练数据里取一张图。然后，让学生模型对这张图从头到尾走一遍去噪的路，记录整个路径——这次走路不计算梯度，只是用来观察学生走到了哪儿。接着，在靠近终点的地方选一个具体位置，询问“局部编辑向导”：在这里，你会怎么走？把向导的建议和学生自己的判断做对比，计算两者之间的差距，并用这个差距更新学生模型的参数。

整个过程使用的损失函数是最简单的“速度均方误差”——即向导建议的方向与学生实际方向之间的距离平方。研究团队从理论上证明了，在特定的数学假设下，这种最简单的均方误差等价于更复杂的KL散度，用它作为训练目标有充分的理论依据。

五、实验结果：四种场景，全面验证

研究团队在四种不同场景下对DanceOPD进行了测试，涵盖能力组合和能力吸收两大类任务，主要底座模型是字节跳动自研的Z-Image，还使用了SD3.5-M进行真实感增强测试。

场景一：文字生图 + 图像编辑。挑战在于，让模型学会各种编辑操作（换背景、换风格、换颜色、删除对象、替换对象等）的同时，保住它原本强大的文字生图能力。衡量编辑能力的指标叫GEditBench，衡量文字生图能力的指标叫GenEval。

DanceOPD在GEditBench的平均分上，比最强的其他在线蒸馏方法高出8.1%，比单独的编辑专家模型还高出8.5%。同时，GenEval总分比文字生图专家模型还略高2%，优于所有对比方法。特别值得关注的是，在需要大幅度视觉改变的类别上（如背景更换、风格转换），DanceOPD的优势尤为明显——背景更换比DiffusionOPD高了21.9%，风格转换高了21.3%。

场景二：局部编辑 + 全局编辑。这个场景更为棘手。局部编辑强调“保住大局，只动局部”，全局编辑则要求“大刀阔斧，整体变换”，两种哲学几乎正面冲突。DanceOPD在GEditBench平均分上比最强竞争方法高16.1%，比局部编辑专家模型还高7.9%，GenEval总分也高于所有对比方法2.5%。具体来看，背景更换比最强对比方法高33.5%，风格转换高12.9%，颜色调整高11.6%。

场景三：真实感增强能力的吸收。任务是让一个基础文字生图模型，通过向一个专门训练过的“高真实感向导”学习，让生成的图像更接近真实照片质感，同时不损失原有的文字理解能力。DanceOPD的真实感评分比离线蒸馏方法高9.9%，成功弥合了学生模型和真实感向导之间85.3%的差距，而文字生图能力的得分不仅没有下降，反而比未蒸馏的学生模型提高了7.6%。

场景四：分类器自由引导（CFG）的吸收。测试能否把推理时才用到的“听话程度调节”直接烤进模型里，减少推理时的计算量。实验发现，训练时用α作为引导强度、推理时再用β做额外引导，两者效果会叠加，大约相当于α×β的综合强度。最佳组合配置下，GEditBench平均分比仅在训练时做吸收的方案高7.6%，比仅在推理时使用引导的方案高1.4%。但训练和推理都用了很大引导强度时，两者叠加会导致“过度引导”，效果大幅下降31.2%。

六、拆解实验：每个设计选择到底贡献了多少

为了验证每个设计选择的必要性，研究团队还做了一系列仔细的消融实验。

关于“硬路由 vs. 软混合”，数据非常清晰。用均方误差损失时，硬路由比软混合（把所有向导建议平均在一起）高出15.2%，在背景更换和删除对象这两个类别上，优势分别达到20.8%和26.8%。换用另一种加权损失函数，硬路由依然高出10.6%。这表明，核心问题不在于用什么损失函数，而在于每次取经的目标是否清晰。

关于“同步积累 vs. 轮流更新”，实验设置了每次更新同时考虑三种能力的情况（同步积累），结果平均分比单次更新下降了4.6%，而且能力间的平衡被打乱——某些能力分数上升了，但其他能力（尤其是删除对象和添加对象）分别下降了13.5%和17.5%。当同步积累还叠加多状态密集取经时，情况更糟，平均分下降22.8%，添加对象下降28.9%，删除对象更是暴跌46%。

关于密集取经时的相关性问题，研究团队用了一个巧妙的验证方式：把原本确定性的去噪路径（ODE）换成加了随机噪声的路径（SDE），减少取经点之间的相关性。结果发现，加噪声确实把密集取经的差结果改善了18.4%，间接证明了“相关性是问题根源”。但即便如此，改善后的结果依然比单次语义侧取经低8.6%，而且加噪声本身也影响了其他情况的表现。所以，最安全的选择仍然是从一开始就使用单次语义侧取经。

关于取经位置的选择，实验对比了在靠近终点（低噪声）、中间（中噪声）和远离终点（高噪声）三种区域取经的效果。在2000步训练时，低噪声取经比中噪声高出23.7%，比高噪声高出19.5%。其中，添加对象类别上，低噪声分别比中、高噪声高出35.9%和46.1%；背景更换比中噪声高36.1%；删除对象比中噪声高42.3%。这有力地支持了“能力相关信息在低噪声区域更密集”的判断。

关于损失函数的选择，纯粹的速度均方误差在所有测试变体中表现最好，比加权均方误差和DMD-EMA混合方案高2.8%，比一致性正则化方案高4.1%，比KL加权方案高4.5%。更复杂的DMD2系列变体和辅助特征蒸馏方案，平均分比最简单的均方误差低15.6%到21.1%。这说明，当目标是一个确定性的速度场时，直接做速度回归是最稳定、最有效的选择。

关于学生模型的初始化，实验比较了从局部编辑专家、全局编辑专家、文字生图专家和合并初始化四种起点出发的效果。从局部编辑专家出发，2000步训练后比合并初始化高37.2%，比全局编辑初始化高112.8%，比文字生图初始化高204.4%。这意味着，一个更好的初始学生，从一开始就走的路更接近正确区域，向导在这些状态上给出的建议也更有价值、更可用。

关于训练时去噪步数的选择，实验发现16步是一个不错的默认选择——比8步、20步和28步在GEditBench平均分上分别高出0.2%、3%和0.9%，GenEval总分也更均衡。值得注意的是，28步的路径在某些编辑子类上表现不错，但删除对象能力比16步低了33.7%，文字生图保留能力也更差。这说明更长的路径不等于更好的取经信号，因为随着路径变长，靠近终点的取经点对应的概率质量被分散到更多候选位置，取经的确定性反而降低了。

七、理论支撑：为什么这些设计选择是对的

研究团队不仅做了实验验证，还提供了理论分析，解释每个设计选择在数学上的合理性。

关于均方误差等价于KL散度，推导的核心思路是：如果把学生模型和向导在每一步产生的状态转移都近似看作高斯分布，那么两个具有相同协方差矩阵的高斯分布之间的KL散度，恰好等于两个均值之间距离的平方，再乘以一个与时间步相关的系数。这正是速度均方误差在此框架下成为KL散度自然近似的原因。

关于为什么要在学生自己走的路上取经，研究给出了一个简单的误差界：如果向导的速度场满足Lipschitz条件（即速度场不会在空间上剧烈震荡），那么在一个状态上取经和在另一个状态上取经，误差最多是两个状态距离乘以一个常数。学生走的路与取经的离线状态离得越远，误差就越大。在线取经直接把这个距离压缩到零。

关于软混合导致目标偏差，数学表达非常直接：如果把多个向导的速度场加权平均，得到的混合目标与当前样本的正确向导之间的差距，是“所有非当前向导的速度场与当前向导的加权差之和”。当不同向导对应不同任务、携带不同能力方向时，这个差距的方向往往是无意义的混合，会将学生模型引向错误的方向。

关于密集取经导致梯度相关，理论分析引入了一个标准的相关性分解公式：如果从同一条路径上取K个点，每个点给出一个梯度估计，这K个梯度平均值的方差并非单个梯度方差除以K，而是需要乘以一个（1+(K-1)×相关系数）的因子。当相关系数接近1时，无论K多大，平均梯度的方差几乎等于单个梯度的方差，多取几次经完全没有降噪效果。

说到底，DanceOPD做的事情，是把一个复杂的多能力组合问题，通过统一的速度场视角进行拆解，形成三个具体的设计问题，再用三个有理论依据的设计选择（硬路由、在线取经、单次语义侧查询）分别解决，最后用最简单的损失函数串联起来，得到一个稳定、高效、效果出众的框架。整个思路的精髓在于，它没有发明什么复杂的融合机制，而是搞清楚了“为什么不能混”和“在哪里听向导最有用”这两个根本性问题。

当然，这套方法也有其边界。它要求所有“向导”和“学生”工作在同一个状态空间里，使用同一种速度场的语言，这在现有的同系列模型中很容易满足，但对于架构差异巨大的模型则不适用。此外，目前的路由是预先确定的——每种样本对应哪个向导，在训练前就已定好，这对于边界清晰的任务（如文字生图、编辑）很合适，但对于“既要局部改，又要整体换风格”这类混合需求，还需要进一步探索，比如引入一个判断模型来动态分配路由。

Q&A

Q1：DanceOPD解决的是什么问题？

A：DanceOPD解决的是让一个AI图像生成模型同时掌握文字生图、局部编辑、全局风格转换等多种能力，并且这些能力之间不会互相干扰的问题。传统方法把多种能力混在一起训练，往往导致每种能力都变得平庸，而DanceOPD通过“每次只向一个向导取经、在学生自己走过的路上取经、每次只取一次经”这三个设计，让各种能力的学习互不干扰，同时还能相互加强。

Q2：DanceOPD为什么只在去噪路径接近终点的地方取一次经，而不是多取几次？

A：因为同一次去噪过程中的多个状态都来自同一个初始噪点和同一段提示词，携带的信息高度重叠，多取几次经本质上是在用同一个方向的力反复推，效果和取一次差不多，但可能打乱不同能力之间的平衡。接近终点的低噪声区域集中了风格、颜色、局部属性等能力相关信号，取经效率最高。实验证明，单次低噪声取经比多次取经的效果平均高出7.9%到16.6%。

Q3：DanceOPD与直接把多个模型参数合并有什么本质区别？

A：直接合并参数相当于把几个厨师的菜谱强行混在一起，假设不同能力在参数空间里可以线性叠加，而实际上往往做不到，结果是三种能力都变弱。DanceOPD让一个学生模型通过动态地、分门别类地向各个专家模型的“速度场”学习，学生学的是在每种情况下该怎么走，而不是直接把专家的记忆复制过来。实验中，直接参数合并的编辑平均分只有0.344，而DanceOPD达到了5.347，差距极为显著。

来源:https://www.163.com/dy/article/L0N1Q4AH0511DTVV.html

上一篇：大语言模型内心独白究竟有无真正思考

下一篇：索尼SIE CEO西野秀明谈次世代游戏机无缝体验与外出游玩