字节跳动GRN模型革新AI绘画实现边生成边修改新方法

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

字节跳动GRN模型革新AI绘画实现边生成边修改新方法

热心网友时间：2026-05-15

转载

在探讨AI图像与视频生成技术时，我们通常会想到扩散模型——它如同修复一张被雨水浸湿的照片，通过反复“去噪”从混沌中逐步显现清晰画面。尽管这种方法效果显著，却存在一个根本的效率瓶颈：无论生成内容的复杂程度如何，模型都需要执行固定且繁重的计算步骤，无法智能地分配算力资源。

另一条主流技术路径是自回归模型，它借鉴了大语言模型的思路，将图像分割成小块进行顺序预测。这种方法虽然直观，却存在“一步错，步步错”的致命缺陷：早期的预测错误会不断累积并影响后续所有内容，且无法回溯修正。

针对上述两种范式的局限性，字节跳动的研究团队提出了一种创新的解决方案——生成式精化网络（Generative Refinement Networks, GRN）。其设计灵感源于人类画家的创作过程：先勾勒大致轮廓，再逐步添加细节，并且可以随时擦除不满意的部分进行重绘。GRN旨在模拟这种“全局构思、局部细化、动态修正”的创作直觉，同时能够依据画面复杂度，智能地调配计算资源。

在图像生成领域的权威基准测试ImageNet上，GRN在图像重建（rFID 0.56）和图像生成质量（gFID 1.81）两项指标上均创造了新的纪录。研究团队进一步将该框架拓展至文生图（最高支持1024×1024分辨率）和文生视频（支持480p、2-10秒动态视频）任务，在同等参数规模下均取得了领先的性能表现。

字节跳动发布GRN：像人类画家一样

一、现有AI图像生成技术的瓶颈与挑战

要理解GRN的创新价值，首先需要厘清当前主流方法面临的核心难题。

扩散模型的工作原理，本质上是学习并逆转一个将清晰图像逐步破坏为纯噪声的过程。生成时，则从纯噪声出发，执行固定的数十甚至上百步去噪操作来还原图像。无论目标是生成一个简单图标还是一幅复杂油画，其计算开销几乎相同，缺乏对简单内容的“计算节约”能力。更重要的是，扩散模型的训练目标是最小化像素级误差，它不像语言模型那样能为每一步预测输出“置信度”，因此天生难以判断何时应该“粗略勾勒”，何时需要“精雕细琢”。

自回归模型则采取了不同的策略，它将图像视为一个序列，像预测句子中的下一个词一样，逐个预测图像的小块（token）。这种方法的优势在于每一步都伴随概率输出，为自适应计算提供了理论基础。然而，其缺陷同样明显：图像需要先被压缩成离散的编码，这个过程会损失细节；并且，生成过程严格遵循顺序，一旦某个token被预测出来就被永久锁定，错误会像多米诺骨牌一样向后传递，无法中途修正。

一些改进型模型（如MaskGIT）尝试通过“掩码预测”来并行生成多个token，以提升效率。但其根本限制依然存在：那些被模型判定为高置信度的token一旦生成便被固定，模型失去了在后续步骤中基于全局上下文对其进行复审和优化的机会。

二、实现近乎无损的图像压缩：层级二进制量化技术

在深入GRN的生成机制之前，有必要先了解其底层编码技术的突破。这是整个框架能够实现高质量生成的基础。

通常，AI模型会使用“变分自编码器”（VAE）将高分辨率图像压缩为一个低维的潜在表示。这个表示可以是连续的（精度高但不利于逐步生成），也可以是离散的（适合序列预测但会损失信息）。

研究团队提出的“层级二进制量化”（Hierarchical Binary Quantization, HBQ）方法，巧妙地融合了两种表示的优点。

这个过程可以类比为一个高效的猜数字游戏：目标是一个0到1之间的精确值（例如0.73）。每次你只能询问“比X大还是小？”，并得到“偏大”或“偏小”的二进制回答。通过多轮这样的二分询问，可以指数级地逼近真实值，每一轮只需记录一个比特（0或1）。

HBQ将这一逻辑应用于图像编码。VAE输出的每个连续特征值，都通过多轮二分判断，被转换为一串二进制序列（比特串）。轮数越多，编码的精度就越高：经过4轮编码，最大误差不超过原始范围的6.25%；经过8轮编码，误差已微乎其微，几乎等同于连续表示。关键优势在于，这种精度的提升不需要增加编码的通道维度，从而避免了其他高精度离散编码方法导致的模型参数量暴增和训练速度下降的问题。

实际测试表明，仅使用4轮HBQ的编码器，在ImageNet 256×256图像重建任务上取得了0.56的rFID分数，显著优于业界广泛采用的SD-VAE编码器（0.87）。在视频压缩方面，使用8轮HBQ的版本可以达到与最优连续编码器相媲美的质量，同时压缩率高出4倍以上。

三、模拟人类创作流程：GRN的核心精化生成机制

有了HBQ提供的高质量离散编码，GRN的生成框架得以建立在坚实的基础上。

GRN的生成始于一张充满随机token的“画布”——可以想象为布满杂乱色块的草图。模型的任务是将这些杂乱信息逐步整理成一幅完整的图像。

在每一步迭代中，GRN会执行三个核心操作：首先，全面“观察”当前画布状态（识别哪些区域的预测已经可靠，哪些区域仍是噪声）；接着，基于当前全局信息，对所有位置同步做出一次全新的完整预测；最后，随机选择一部分新预测结果“落笔”到画布上（覆盖旧内容），同时将剩余位置重置为随机噪声，留待下一轮处理。

这样一来，“填充空白区域”、“细化已有部分”和“擦除重画”这三种操作被有机地统一在一个循环中。随着迭代进行，画布上可靠、确定的区域比例从0%逐渐增长到100%，最终形成清晰的图像。

这与传统自回归模型的根本区别在于：在GRN中，没有任何预测是最终且不可更改的。每一步，模型都在重新审视全局画面，如果早期基于有限信息做出的预测，在获得更多上下文后显得不合理，完全可以在后续步骤中被“否决”并重绘。这就像画家使用可修改的铅笔打底稿，而非一次性落笔的马克笔，从而保证了创作过程的灵活性与最终作品的协调性。

在训练阶段，GRN会学习处理一种特殊的“残缺输入”：将真实图像的部分位置随机替换为噪声，然后要求模型预测出完整的原始图像。替换的比例是随机变化的，这使得模型学会了如何在“部分信息可靠、部分信息缺失”的混合状态下，做出准确且高质量的全局预测。

研究还揭示了一个反直觉但至关重要的发现：在生成时，随机选择哪些预测被保留，其效果远优于只保留模型“置信度最高”的预测。如果总是固定保留最自信的部分，会导致输入数据的分布偏离模型在训练时所学习到的模式，反而会严重损害生成图像的质量（例如导致FID指标从3.63恶化到10.64）。

四、智能计算资源分配：基于内容复杂度的自适应步数

GRN解决的另一个核心问题是实现计算资源的动态分配，让简单的图像生成得快，复杂的图像生成得精。

在生成过程的每一步，GRN都会输出一个概率分布，反映其对每个位置预测的把握程度。汇总所有位置的预测不确定性，可以得到一个整体的“熵”值指标。熵值越低，意味着模型对当前画面的把握越大，内容可能相对简单；熵值越高，则意味着画面复杂或存在较多不确定性。

GRN巧妙地利用这个熵值来动态决定后续还需要多少迭代步骤。对于一幅简单的蓝天白云图像，模型可能很快就能达到高置信度（低熵），GRN便会提前结束生成，节省算力；对于一幅细节繁复的城市夜景，熵值可能持续较高，GRN则会自动分配更多的迭代步骤来进行精细打磨。

在实验中，团队将最大迭代步数设为50，最小步数设为20。结果显示，超过62.7%的图像在未达到50步时就已满足生成质量要求，其中约200张图像仅用了最低的20步。与固定使用50步生成所有图像相比，这种自适应策略仅带来了微小的质量损失（FID从3.6略微增加到3.8），却显著降低了对简单图像的计算开销。

这一策略在文生图任务中同样有效。对于“一只猫”这样的简单提示，可能10步就能得到不错的结果；而对于“一位穿着维多利亚时期礼服、在雨夜街灯下看书的骑士”这类复杂描述，则需要50步的精细迭代才能充分展现所有细节。

五、两种预测目标的权衡：预测编号 vs. 预测比特位

GRN框架支持两种不同的预测目标，代表了不同的技术权衡与设计思路。

第一种是GRN_ind（索引模式）：它将每个位置的HBQ多轮编码结果合并，视为一个整体的整数编号（类似于在调色板上选择一个颜色编号）。第二种是GRN_bit（比特模式）：它直接、逐位地预测HBQ编码中的每一个二进制值（即每次预测是0还是1）。

在相对简单的图像分类条件生成任务上，两种模式的性能表现接近。但在更为复杂的文本生成视频任务中，预测比特位（GRN_bit）的方式产生了更少的视觉瑕疵和失真。分析认为，在预测编号时，数值上相邻的编号（如7和8）所对应的视觉内容可能截然不同，容易因“编号混淆”而导致画面跳跃或失真；而直接预测每个比特位，其语义更加明确，监督信号也更直接。至于“独立预测每个比特是否会忽略位之间的关联性”的担忧，GRN的全局精化机制在多轮迭代中自然地学习和处理了这种依赖关系，因此并未造成明显的质量损失。

此外，团队还对比了“预测绝对值”与“预测差值”（即预测哪些比特位需要翻转）两种策略。实验结果明确显示，预测绝对值的方式在生成图像的结构稳定性和一致性上具有显著优势。

六、性能验证：GRN如何刷新多项基准纪录

在ImageNet 256×256类别条件图像生成的标准评测中，GRN以四种不同的参数规模参与了全面对比。

规模最小的GRN-B（1.3亿参数）取得了3.56的FID分数，超越了参数量近其两倍的MaskGIT模型（2.27亿参数，FID 6.18）。规模最大的GRN-G（20亿参数）则取得了1.81的FID，表现优于同等规模的扩散模型DiT-XL/2（FID 2.27）、流匹配模型SiT-XL/2（FID 2.06）以及同为20亿参数的自回归模型VAR-d30（FID 1.92）。

一个极具说服力的对照实验，直接对比了GRN的“全局精化”机制与MaskGIT的“掩码填充”机制。两者使用完全相同的模型权重，唯一区别在于已生成的token是否允许被修改。结果对比鲜明：采用掩码填充方式时，FID指标崩溃至185.62，生成的图像近乎噪声；即使为其专门优化解码参数，最佳FID也只能达到18.13，与GRN精化机制的3.63相去甚远。这直接证明了“允许事后修改”的全局精化机制是该框架成功的关键。

在文本生成图像任务上，GRN（20亿参数）在GenEval综合基准上取得了0.76的分数，领先于同等规模的SD3 Medium（0.62）和Infinity（0.71）。在文本生成视频任务上，GRN（20亿参数）在VBench评测中取得82.99分，超越了参数量达5倍的CogVideoX-5B（81.61）等模型。

七、当前局限与未来发展方向

研究团队也客观指出了GRN框架当前存在的局限性。由于计算资源的限制，GRN尚未被训练至如Sora、Wan 2.1等顶尖模型的超大参数量级，其性能上限仍有待进一步探索。在视频生成中，GRN在人物和室内场景表现良好，但在生成细节极其丰富的自然景观时，偶尔会出现细节不足或局部失真的情况，这可能与训练数据的分布有关，未来可以通过优化数据配比和扩大训练规模来改善。

在未来的研究方向上，团队特别提到了“步数蒸馏”技术。这类技术能够将需要多步迭代的生成过程“蒸馏”成一个步骤更少、效率更高的模型。由于GRN本身具备自适应步数机制，它与蒸馏技术结合的前景非常广阔，有望进一步大幅降低推理阶段的生成成本。

此外，GRN作为一个完全基于离散token的自回归框架，与现有的大语言模型在架构上具有天然的亲和性。将文本token与图像、视频token置于同一个统一的模型中进行训练，有望实现真正的、深度融合的多模态理解与生成能力。从这个视角看，GRN或将成为当前主流的“语言模型+扩散模型”混合架构的一个强有力的替代方案。

归根结底，GRN的探索是让AI图像生成模仿人类画家的创作直觉——不是在噪声与清晰度之间进行机械的插值，也不是按照固定的网格顺序填色，而是像真正的创作者一样，在整体构图与局部细节之间反复推敲，随时调整，直至作品趋于完美。这种思路能否在更大模型规模、更复杂生成任务上持续证明其有效性，将是未来业界关注的重点。

常见问题解答

Q1：GRN的“全局精化机制”与MaskGIT这类掩码生成模型的核心区别是什么？

A：最本质的区别在于预测结果的“可修正性”。MaskGIT在每一轮生成中，那些被模型判定为高置信度的token一旦生成就会被永久固定，后续步骤只负责填充剩余的空白区域，无法修改已确定的内容。GRN则完全不同，它在每一步迭代中都会对所有位置（包括已生成区域）重新进行全局预测，并随机选择部分位置进行更新。这意味着任何已经“画”上去的内容，在后续步骤中都有可能被“擦掉”并重绘。正是这种机制，使得模型能够在获得更多全局信息后，纠正早期基于局部上下文做出的错误判断。实验对比极具说服力：使用相同模型权重时，掩码生成方式的FID高达185.62（生成结果近乎噪声），而GRN的精化机制能达到3.63的优秀水平。

Q2：层级二进制量化（HBQ）相比传统的离散编码方法（如VQ-VAE）有何优势？

A：传统离散编码方法（如VQ-VAE）通过一个有限的码本将连续特征映射到离散的索引上，这种有损压缩不可避免地会丢失细节信息。HBQ则采用了一种渐进逼近的思路：通过多轮“二分判断”来无限逼近原始的连续值。每增加一轮编码，最大误差上界就会减半，实现了指数级的精度提升。最关键的是，这种精度的提升不需要增加特征向量的通道维度，从而完美规避了其他高精度离散编码器通常带来的模型参数量膨胀和训练速度下降的问题。实践表明，仅使用4轮HBQ的编码器在图像重建上就能达到0.56的rFID，而使用8轮HBQ则可以实现与连续编码器近乎相同的性能。

Q3：GRN的自适应步数机制是如何判断一张图像需要多少步才能生成完成的？

A：GRN在每一步生成迭代时，都会计算当前整个预测结果的“熵”（Entropy）。熵是一个信息论概念，在这里综合反映了模型对画面各个位置预测的不确定性程度。熵值越低，说明模型对当前生成的内容越有把握，画面可能相对简单，可以提前结束；熵值越高，则说明画面复杂或存在较多模糊、不确定的区域，需要更多步骤来细化。系统根据实时计算的熵值，在预设的最小步数（例如20步）和最大步数（例如50步）之间动态调整总生成步数。实验数据显示，超过62.7%的图像在未达到最大50步时就已满足质量要求，这种机制有效节约了对简单内容的计算资源。

来源:https://www.techwalker.com/2026/0422/3184782.shtml

上一篇：斯坦福AI诊断师可自我评估短板并针对性优化

下一篇： AI语言模型纽约街头实测：哥本哈根大学研究揭示人机交互安全挑战