谢燊宁REPA大幅优化：不到4行代码实现高效改进

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

谢燊宁REPA大幅优化：不到4行代码实现高效改进

热心网友时间：2025-12-15

转载

机器之心报道

编辑：Panda

邹忌曾经有一个问题：吾与徐公孰美？

而对于 REPA，也有一个类似的问题：全局信息空间结构，哪个对表征对齐更重要？

表征对齐（REPA）可通过将强大的预训练视觉编码器的表征蒸馏为中间扩散特征，来指导生成式训练。该方法于去年十月份问世，一直以来都备受关注，已成为加速扩散 Transformer（Diffusion Transformers）训练的一项有力技术。参阅报道《扩散模型训练方法一直错了！谢赛宁：Representation matters》。

但是，其还有一个很基本的问题悬而未决：对生成而言，目标表征的哪个方面更重要？是其「全局」语义信息（例如，以 ImageNet-1K 准确率衡量），还是其空间结构（即，图像块 token 之间的成对余弦相似度）？

此前，普遍观点认为，如果使用更强的全局语义性能作为目标表征，可以带来更好的生成效果。

为了研究这一点，Adobe Research、澳大利亚国立大学和纽约大学的一个联合团队对 27 种不同的视觉编码器和不同的模型规模进行了大规模的实证分析。

然后他们得到了一个出人意料的结果：驱动目标表征生成性能的是空间结构，而非全局性能！

更令人惊讶的是，基于此发现，他们还构建了一种简单方法（代码实现少于 4 行），即iREPA，其能在各种视觉编码器、模型大小和训练变体（如 REPA、REPA-E、Meanflow、JiT 等）中持续提高 REPA 的收敛速度。

论文标题：What matters for Representation Alignment: Global Information or Spatial Structure?论文地址：https://arxiv.org/abs/2512.10794v1项目页面：https://end2end-diffusion.github.io/irepa/

本论文的第一作者是 Jaskirat Singh，澳大利亚国立大学二年级博士生，他在 Adobe 实习期间完成了此研究。目前也正在 Meta 实习。

此外，作者名单中还有多位万引大佬，包括 Adobe 资深研究科学家 Richard Zhang、Adobe 高级首席科学家 Eli Shechtman 以及我们熟悉的纽约大学谢赛宁。

下面我们来看看这项研究的具体内容。

反直觉的发现：全局强，不代表生成强

在深入探究之前，我们先来看几个令人费解的现象。

长期以来，研究人员通常假设：一个视觉编码器在 ImageNet-1K 上的分类准确率越高，它提取的特征就越好，用来指导扩散模型生成图像的效果也就应该越好。

然而，论文作者在测试了 27 种不同的编码器后，发现事实并非如此。

该团队举了几个非常有力的反例：

SAM2 的逆袭：分割模型 SAM2-S 的 ImageNet 准确率仅为 24.1%，这在分类任务上可以说表现平平。然而，当它被用作 REPA 的目标表征时，其生成的图像质量（FID 分数）竟然优于那些准确率比它高出 60% 的模型（如 PE-Core-G）。大模型的困境：在同一个模型家族中，更大的参数量通常意味着更高的分类准确率。但在表征对齐中，更大的模型（如 DINOv2-g）并不一定能带来更好的生成效果，有时甚至更差。画蛇添足的 CLS token：如果强行将包含全局信息的 [CLS] token 融合到图像块（patch）特征中，虽然线性探测（Linear Probing）准确率上升了，但生成质量（FID）却显著下降了。

这些现象指向了一个结论：更高的验证准确率，并不意味着它是更好的生成表征。

真正的主宰：空间结构

如果不是全局语义信息在起作用，那究竟是什么在驱动生成性能？

作者提出假设：是空间结构，即图像块 token 之间的成对余弦相似度。

为了量化这一指标，作者引入了空间自相似性（Spatial Self-Similarity）的概念。简单来说，就是衡量特征图在空间上的「纹理」和「关系」是否清晰。作者使用了几种不同的度量标准，其中最直观的是LDS（Local vs. Distant Similarity）：

通俗点说，LDS 衡量的是：在特征空间中，相邻的图像块是否比相距较远的图像块更相似？如果一个编码器能很好地保留这种「近亲远疏」的空间结构，它的 LDS 分数就高。

令人震惊的相关性出现了（如上图所示）：传统的线性探测准确率（代表全局信息）与生成质量（FID）的相关性极低，皮尔逊相关系数仅为 r = -0.260。而空间结构指标（LDS）与生成质量的相关性高达 |r| = 0.852！

这完美解释了之前的反例：SAM2 虽然不懂「这张图是猫」，但它极其擅长理解「猫的轮廓在哪里」，因此拥有极佳的空间结构，进而带来了出色的生成效果。

iREPA：不到 4 行代码的改进

既然明确了「空间结构」才是核心，那么与其盲目追求更强的语义编码器，不如想办法在训练过程中强化空间信息的传递。

基于此，该团队提出了iREPA。但其核心改动非常简单，代码实现甚至不到 4 行，主要包含两个修改：

1. 用卷积层替代 MLP 投影层

标准的 REPA 使用 MLP 将扩散模型的特征映射到目标表征的维度。作者指出，MLP 是「有损」的，会破坏 patch 之间的空间对比度。

其改进方法是：将其替换为一个简单的3×3 卷积层。卷积天然具有归纳偏置（Inductive Bias），能够更好地保留局部的空间关系。

2. 引入空间归一化层

作者发现，预训练视觉编码器的 patch token 中往往包含大量的全局信息（就像一层笼罩全图的「雾」），导致前景和背景的 token 居然有不低的相似度。

其改进方法是：既然这层全局均值信息对生成没用甚至有害，那就把它去掉。作者对目标表征引入了一个空间归一化（Spatial Normalization）层，减去均值，除以标准差。这牺牲了全局信息，但极大地增强了 patch 之间的空间对比度。

算法代码如下：

效果：提升显著

iREPA 的有效性并非仅停留在理论层面，作者通过一系列大规模实验，证明了这一改进方案具有极强的鲁棒性和通用性。

收敛速度更快

对于扩散 Transformer（如 SiT-XL/2）的训练而言，收敛速度就是金钱。实验结果表明，无论使用何种视觉编码器作为「教师」，iREPA 都能显著加速「学生」模型的训练收敛。

从下图可以看到，在各种模型规模（SiT-XL/2, SiT-B/2）和编码器（DINOv3, WebSSL, CLIP 等）下，iREPA 都显著提高了收敛速度。

编码器通用性

通常一种优化方法可能只对特定类型的模型有效，但 iREPA 展现出了惊人的通用性。作者测试了多达 27 种不同的视觉编码器，涵盖了监督学习（如 DeiT）、自监督学习（如 DINOv2, MoCo v3, MAE）以及多模态模型（如 CLIP）。

如下图所示，在横跨所有测试的编码器中，iREPA（红色柱状图）的生成 FID 分数均低于标准 REPA（蓝色柱状图）。

可以看到，即使是像 SAM2 这样分类准确率极低（24.1%）的分割模型，在经过 iREPA 的空间增强处理后，其指导生成的 FID 分数甚至优于许多分类强模型。

同时，对于 DINOv3 和 WebSSL 等目前最强的特征提取器，iREPA 依然能进一步压低 FID，提升生成上限。

扩展性：模型越大，收益越高

这是一个非常符合「Scaling Law」趋势的发现。作者探究了 iREPA 在不同规模模型上的表现：

编码器规模：当视觉编码器从 PE-B (90M) 增大到 PE-G (1.88B) 时，iREPA 带来的性能提升百分比也随之增加（从 22.2% 提升至 39.6%）。扩散模型规模：当生成模型从 SiT-B (130M) 扩展到 SiT-XL (675M) 时，iREPA 带来的相对增益同样在扩大。这意味着，模型做得越大，空间结构的重要性就越显著，iREPA 的价值也就越高