北大阿里提出UniLIP模型：CLIP拓展至重建生成编辑三大任务

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

北大阿里提出UniLIP模型：CLIP拓展至重建生成编辑三大任务

热心网友时间：2025-11-03

转载

UniLIP提出了一套创新的CLIP微调架构，通过分阶段重建训练与自蒸馏约束，在保持模型原有语义理解能力的同时，实现了卓越的图像细节重构性能。该架构能够直接替代MLLM（如InternVL）中的原始CLIP模块（如InternViT），且如此替换后不仅不会削弱甚至可能略微提升模型的语义理解能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新！ 👉 点此立即查看 👈

本研究的作者团队来自北京大学和阿里通义万相实验室。论文第一作者汤昊是北京大学2024级博士生，曾参与发表多篇NeurIPS、CVPR、ICCV和ECCV等顶级会议论文，目前研究方向聚焦于统一的多模态理解与生成技术。指导教师王立威教授为北京大学智能学院教授，其团队曾荣获NeurIPS 2024和ICLR 2024最佳论文奖。

要实现统一的多模态模型，视觉表征必须兼顾高级语义理解与细粒度细节重建能力。早期VAE模型因语义表达能力不足而限制了理解性能。近期基于CLIP的统一编码器，在理解与重建之间必须找到平衡点：直接量化CLIP特征会损害语义理解能力；而为冻结的CLIP训练解码器，又因缺乏细粒度特征而难以精确重建。以RAE为例，它使用冻结的DINOv2进行重建，PSNR指标仅为19.23。

为了破解这一核心矛盾，UniLIP设计了创新的两阶段训练方案。第一阶段通过冻结CLIP视觉编码器，专注训练像素解码器与投影层，使其学会从固定特征中重建图像细节；第二阶段引入自蒸馏约束，在微调CLIP注入细节信息的同时，防止其语义特征偏离原始分布。这种设计使得模型在提升重建质量的同时，依然保持对图像内容的准确理解。UniLIP可直接替代InternVL等MLLM中的原始CLIP模块，甚至能在部分理解任务上实现小幅提升。

不同于RAE仅在ImageNet上进行验证，UniLIP进行了大规模生成与编辑任务训练。模型仅采用1B和3B参数量，就在GenEval（0.90）、WISE（0.63）和ImgEdit（3.94）等多项基准测试中取得了领先性能，其表现甚至超越了部分规模更大的模型。

方法细节

针对CLIP细节重建难题的创新解法

针对CLIP特征因细节缺失导致重建模糊的问题，UniLIP提出了一套创新的两阶段训练方案，旨在增强其像素级重建能力，同时不损害其卓越的语义理解力。该方案基于包含CLIP编码器、像素解码器及投影层的自编码架构。

第一阶段：解码器对齐。此阶段冻结CLIP参数，仅训练像素解码器和投影层，使其学习从固定的CLIP特征中重建图像。训练目标为：

第二阶段：自蒸馏微调。由于原始CLIP特征缺乏像素细节，第一阶段的重建质量受限。因此，此阶段将联合训练CLIP，并通过自蒸馏方法约束其特征，防止其偏离原始分布，从而在注入细节的同时保留语义。训练目标为：

其中表示原始CLIP特征，是微调后的CLIP特征。

通过此方案，UniLIP有效平衡了语义理解与像素重建的内在矛盾，其理解能力甚至在部分基准上得到增强。对于生成与编辑任务，UnLIP特征展现出三大核心优势：

（1）高保真压缩：实现32倍图像压缩，并能通过轻量级解码器高质量还原。对于生成与编辑任务，其表征带来三大核心优势：

（2）强文本对齐：继承CLIP的对齐能力，确保对文本指令的精准响应。

（3）完备特征表达：同时编码高级语义与像素细节，为高保真编辑提供完整信息支撑。

专为图像生成与编辑设计的双条件架构

UniLIP借鉴了MetaQuery范式，但突破了其在图像编辑任务中的信息瓶颈局限。传统方法仅使用固定数量的查询嵌入连接MLLM与扩散模型，这在传递包含丰富像素级细节的参考图像时常显得力不从心，往往导致编辑结果细节退化或内容不一致。

为此，UniLIP创新性地提出了双条件架构。该架构在查询嵌入之外，额外引入MLLM的多模态隐藏状态作为第二个条件，共同引导DiT的交叉注意力模块。这有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦：MLLM专注于高级推理和意图理解，DiT则基于这套无损传递的、兼具高级语义与底层细节的丰富线索，进行高保真度的图像合成。最终，UniLIP在图像生成与编辑任务上均实现了卓越性能。

实验结果

核心架构设计解析

UniLIP包含1B和3B两个模型变体，它们分别由InternVL3（1B/2B）与SANA（0.6B/1.6B）融合而成。在架构层面，UniLIP直接采用InternVL3的InternViT作为CLIP编码器，并结合DC-AE的像素解码器。连接器设计为6层，结构与LLM保持一致，并使用了256个可学习查询。

训练数据集构成分析

UniLIP的生成数据来源于BLIP3-o，包含38M预训练数据和60k指令微调数据。其编辑预训练数据源自GPT-Image-Edit-1.5M，指令微调数据则来自包含46K编辑数据的ShareGPT-4o-Image。

图像重建质量定量评估