北大阿里提出UniLIP模型:CLIP拓展至重建生成编辑三大任务
UniLIP提出了一套创新的CLIP微调架构,通过分阶段重建训练与自蒸馏约束,在保持模型原有语义理解能力的同时,实现了卓越的图像细节重构性能。该架构能够直接替代MLLM(如InternVL)中的原始CLIP模块(如InternViT),且如此替换后不仅不会削弱甚至可能略微提升模型的语义理解能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本研究的作者团队来自北京大学和阿里通义万相实验室。论文第一作者汤昊是北京大学2024级博士生,曾参与发表多篇NeurIPS、CVPR、ICCV和ECCV等顶级会议论文,目前研究方向聚焦于统一的多模态理解与生成技术。指导教师王立威教授为北京大学智能学院教授,其团队曾荣获NeurIPS 2024和ICLR 2024最佳论文奖。
要实现统一的多模态模型,视觉表征必须兼顾高级语义理解与细粒度细节重建能力。早期VAE模型因语义表达能力不足而限制了理解性能。近期基于CLIP的统一编码器,在理解与重建之间必须找到平衡点:直接量化CLIP特征会损害语义理解能力;而为冻结的CLIP训练解码器,又因缺乏细粒度特征而难以精确重建。以RAE为例,它使用冻结的DINOv2进行重建,PSNR指标仅为19.23。

为了破解这一核心矛盾,UniLIP设计了创新的两阶段训练方案。第一阶段通过冻结CLIP视觉编码器,专注训练像素解码器与投影层,使其学会从固定特征中重建图像细节;第二阶段引入自蒸馏约束,在微调CLIP注入细节信息的同时,防止其语义特征偏离原始分布。这种设计使得模型在提升重建质量的同时,依然保持对图像内容的准确理解。UniLIP可直接替代InternVL等MLLM中的原始CLIP模块,甚至能在部分理解任务上实现小幅提升。
不同于RAE仅在ImageNet上进行验证,UniLIP进行了大规模生成与编辑任务训练。模型仅采用1B和3B参数量,就在GenEval(0.90)、WISE(0.63)和ImgEdit(3.94)等多项基准测试中取得了领先性能,其表现甚至超越了部分规模更大的模型。

方法细节

针对CLIP细节重建难题的创新解法
针对CLIP特征因细节缺失导致重建模糊的问题,UniLIP提出了一套创新的两阶段训练方案,旨在增强其像素级重建能力,同时不损害其卓越的语义理解力。该方案基于包含CLIP编码器、像素解码器及投影层的自编码架构。
第一阶段:解码器对齐。此阶段冻结CLIP参数,仅训练像素解码器和投影层,使其学习从固定的CLIP特征中重建图像。训练目标为:

第二阶段:自蒸馏微调。由于原始CLIP特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将联合训练CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:

其中
表示原始CLIP特征,
是微调后的CLIP特征。
通过此方案,UniLIP有效平衡了语义理解与像素重建的内在矛盾,其理解能力甚至在部分基准上得到增强。对于生成与编辑任务,UnLIP特征展现出三大核心优势:
(1)高保真压缩:实现32倍图像压缩,并能通过轻量级解码器高质量还原。对于生成与编辑任务,其表征带来三大核心优势:
(2)强文本对齐:继承CLIP的对齐能力,确保对文本指令的精准响应。
(3)完备特征表达:同时编码高级语义与像素细节,为高保真编辑提供完整信息支撑。

专为图像生成与编辑设计的双条件架构

UniLIP借鉴了MetaQuery范式,但突破了其在图像编辑任务中的信息瓶颈局限。传统方法仅使用固定数量的查询嵌入连接MLLM与扩散模型,这在传递包含丰富像素级细节的参考图像时常显得力不从心,往往导致编辑结果细节退化或内容不一致。
为此,UniLIP创新性地提出了双条件架构。该架构在查询嵌入之外,额外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块。这有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM专注于高级推理和意图理解,DiT则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。最终,UniLIP在图像生成与编辑任务上均实现了卓越性能。
实验结果
核心架构设计解析
UniLIP包含1B和3B两个模型变体,它们分别由InternVL3(1B/2B)与SANA(0.6B/1.6B)融合而成。在架构层面,UniLIP直接采用InternVL3的InternViT作为CLIP编码器,并结合DC-AE的像素解码器。连接器设计为6层,结构与LLM保持一致,并使用了256个可学习查询。
训练数据集构成分析
UniLIP的生成数据来源于BLIP3-o,包含38M预训练数据和60k指令微调数据。其编辑预训练数据源自GPT-Image-Edit-1.5M,指令微调数据则来自包含46K编辑数据的ShareGPT-4o-Image。
图像重建质量定量评估

在256x256分辨率下,UniLIP不仅超越了现有量化方法,其更高的下采样率还带来了生成效率优势。在448x448分辨率下,与使用扩散解码器的Emu2相比,UniLIP由于对CLIP进行开放式重建训练而具有显著优势。
多模态理解能力测评

UniLIP能够直接替换InternVL的视觉编码器进行理解能力测试。得益于重建训练对原始能力的有效保持,UniLIP实现了同等规模下最佳的理解性能,并且超越了采用量化CLIP特征的更大模型。
图像生成质量可视化对比

在GenEval(0.90)和WISE(0.63)图像生成基准上,UniLIP凭借卓越的图文对齐能力,不仅超越了同规模模型,还达到了与更大模型相当的水平。
图像编辑效果客观评估

在ImgEdit-Bench图像编辑基准上,UniLIP以3.94的高分超越了当前先进模型。其强劲性能归功于UniLIP特征的丰富细节与精准语义对齐能力。UniLIP创新的双条件架构充分利用了这些特征优势,确保了编辑的精确性与非编辑区域的一致性。
可视化结果展示

在生成任务中,UniLIP能够根据用户指令生成美观且贴合提示的图像;在编辑任务中,UniLIP能够在精确修改图像的同时保持周边区域的一致性。
结论
通过精心设计的两阶段训练与自蒸馏约束,UniLIP有效解决了语义理解与像素细节保留之间的核心矛盾。此外,其创新的双条件架构无缝连接了MLLM与扩散模型,确保生成和编辑任务中的高保真与一致性。UniLIP在多个基准上展示的卓越性能,为下一代统一多模态模型提供了新的范式。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
吉利i-HEV智擎混动技术发布,以五大颠覆开启全球油电混动新纪元
吉利发布新一代AI油电混动技术,以“五大碘伏”重塑行业标准 汽车动力技术的赛道,又迎来了一位重量级选手。吉利汽车集团近日正式发布了全球新一代AI油电混动技术方案——i-HEV智擎混动。这项技术以“五大碘伏”为核心,目标直指重新定义油电混动技术的游戏规则。它并非简单的迭代,而是通过全域AI 2 0技术
硅谷大模型的“安全承诺”,正让世界失去安全感
当大模型开始“挖洞”:网络安全行业的能力门槛正在被重写 图片由AI生成 最近,网络安全领域掀起了一阵不小的波澜。Anthropic和OpenAI这两家大模型巨头,不约而同地开始推动一件事:改变传统安全漏洞发现与分析能力的生产方式。这可不是简单的产品迭代,而是一次对行业根基的潜在动摇。 市场恐慌:一次
零跑朱江明谈车市:淘汰赛未止,D19上市助力品牌冲高与规模扩张
汽车市场淘汰赛远未结束,零跑的双线突围战 当下的汽车市场,用一个词来形容就是“拥挤”。就在不久前的一场行业访谈中,零跑科技创始人、董事长兼CEO朱江明直言不讳地指出了这一点:“车型实在太多了,光是4月16日一个晚上,就有6款新车扎堆发布。这场淘汰赛,离结束还早着呢。”在他看来,未来两三年,这种高强度
高德智能导盲犬亮相2026北京亦庄人形机器人半马,协助视障人士完成一系列复杂任务
科技服务民生,视障人士迎来“第二双眼” 4月19日,2026北京亦庄人形机器人半程马拉松的赛道上,出现了一个引人注目的身影——高德旗下首款具身智能机器人“途途”正式亮相。这不仅是一次产品发布,更像是一场在复杂真实世界里的“毕业考试”。 途途是一款四足机器人,更关键的是,它被定义为全球首款可在开放环境
SWE-bench满分,0个bug修复:伯克利造了个专门作弊的AI
新智元报道 编辑:倾倾 【新智元导读】伯克利团队造了个专门作弊的AI,用10行Python代码拿下SWE-bench满分!500道题全过,0个bug修复。8大主流评测基准,全部沦陷。同一周,两份独立审计确认:排行榜上的作弊早已不是假设,而是现实。 本周,AI评测圈经历了一场信任地震。 SWE-ben
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

