北大阿里提出UniLIP模型:CLIP拓展至重建生成编辑三大任务
UniLIP提出了一套创新的CLIP微调架构,通过分阶段重建训练与自蒸馏约束,在保持模型原有语义理解能力的同时,实现了卓越的图像细节重构性能。该架构能够直接替代MLLM(如InternVL)中的原始CLIP模块(如InternViT),且如此替换后不仅不会削弱甚至可能略微提升模型的语义理解能力。
免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈
本研究的作者团队来自北京大学和阿里通义万相实验室。论文第一作者汤昊是北京大学2024级博士生,曾参与发表多篇NeurIPS、CVPR、ICCV和ECCV等顶级会议论文,目前研究方向聚焦于统一的多模态理解与生成技术。指导教师王立威教授为北京大学智能学院教授,其团队曾荣获NeurIPS 2024和ICLR 2024最佳论文奖。
要实现统一的多模态模型,视觉表征必须兼顾高级语义理解与细粒度细节重建能力。早期VAE模型因语义表达能力不足而限制了理解性能。近期基于CLIP的统一编码器,在理解与重建之间必须找到平衡点:直接量化CLIP特征会损害语义理解能力;而为冻结的CLIP训练解码器,又因缺乏细粒度特征而难以精确重建。以RAE为例,它使用冻结的DINOv2进行重建,PSNR指标仅为19.23。

为了破解这一核心矛盾,UniLIP设计了创新的两阶段训练方案。第一阶段通过冻结CLIP视觉编码器,专注训练像素解码器与投影层,使其学会从固定特征中重建图像细节;第二阶段引入自蒸馏约束,在微调CLIP注入细节信息的同时,防止其语义特征偏离原始分布。这种设计使得模型在提升重建质量的同时,依然保持对图像内容的准确理解。UniLIP可直接替代InternVL等MLLM中的原始CLIP模块,甚至能在部分理解任务上实现小幅提升。
不同于RAE仅在ImageNet上进行验证,UniLIP进行了大规模生成与编辑任务训练。模型仅采用1B和3B参数量,就在GenEval(0.90)、WISE(0.63)和ImgEdit(3.94)等多项基准测试中取得了领先性能,其表现甚至超越了部分规模更大的模型。

方法细节

针对CLIP细节重建难题的创新解法
针对CLIP特征因细节缺失导致重建模糊的问题,UniLIP提出了一套创新的两阶段训练方案,旨在增强其像素级重建能力,同时不损害其卓越的语义理解力。该方案基于包含CLIP编码器、像素解码器及投影层的自编码架构。
第一阶段:解码器对齐。此阶段冻结CLIP参数,仅训练像素解码器和投影层,使其学习从固定的CLIP特征中重建图像。训练目标为:

第二阶段:自蒸馏微调。由于原始CLIP特征缺乏像素细节,第一阶段的重建质量受限。因此,此阶段将联合训练CLIP,并通过自蒸馏方法约束其特征,防止其偏离原始分布,从而在注入细节的同时保留语义。训练目标为:

其中
表示原始CLIP特征,
是微调后的CLIP特征。
通过此方案,UniLIP有效平衡了语义理解与像素重建的内在矛盾,其理解能力甚至在部分基准上得到增强。对于生成与编辑任务,UnLIP特征展现出三大核心优势:
(1)高保真压缩:实现32倍图像压缩,并能通过轻量级解码器高质量还原。对于生成与编辑任务,其表征带来三大核心优势:
(2)强文本对齐:继承CLIP的对齐能力,确保对文本指令的精准响应。
(3)完备特征表达:同时编码高级语义与像素细节,为高保真编辑提供完整信息支撑。

专为图像生成与编辑设计的双条件架构

UniLIP借鉴了MetaQuery范式,但突破了其在图像编辑任务中的信息瓶颈局限。传统方法仅使用固定数量的查询嵌入连接MLLM与扩散模型,这在传递包含丰富像素级细节的参考图像时常显得力不从心,往往导致编辑结果细节退化或内容不一致。
为此,UniLIP创新性地提出了双条件架构。该架构在查询嵌入之外,额外引入MLLM的多模态隐藏状态作为第二个条件,共同引导DiT的交叉注意力模块。这有效补充了缺失的像素级信息。这种设计成功地将复杂任务解耦:MLLM专注于高级推理和意图理解,DiT则基于这套无损传递的、兼具高级语义与底层细节的丰富线索,进行高保真度的图像合成。最终,UniLIP在图像生成与编辑任务上均实现了卓越性能。
实验结果
核心架构设计解析
UniLIP包含1B和3B两个模型变体,它们分别由InternVL3(1B/2B)与SANA(0.6B/1.6B)融合而成。在架构层面,UniLIP直接采用InternVL3的InternViT作为CLIP编码器,并结合DC-AE的像素解码器。连接器设计为6层,结构与LLM保持一致,并使用了256个可学习查询。
训练数据集构成分析
UniLIP的生成数据来源于BLIP3-o,包含38M预训练数据和60k指令微调数据。其编辑预训练数据源自GPT-Image-Edit-1.5M,指令微调数据则来自包含46K编辑数据的ShareGPT-4o-Image。
图像重建质量定量评估

在256x256分辨率下,UniLIP不仅超越了现有量化方法,其更高的下采样率还带来了生成效率优势。在448x448分辨率下,与使用扩散解码器的Emu2相比,UniLIP由于对CLIP进行开放式重建训练而具有显著优势。
多模态理解能力测评

UniLIP能够直接替换InternVL的视觉编码器进行理解能力测试。得益于重建训练对原始能力的有效保持,UniLIP实现了同等规模下最佳的理解性能,并且超越了采用量化CLIP特征的更大模型。
图像生成质量可视化对比

在GenEval(0.90)和WISE(0.63)图像生成基准上,UniLIP凭借卓越的图文对齐能力,不仅超越了同规模模型,还达到了与更大模型相当的水平。
图像编辑效果客观评估

在ImgEdit-Bench图像编辑基准上,UniLIP以3.94的高分超越了当前先进模型。其强劲性能归功于UniLIP特征的丰富细节与精准语义对齐能力。UniLIP创新的双条件架构充分利用了这些特征优势,确保了编辑的精确性与非编辑区域的一致性。
可视化结果展示

在生成任务中,UniLIP能够根据用户指令生成美观且贴合提示的图像;在编辑任务中,UniLIP能够在精确修改图像的同时保持周边区域的一致性。
结论
通过精心设计的两阶段训练与自蒸馏约束,UniLIP有效解决了语义理解与像素细节保留之间的核心矛盾。此外,其创新的双条件架构无缝连接了MLLM与扩散模型,确保生成和编辑任务中的高保真与一致性。UniLIP在多个基准上展示的卓越性能,为下一代统一多模态模型提供了新的范式。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
WaveSpeedAI- 加速AI图像和视频生成的平台
什么是Wa veSpeedAI? 简单来说,Wa veSpeedAI可以看作是一个为AI图像和视频生成任务“踩下油门”的一站式平台。如果你曾苦恼于本地部署的繁琐或在线生成的漫长等待,这个平台提供的,正是一个集成了多种前沿模型的快速解决方案。它囊括了诸如FLUX Dev、Wan 2 1等多个重量级模型
大厂集体“捞虾”:腾讯派出了它的先遣队
一代人有一代人的鸡蛋要领 文|魏琳华 编|王一粟 上周,腾讯大厦门前那近千人排起的长队,可以说为这场席卷全球的“小龙虾”风暴,贡献了一个极具本土特色的开场。背着双肩包的程序员、穿着校服的学生、退休的航空工程师……不同背景的人群聚在一起,只为抢先装上那只名为OpenClaw的AI智能体。这场“全民安装
Objaverse : 800K+个3D物体的大规模数据集
需求人群 如果你正在寻找一个能支撑多种前沿AI研究与应用的数据宝库,那么Obja verse的出现,正好切中了几个关键需求。它最主要的服务对象,是以下几类研究者和开发者:致力于生成高质量3D模型的团队;需要海量、多样化的3D数据来增强2D实例分割模型性能的工程师;探索开放词汇、让AI更灵活理解物理世
AI编程工具杂谈:从智能体到龙虾,codebuddy到workbuddy
AI编程工具杂谈:从CodeBuddy到WorkBuddy,我的体验与思考 引言 大语言模型的热潮一起,AI编程助手这个赛道瞬间就挤满了选手。从GitHub Copilot打头阵,到后来的Cursor、Codeium,再加上国内层出不穷的各种基于大模型的编程工具,开发者们仿佛一夜之间多了无数个“帮手
谷歌员工喜提全新智能体“Smith”:与《黑客帝国》反派同名,火到官方限制访问
谷歌员工喜提全新智能体“Smith”:与《黑客帝国》反派同名,火到官方限制访问 3月27日晚间,《商业内幕》的一则报道,揭开了谷歌内部一场静悄悄的效率革命。消息来自多位知情人士:谷歌员工正在密集使用一款内部代号为“Agent Smith”的AI工具。这工具本事不小,能自动处理包括编程在内的多项任务。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

