美团LongCat-Image开源：编辑能力登顶SOTA的图像生成模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

业界动态

美团LongCat-Image开源：编辑能力登顶SOTA的图像生成模型

热心网友时间：2025-12-08

转载

尽管近年来AIGC关键技术在不断突破，但图像生成领域始终面临一个难以逾越的挑战：闭源模型性能虽强却难以私有化部署；开源方案则往往在轻量化与高性能之间难以取舍，且缺少面向商用的专项能力。

针对这一行业痛点，美团LongCat团队近日宣布，开源其最新研发的LongCat-Image模型。该模型通过高效的模型架构设计、系统性的训练策略与数据工程，仅以6B的紧凑参数规模，在文生图与图像编辑核心能力上逼近了更大尺寸的头部模型，为开发者与产业界提供了一个“高性能、低门槛、全开放”的全新选择。

美团发布LongCat-Image图像生成模型，编辑能力登顶开源SOTA ▲模型架构

据介绍，LongCat-Image的核心优势在于其架构设计与训练策略。

具体来看，模型采用文生图与图像编辑同源的架构，结合渐进式学习策略，成功在6B参数下实现了指令遵循精准度、生图质量与文字渲染能力的高效协同。

在图像编辑方面，LongCat-Image的“可控性”表现突出，而性能突破的关键在于一套紧密协同的训练范式和数据策略。

为了有效继承文生图模型的知识和美感，同时避免文生图后训练阶段收敛的状态空间对编辑指令多样性的限制，团队一方面基于文生图Mid-training阶段模型进行初始化，并采用指令编辑与文生图多任务联合学习机制，深化对复杂多样化指令的理解；另一方面，通过预训练阶段的多源数据及指令改写策略，以及结合SFT阶段引入的人工精标数据，最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。

在GEdit-Bench和ImgEdit-Bench等权威基准测试中，LongCat-Image均达到开源SOTA（当前最佳）水平，可精准响应用户的多样化修改需求。

在中文文本渲染这一长期困扰业界的难题上，LongCat-Image也取得了很大进展，通过课程学习策略提升字符覆盖度和渲染精准度：预训练阶段基于千万量级合成数据学习字形，覆盖通用规范汉字表的8105个汉字；SFT阶段引入真实世界文本图像数据，提升在字体、排版布局上的泛化能力；在RL（强化学习）阶段，引入OCR与美学双奖励模型，进一步提升文本准确性与背景融合自然度。

该模型在ChineseWord评测中以90.7的得分领先同类产品。无论是商业海报中的复杂笔划，还是古诗词插图中的生僻字，LongCat-Image均能实现精准、自然的渲染，进一步拓展AI在设计领域的应用边界。

为了提升生成图像的审美与真实感，LongCat团队还构建了系统性的数据筛选与对抗训练框架。团队在预训练阶段严格过滤低质量AIGC数据，并在RL阶段创新性引入AIGC内容检测器作为奖励模型，利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感，从而显著改善了AI绘图常见的“塑料感”纹理。

美团发布LongCat-Image图像生成模型，编辑能力登顶开源SOTA ▲客观基准测试性能对比

全面的客观与主观评测数据均验证了LongCat-Image的能力：在客观基准测试中，其图像编辑得分与中文渲染能力均领跑参评模型；在文生图任务上，GenEval与DPG-Bench的优异表现证明了其相比头部开源与闭源模型依然具备强竞争力。

美团发布LongCat-Image图像生成模型，编辑能力登顶开源SOTA ▲人类主观评分对比& 并列对比评估胜率

在更贴近用户体验的主观评测（文生图方面采用大规模的人工主观评分与图像编辑方面采用严格的并列对比评估）中，LongCat-Image在真实度方面相比主流开闭源模型表现出色，同时在文本-图像对齐与合理度上达到开源SOTA水平；至于综合编辑质量和视觉一致性方面，虽然与Nano Banana等商业闭源模型仍有一定差距，但在开源领域已形成领先优势。

值得一提的是，为了构建一个更透明、开放、协作的开源生态系统，美团 LongCat团队此次全面开源了从Mid-training到Post-training的文生图多阶段模型及图像编辑模型，旨在支持从前沿研究到商业应用的全流程。相关资源已在Hugging Face和GitHub上线，用户也可在官网longcat.ai上体验。

与此同时，面向终端用户的“LongCat APP”也迎来重大升级，全新上线的图生图功能与24个零门槛玩法模板，让普通用户也能一键生成海报、精修人像，实现“专业AI创作零门槛”。

美团LongCat团队还表示：“我们坚信，真正的技术进步源于社区的集体智慧。现诚邀广大开发者体验模型、参与共建，与我们共同基于这个高效能模型，探索视觉生成的更多可能。”