当前位置: 首页
业界动态
美团LongCat-Image开源:编辑能力登顶SOTA的图像生成模型

美团LongCat-Image开源:编辑能力登顶SOTA的图像生成模型

热心网友 时间:2025-12-08
转载

尽管近年来AIGC关键技术在不断突破,但图像生成领域始终面临一个难以逾越的挑战:闭源模型性能虽强却难以私有化部署;开源方案则往往在轻量化与高性能之间难以取舍,且缺少面向商用的专项能力。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

针对这一行业痛点,美团LongCat团队近日宣布,开源其最新研发的LongCat-Image模型。该模型通过高效的模型架构设计、系统性的训练策略与数据工程,仅以6B的紧凑参数规模,在文生图与图像编辑核心能力上逼近了更大尺寸的头部模型,为开发者与产业界提供了一个“高性能、低门槛、全开放”的全新选择。

美团发布LongCat-Image图像生成模型,编辑能力登顶开源SOTA▲模型架构

据介绍,LongCat-Image的核心优势在于其架构设计与训练策略。

具体来看,模型采用文生图与图像编辑同源的架构,结合渐进式学习策略,成功在6B参数下实现了指令遵循精准度、生图质量与文字渲染能力的高效协同。

在图像编辑方面,LongCat-Image的“可控性”表现突出,而性能突破的关键在于一套紧密协同的训练范式和数据策略。

为了有效继承文生图模型的知识和美感,同时避免文生图后训练阶段收敛的状态空间对编辑指令多样性的限制,团队一方面基于文生图Mid-training阶段模型进行初始化,并采用指令编辑与文生图多任务联合学习机制,深化对复杂多样化指令的理解;另一方面,通过预训练阶段的多源数据及指令改写策略,以及结合SFT阶段引入的人工精标数据,最终实现了指令遵循精准度、泛化性和编辑前后视觉一致性的共同提升。

在GEdit-Bench和ImgEdit-Bench等权威基准测试中,LongCat-Image均达到开源SOTA(当前最佳)水平,可精准响应用户的多样化修改需求。

在中文文本渲染这一长期困扰业界的难题上,LongCat-Image也取得了很大进展,通过课程学习策略提升字符覆盖度和渲染精准度:预训练阶段基于千万量级合成数据学习字形,覆盖通用规范汉字表的8105个汉字;SFT阶段引入真实世界文本图像数据,提升在字体、排版布局上的泛化能力;在RL(强化学习)阶段,引入OCR与美学双奖励模型,进一步提升文本准确性与背景融合自然度。

该模型在ChineseWord评测中以90.7的得分领先同类产品。无论是商业海报中的复杂笔划,还是古诗词插图中的生僻字,LongCat-Image均能实现精准、自然的渲染,进一步拓展AI在设计领域的应用边界。

为了提升生成图像的审美与真实感,LongCat团队还构建了系统性的数据筛选与对抗训练框架。团队在预训练阶段严格过滤低质量AIGC数据,并在RL阶段创新性引入AIGC内容检测器作为奖励模型,利用其对抗信号逆向引导模型学习真实世界的物理纹理、光影和质感,从而显著改善了AI绘图常见的“塑料感”纹理。

美团发布LongCat-Image图像生成模型,编辑能力登顶开源SOTA▲客观基准测试性能对比

全面的客观与主观评测数据均验证了LongCat-Image的能力:在客观基准测试中,其图像编辑得分与中文渲染能力均领跑参评模型;在文生图任务上,GenEval与DPG-Bench的优异表现证明了其相比头部开源与闭源模型依然具备强竞争力。

美团发布LongCat-Image图像生成模型,编辑能力登顶开源SOTA▲人类主观评分对比& 并列对比评估胜率

在更贴近用户体验的主观评测(文生图方面采用大规模的人工主观评分与图像编辑方面采用严格的并列对比评估)中,LongCat-Image在真实度方面相比主流开闭源模型表现出色,同时在文本-图像对齐与合理度上达到开源SOTA水平;至于综合编辑质量和视觉一致性方面,虽然与Nano Banana等商业闭源模型仍有一定差距,但在开源领域已形成领先优势。

值得一提的是,为了构建一个更透明、开放、协作的开源生态系统,美团 LongCat团队此次全面开源了从Mid-training到Post-training的文生图多阶段模型及图像编辑模型,旨在支持从前沿研究到商业应用的全流程。相关资源已在Hugging Face和GitHub上线,用户也可在官网longcat.ai上体验。

与此同时,面向终端用户的“LongCat APP”也迎来重大升级,全新上线的图生图功能与24个零门槛玩法模板,让普通用户也能一键生成海报、精修人像,实现“专业AI创作零门槛”。

美团LongCat团队还表示:“我们坚信,真正的技术进步源于社区的集体智慧。现诚邀广大开发者体验模型、参与共建,与我们共同基于这个高效能模型,探索视觉生成的更多可能。”

相关链接:

·Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Image

·GitHub:https://github.com/meituan-longcat/LongCat-Image

来源:https://www.leiphone.com/category/industrynews/2Nh7hNBT3raovZY1.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
2026 年清明档总票房破 3 亿,《超级马力欧银河大电影》领跑

2026 年清明档总票房破 3 亿,《超级马力欧银河大电影》领跑

2026清明档票房观察:经典IP领跑,市场热度超预期 假期刚过,电影市场的“春温”就体现在了数据上。根据猫眼专业版的最新统计,截至4月6日晚上7点49分,今年清明档(4月4日至6日)的总票房已经突破3亿元大关。这个数字背后,是假期观影热情的集中释放,也折射出当前市场的一些有趣动向。 票房榜排位:合家

时间:2026-04-06 20:32
2026 年清明假期进入尾声,小车高速免费通行今晚 24 时截止

2026 年清明假期进入尾声,小车高速免费通行今晚 24 时截止

清明假期返程高峰来临:高速免费今晚截止,这份避堵省钱攻略务必收藏 清明小长假即将结束,全国高速路网从今天起正式进入返程客流高峰。对于广大自驾返程的车主而言,有一个至关重要的时间节点需要牢记:根据国家规定,2026年清明假期高速公路对小客车(7座及以下)的免费通行政策,将于今天(4月6日)晚上24时准

时间:2026-04-06 18:34
消息称三星电子泰勒逻辑厂启动光刻机调试,平泽 DRAM 厂下达设备订单

消息称三星电子泰勒逻辑厂启动光刻机调试,平泽 DRAM 厂下达设备订单

三星半导体扩产提速:泰勒厂光刻机调试中,平泽P4大单落地 这波AI浪潮带来的算力饥渴,正在倒逼半导体巨头们把油门踩到底。最近几天,两家韩国主流媒体《edaily》和《ZDNET Korea》接连曝光了三星电子半导体部门的最新动作,指向非常明确:无论是面向未来的先进逻辑芯片,还是眼下火热的存储产品,三

时间:2026-04-06 17:32
今日清明节:气清景明,万物皆显

今日清明节:气清景明,万物皆显

今日清明节:气清景明,万物皆显 转眼又到了四月五日,今天的日子有些特别——它既是二十四节气中的“清明”,也是中国人最重要的传统节日之一。提起清明,那句“清明时节雨纷纷,路上行人欲断魂”便自然而然地浮现在脑海。其实,这个节日的内涵远比我们想象的要丰富:它既有慎终追远的肃穆,也饱含拥抱春天的欢愉。 清明

时间:2026-04-06 15:12
一季度涨价 1 倍后,消息称三星电子将第二季度 DRAM 价格再提高 30%

一季度涨价 1 倍后,消息称三星电子将第二季度 DRAM 价格再提高 30%

一季度涨价1倍后,消息称三星电子将第二季度DRAM价格再提高30% 进入4月,有个挺有意思的现象:市面上部分DDR5内存条的价格,比起前几个月确实松动了一些。但如果你认为内存市场的“高温”就此要降温,那可能还是太乐观了。就在零售端出现小幅波动的同时,供应链上游却正在上演另一番景象——据韩媒ETNew

时间:2026-04-06 09:43
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程