当前位置: 首页
AI资讯
美团开源商用数字人模型性能超越三大闭源平台

美团开源商用数字人模型性能超越三大闭源平台

热心网友 时间:2026-05-24
转载

就在今天,数字人视频生成领域迎来了一记重磅消息:美团龙猫大模型团队毫无预兆地开源了其商用级模型 LongCat-Video-Avatar 1.5。

更令人惊讶的是,在权威评测中,它的用户偏好胜率全面超越了 Kling Avatar 2.0、OmniHuman-1.5 和 HeyGen 等头部玩家。最“豪横”的是,它直接采用了最宽松的 MIT 协议开源,几乎没有任何商业使用限制。

这感觉就像,当所有人都在舞台上炫技时,那个一直低调的选手,默默交出了一份接近满分的答卷。那么,这个 1.5 版本究竟强在哪里?答案就藏在三项扎实的技术升级之中。

一、给数字人换了一副“好耳朵”

数字人视频最怕什么?口型对不上。嘴唇开合哪怕差之毫厘,观众瞬间就会出戏,这正是所谓的“恐怖谷效应”。

LongCat-Video-Avatar 1.5 做的第一项关键升级,就是把音频特征提取编码器从 Wav2Vec2 换成了 Whisper-large。这相当于给数字人做了一次精密的听觉系统升级——换上了一副能在嘈杂环境中捕捉细微声响的专业“耳朵”。

它不仅能“听清”说的是什么,更能精准捕捉 语速变化、重音落点、气息停顿 这些决定表达是否自然的副语言信息。结果是,无论用户语速飞快、中英混杂,甚至哼唱起来,模型都能精确控制嘴唇在哪个音节该张开多少度。

更重要的是,这项升级的影响是全局性的。面部微表情、头部姿态、乃至肩颈和肢体的动作,现在都能跟随语音节奏自然协同。 说到兴奋处眉毛会自然上扬,压低声音时会不自觉地微微前倾——彻底告别了“只有嘴在动”的僵硬感,呈现出一个真正在与你交流的鲜活形象。

二、三套数据,教会数字人“说人话、听人话、带着情绪说人话”

商业场景对数字人的需求千变万化,从真人主播、虚拟偶像到动漫角色乃至拟人动物,形态各异。一个通用模型难以面面俱到,关键还得看“喂”什么数据。

为此,团队构建了一套多阶段数据处理流水线,在自动过滤低质量片段的基础上,专门注入了三类增强数据,好比为数字人请了三位顶尖的专项教练:

多人社交课 — 通过主动说话人检测技术,只保留单人清晰发声的片段。这从源头上解决了多人场景中“围观群众乱张嘴”的干扰问题,确保模型能精准锁定并学习真正说话者的口型与神态。

倾听修养课 — 大量引入人物沉默、聆听状态的视频片段。这让模型学会了在“闭嘴”时该如何表现:自然的微表情、视线的游移、身体的轻微晃动。毕竟,人不是一直在说话的,这些沉默时的细节,恰恰是构成真实感的最后10%。

情绪表演课 — 结合多模态与帧级情绪识别技术,将语音中蕴含的喜怒哀乐直接映射到面部肌肉的运动上。开心时苹果肌会上扬,严肃时眉头会微蹙,从而告别了千篇一律的“营业式微笑”。

针对行业长期存在的“手部崩坏”难题,团队引入了 GRPO(基于人类反馈的强化学习)技术,就像一个苛刻的导演逐帧审核——手部扭曲就扣分,手指消失就重来。

同时,模型加入了首帧手部检测机制,优先训练包含手部的画面。现在,数字人主播可以自信地拿起产品进行展示,手指该有几根就是几根,不再扭曲成难以辨认的抽象形状。

三、15 倍推理效率提升,让技术飞出实验室

效果再好,如果成本高昂、速度缓慢,也难以落地。传统方案往往需要多个模型串联协作,显存占用高,推理速度慢,用户体验大打折扣。

LongCat-Video-Avatar 1.5 采用了 DMD(分布匹配蒸馏)技术,将生成所需的迭代步数从 50 步大幅压缩至 8 步。可以这样理解:原来的模型需要像学生一样反复琢磨50遍才能交出答案,现在则借鉴了“教师模型”的精华,总结出一套只需8遍就能达到相近效果的高效“口诀”。

在模型架构上,也革新为“一个共享基础模型 + 多个轻量级 LoRA 适配器”的模式,使得显存开销断崖式下降。

根据官方实测数据:生成一段10秒的高质量数字人视频,仅需约1分钟,推理效率提升了约15倍。 这意味着,普通消费级显卡就能流畅运行,企业无需再去租赁昂贵的专业计算卡。

以前泡杯咖啡可能只等来几秒的生成结果,现在一段完整的短视频素材可能在外卖送达前就已就绪。数字人视频生成,正在从少数公司的技术壁垒,转变为更广泛的可用工具。

四、用数据说话:凭什么说“超越闭源”?

技术原理讲完,最终还是要看实际效果。

美团基于 EvalTalker 构建了一个覆盖新闻、教育、娱乐、商业等多类复杂场景的评测基准。由770名评估者完成了超过1.3万条主观评分,并由10名领域专家进行了结构化分析。结果颇具说服力:

在具体指标上,表现同样突出:

  • 在单人场景和多人场景的得分分别为 3.3362.730,均大幅领先于同类方案。
  • 主体变形率控制在 23.1%,背景变形率低至 9.4%,跳帧率更是被压到了 0.8%——所有这些关键稳定性指标均优于对比模型。
  • 面部与身体同步出现问题的比率仅为 5.1%,唇形同步问题率为 29.8%,同样是最低水平。

换成更直观的感受就是:观看其生成的数字人视频,你很难再发现眼角不自然的抽动、背景像浸水墙纸般的扭曲,或者在场景切换时人物形象的瞬间“变脸”。

稳定可靠,是任何技术实现商业落地的第一道门槛。从数据来看,LongCat-Video-Avatar 1.5 已经稳稳地跨了过去。

五、开源的阳谋:美团在布什么局?

此次开源采用最宽松的 MIT 协议,模型权重和代码完全开放,允许自由使用、修改甚至集成到商业产品中。这并非简单的技术慈善,更像是一次深度的生态基建。

这与美团一向务实的人工智能战略高度吻合:从2025年9月发布5600亿参数的LongCat-Flash大模型,到2026年4月低调内测万亿参数模型,并坚持全链路国产算力适配。

王兴早已明确表态:不盲目卷入参数竞赛,不做单纯的“词元工厂”,所有AI技术最终都要服务于解决本地生活的实际问题。

而美团恰恰拥有极其丰富的应用场景:外卖直播需要能说会动的主播,到店业务的智能导购屏需要虚拟店员,商家后台则需要一键生成营销视频的便捷工具。

LongCat-Video-Avatar 1.5 的开源,实质上是将内部经过验证、能够扛住真实商业环境考验的技术,交到了整个市场手中。其目的,正是期待一个繁荣的生态能从中生长出来,催生出连美团自身都未曾设想过的创新应用。

数字人视频生成这条赛道,正在从巨头间的“军备竞赛”,逐渐演变为一场“全民运动”。从Soul的SoulX-LiveAct,到NVIDIA的PersonaPlex,再到阿里的Wan2.2-Animate,直至今天美团的模型,开源的力量正在一次次将技术的应用门槛踏平。

正如美团龙猫团队在官宣结尾所写:希望它成为一个“可验证、可改进、可共建的技术基座”。 翻译过来,就是地基已经打好,至于能在上面建造出怎样的摩天大楼,值得所有人期待。

那个一度安静的美团,这次交出的卷子,每一道题都答得扎实。而关于数字人未来的那道大题,现在,每个人都有机会提笔作答了。

来源:https://www.aitntnews.com/newDetail.html?newId=25389

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
张江艾利特轮式人形机器人正式发布

张江艾利特轮式人形机器人正式发布

艾利特公司在张江发布轮式人形机器人Centaur-G1,并升级了自研工业级具身大模型平台。该机器人采用轮式构型,聚焦光模块等高端精密制造场景,搭载七自由度机械臂与双臂协同算法,能完成高精度搬运与装配作业。其稳定性与成本优势,有望推动在AI产业链相关工业场景的规模化应用落地。

时间:2026-05-24 12:43
天亿马子公司引入粤财产投基金 加码人工智能研发

天亿马子公司引入粤财产投基金 加码人工智能研发

天亿马全资子公司拟增资扩股,引入粤财产投基金作为战略股东。双方各出资8000万元,注册资本增至1 7亿元。该基金由省级政府引导设立,聚焦人工智能等新兴产业,将为公司带来资金与产业资源支持,助力其在AI研发与数字经济领域深化布局。

时间:2026-05-24 12:43
第八届西洽会跨国公司经贸合作聚焦两大重点领域

第八届西洽会跨国公司经贸合作聚焦两大重点领域

第八届西洽会跨国公司对接会聚焦生命健康、绿色低碳及智能制造领域,搭建政企合作平台。会上发布《“人工智能+制造”在渝实施发展建议书》,为制造业转型提供指引。沙坪坝、璧山等区推介产业政策,多家国际企业对接项目与技术合作。绿色低碳与智能制造板块达成多项共识,体现企业持续投资。

时间:2026-05-24 12:42
广西人工智能产教融合对接会助力专精特新企业发展

广西人工智能产教融合对接会助力专精特新企业发展

5月21日,广西专精特新企业商会联合高校举办人工智能产教融合对接会,近50名校企代表参与。双方围绕学科建设、企业人才需求深入交流,就共建智库、实验室等达成合作意向,并参观成果展厅。活动服务于“广西集成、东盟应用”布局,后续将开展系列活动持续推进产教融合。

时间:2026-05-24 12:42
AI视频技术告别低质内容迈向全流程智能制作

AI视频技术告别低质内容迈向全流程智能制作

AI视频技术正从生成片段转向赋能全流程制作。新一代AI智能体可引导用户完成从构思到生成的全过程,提升角色一致性与物理规律理解,已实际缩短制作周期。尽管可能冲击就业,但效率提升有望催生更多项目。好莱坞正探索以此创作观众认可的内容。

时间:2026-05-24 12:42
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程