美团开源LongCat视频虚拟人1.5版性能超越主流闭源模型

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

美团开源LongCat视频虚拟人1.5版性能超越主流闭源模型

热心网友时间：2026-05-23

转载

数字人视频生成技术迎来里程碑式突破：美团龙猫大模型团队正式开源其商用级模型——LongCat-Video-Avatar 1.5。这不仅是一次版本更新，更标志着开源模型在核心体验上实现了从“实验室SOTA”到“商业级可用”的关键跨越。新版本在唇形同步、物理合理性、长视频稳定性及多人互动等实际应用痛点方面均实现了全面跃升，为数字人视频制作提供了强大且易用的解决方案。

拒绝彩排，真刀真枪上舞台!美团LongCat-Video-A vatar1.5开源:全面击败主流闭源模型

三大核心能力升级：精准解决商业化落地难题

要让数字人技术广泛应用于各行各业，必须攻克传统方案中“画面抖动、面部畸变、生成延迟高”等核心痛点。LongCat-Video-Avatar 1.5的升级正是围绕这些商业化落地难题展开的。

基础体验达到商用标准（音频编码器全面升级）

模型将音频特征提取模块从Wav2Vec2升级为更强大的Whisper-large。参数量更大、多语言先验知识更丰富的Whisper编码器，能够更精准地捕捉音素细节与发音节奏变化。其直接优势在于，即使面对长句、快速口语甚至歌唱等复杂音频输入，生成的唇部动作也能保持高度精准。更重要的是，这一升级使得面部表情、头部姿态乃至肢体动作都能与语音内容自然协同，从而大幅减少了长视频生成中常见的跳帧和身份漂移问题，显著提升了视频连贯性。
强大的开放域泛化能力（构建多阶段增强数据体系）

现实应用场景复杂多样，生成主体可能是真人主播、虚拟偶像，甚至是动漫角色或动物形象。为了稳定处理这些多元化主体，团队构建了一套包含“离线精准标注”与“在线实时验证”的多阶段数据流水线，并针对性注入了三类关键增强数据：
- 多人对话数据：利用先进的主动说话人检测技术，有效消除了多人对话场景下的音画歧义，能够准确区分说话者与聆听者，确保口型与语音精准对应。
- 静默状态数据：专门筛选未说话的视频片段进行训练，让模型学习无语音状态下的自然微表情与呼吸感，有效避免了画面中非说话角色出现嘴部乱动的“穿帮”现象。
- 情感化数据：结合帧级情绪识别技术进行精细筛选，为模型注入丰富的情感变化信息，使其能够理解语音内容与面部表情之间的深层关联，让数字人的反应更具“人情味”和表现力。
手部动作与连续性专项优化（引入GRPO强化学习）

在电商直播、产品演示等高频应用场景中，对手部动作的自然度与稳定性要求极高。为此，模型引入了GRPO（基于人类反馈的强化学习优化）技术，将奖励信号细化到逐帧层面，并加入了首帧手部检测机制。这套组合拳显著缓解了手部畸变、局部结构崩塌以及动作不连贯等行业普遍难题，让数字人的手势表达更加真实可信。

推理效率飙升15倍：大幅降低部署与使用成本

对于商业应用而言，出色的效果与可控的成本缺一不可。LongCat-Video-Avatar 1.5在推理效率上取得了突破性进展。通过采用先进的DMD（分布匹配蒸馏）技术，模型成功将原本需要50步的扩散生成过程压缩至仅需8步。同时，团队创新性地采用“一个共享基础模型 + 多个轻量级LoRA适配器”的架构，取代了传统的多模型并行方案，极大地释放了显存占用。

实际测试结果令人瞩目：模型推理效率实现了约15倍的巨大提升。这意味着，生成一段10秒的高质量数字人视频，现在仅需大约1分钟。成本的显著降低，为技术的大规模商业化部署与应用扫清了关键障碍。

权威基准评测：性能全面领先行业头部闭源模型

实践是检验技术的唯一标准。基于权威的EvalTalker评测基准，项目方组织了770名大众评估者与10名领域专家，对涵盖新闻播报、在线教育、娱乐解说等复杂场景的生成视频进行了结构化质量盲测。数据显示，LongCat-Video-Avatar 1.5在多项核心指标上表现卓越：

用户偏好胜率全面领先：在与主流闭源模型的直接A/B对比测试中，其用户偏好胜率分别达到：相比Kling Avatar 2.0为65.9%；相比OmniHuman-1.5为61.1%；相比HeyGen为54.3%。
单人与多人场景得分优异：在单人场景质量得分高达3.336，显著优于HeyGen等知名产品；在更具技术挑战性的多人互动场景中得分达到2.730，大幅领先于InfiniteTalk（2.339）。
画面稳定性表现出色：视频主体变形率控制在23.1%，背景变形率低至9.4%；而最影响观看体验的跳帧问题发生率更是降至0.8%，在所有对比模型中表现最佳。
音视频协调性超越传统方案：面部与身体的同步问题率降至5.1%，唇形同步问题率降至29.8%，这两项关键指标均优于传统的商业闭源系统。

综上所述，此次开源不仅是美团龙猫大模型团队在数字人视频生成技术上的又一次重磅发布，更是向全球开发者、创作者及企业发出的开放共建邀请。团队期望LongCat-Video-Avatar 1.5能够成为一个可验证、可迭代、可持续改进的强大技术基座，与开源社区携手，共同拓展数字人视频技术的真实应用边界与创新可能性。

来源:https://news.aibase.com/zh/news/28241

上一篇： Anthropic首次宣布商业化计划与盈利模式

下一篇：商汤开源模块化AI办公技能库SenseNova-Skills详解