美团开源LongCat数字人视频生成模型1.5版:10秒视频仅需1分钟
数字人视频生成技术领域近日迎来一项重要的开源更新。5月22日,美团技术团队正式发布了LongCat-Video-Avatar 1.5版本。此次发布的核心目标在于,推动数字人技术从实验室的高拟真演示阶段,迈向具备实际商用价值的规模化应用场景。

简而言之,1.5版本在1.0“开源SOTA”模型的基础上,完成了一次面向“商业级应用”的全面迭代。其关键改进聚焦于直接影响用户体验与落地成本的多个维度:唇形同步精度显著提升、物理动作更加自然合理、长视频生成稳定性增强,同时实现了生成效率的大幅优化。
从“彩排”到“登台”:商用体验全面升级
数字人视频要想实现真正的商业落地,仅有逼真的外观是远远不够的。面对真实应用中复杂的语音输入,例如长句、快速对话甚至歌唱,模型的唇部驱动必须做到精准同步、反应灵敏。1.5版本对此进行了重点强化,实现了更平滑、更准确的唇部运动。同时,面部微表情、头部姿态与肢体动作的协调性也得到系统性提升,使得数字人的整体表现更具“真人感”。
此外,模型的场景适应能力也得到拓宽。依托一套高质量的数据处理管线,当前版本能够稳定地生成以真人、动漫角色乃至动物等多种主体为核心的视频。更为实用的是,在多人对话场景中,模型可以智能区分发言者与聆听者,并生成相应的互动姿态,这对于虚拟访谈、在线会议、多角色直播等应用场景至关重要。
当然,商业化落地始终绕不开成本考量。在推理部署层面,本次升级带来了一项关键突破:通过采用先进的DMD蒸馏技术,模型将视频生成所需的采样步数从50步大幅压缩至仅需8步。这意味着什么?推理效率实现了约15倍的提升。生成一段10秒的高质量数字人视频,现在仅需大约1分钟。这种效率的飞跃,直接降低了用户的使用门槛与云计算成本。
技术深潜:三大核心升级解析
那么,上述用户体验的显著提升,背后依托了哪些具体的技术革新?主要集中于以下三个层面。
首先是基础体验的商用化精炼。模型将音频特征提取的编码器从Wav2Vec2升级为参数量更大、且具备多语言先验知识的Whisper-large模型。这使得模型能够更细腻地捕捉语音中的音素细节与节奏韵律,从而显著提升了唇形同步的精度,并增强了全身动作的时序稳定性。长视频生成中常见的画面抖动、帧间跳跃以及身份特征漂移等问题,也因此得到了有效缓解。
其次,数据是模型性能的基石。团队构建了一套涵盖离线标注与在线验证的多阶段数据处理流程。尤为值得一提的是,他们针对性增强了三类关键训练数据:用于学习多人交互逻辑的“多人对话数据”、训练模型在静默时段保持自然姿态的“静默数据”,以及提升数字人表现力的“情绪化数据”。这些数据的补充,直指当前虚拟人生成技术中的典型痛点。
最后,在模型优化层面,通过引入逐帧级别的GRPO偏好对齐技术,专门针对手部运动的稳定性与动作的连续性进行了强化训练。这有效改善了数字人视频中常见的手部扭曲变形与动作衔接不自然等问题,让生成细节更加经得起推敲。
性能实测:用数据验证效果
技术升级的最终成效,需要依靠严谨的评测来验证。美团基于EvalTalker评测体系,构建了一个覆盖新闻播报、在线教育、娱乐解说等多场景的综合评估基准。
根据超过770名评估者完成的1.3万余条主观评分,以及10位领域专家的结构化分析,在物理合理性、时间稳定性、身份一致性和音视频协调性这四个核心维度上,LongCat-Video-Avatar 1.5的综合表现(以雷达图面积衡量)处于行业领先水平。
在具体的用户偏好对比测试中,该模型相较于其他主流方案也展现出明显优势:对比Kling Avatar 2.0的胜率为65.9%,对比OmniHuman-1.5的胜率为61.1%,对比HeyGen的胜率为54.3%。
在更具挑战性的多人对话场景评测中,其得分大幅领先于InfiniteTalk模型。此外,在主体变形和画面跳帧这两个关键负面指标上,其问题发生率分别仅为23.1%和0.8%,均优于同期对比的其他模型。
开源的价值:共建技术生态基座
从上述进展可以看出,数字人视频生成技术正在跨越一道关键门槛:从追求炫酷的演示效果,转向追求稳定、可靠、高效的现实应用。美团此次开源1.5版本,正是旨在提供一个“性能可验证、技术可改进、生态可共建”的坚实技术基座。
当底层模型变得高效、稳定且开源透明,广大的开发者和内容创作者便能更专注于上层应用场景的创新,深入探索虚拟数字人在电商直播、在线教育、数字娱乐、智能客服等众多领域的商业化可能性。这或许正是技术开源最大的价值所在——降低行业创新门槛,加速整个应用生态的繁荣与发展。
目前,该项目已在GitHub、Hugging Face、ModelScope等主流开源平台同步开放。感兴趣的开发者与研究人员可以前往相关平台查看项目详情、获取模型权重并阅读详细的技术报告。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
第四届链博会亮点前瞻超30场首发活动与创新看点
第四届链博会将于6月举办,创新亮点突出。展区升级并首设人工智能专区,完整呈现AI产业链,汇聚全球头部企业。展会恰逢APEC“中国年”及海南自贸港封关元年,将举办高端论坛,并展示海南、雄安新区等地的产业成果与机遇。预计推出超160项首发产品与技术,举办超30场首发活动。国际参与度提升,多国企业。
联想全年营收突破800亿美元创历史新高 AI业务贡献超三成
联想集团2025 26财年营收首破800亿美元,净利大增42%。AI收入占比达33%,成为核心增长引擎。基础设施业务扭亏为盈,个人电脑份额稳固。公司正应对成本挑战,目标两年内营收达千亿美元。
川崎重工联手微软加速实体人工智能业务布局
日本川崎重工宣布与微软深度合作,借助其云与人工智能平台加速实体人工智能业务布局。合作将提升工业机器人数据处理与智能开发效率,推动机器人向感知、理解和自主决策演进。此举标志着实体人工智能进入规模化部署前夜,可能引发制造业深度变革。
足下科技携手沛岱科技共拓具身智能新篇章
足下科技与沛岱科技达成战略合作,共同推进具身智能发展。沛岱科技提供高物理性合成数据,提升机器人虚拟训练效果并助力向真实世界迁移;足下科技借此强化其“大小脑”平台,增强复杂场景下的泛化与闭环能力。双方通过高质量数据与系统化训练,旨在缩短仿真到现实的差距,加速机器。
盛美上海股价六连涨累计升逾两成东方基金持仓浮盈超亿元
盛美上海股价连续六个交易日上涨,累计涨幅达21 93%。东方基金旗下人工智能主题混合基金持有该公司480 07万股,在此轮上涨中累计浮盈约1 84亿元。该基金今年以来收益率表现突出,盛美上海为其第十大重仓股,持仓市值占基金净值比例6 3%。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

