美团开源LongCat数字人模型1.5版 10秒视频生成仅需1分钟
数字人视频生成技术迎来重大突破。美团技术团队正式开源了其LongCat-Video-Avatar模型的1.5版本,标志着该技术从实验室研究迈向商业级应用的新阶段。

此次版本升级的核心目标,是从追求“高拟真度”的学术标杆,转向打造“高可用性”的生产力工具。这意味着模型不仅需要看起来逼真,更要在实际使用中稳定、高效、易用。
具体而言,1.5版本在多个维度实现了显著提升。首先,基础体验全面增强。新版模型能够更稳健地处理长句子、快速语音甚至歌唱等复杂音频输入,确保口型同步精准且自然。同时,面部表情、头部姿态与肢体动作的协调性也得到优化,整体动态表现更为流畅生动。
在场景适应性方面,得益于更高质量的数据训练体系,模型能够稳定生成真人、动漫角色乃至动物等多种主体形象。一个关键的实用突破是,它现在能较好地理解和生成多人对话场景,可以自然地分辨说话者与聆听者,并进行相应的视觉反馈。
效率是技术商业化的生命线。1.5版本在推理部署上实现了巨大飞跃。通过创新的DMD蒸馏技术,模型生成所需的步数从50步大幅压缩至仅需8步。这直接带来了约15倍的推理效率提升。生成一段10秒的数字人视频,现在仅需1分钟左右,极大地增强了其实用性与可部署性。

技术架构的三大核心升级
这些卓越体验的背后,是底层技术架构的三项实质性革新。
第一,基础体验的商用级打磨。模型将音频特征提取编码器从Wav2Vec2升级为参数更庞大、多语言先验知识更丰富的Whisper-large。这一改进能更精细地捕捉语音中的音素细节与韵律节奏,从而显著提升唇形同步的准确性以及全身动作的时序稳定性。其直接益处是有效减少了长视频生成中常见的画面抖动、跳帧以及角色身份漂移等问题。

第二,数据体系的系统化构建。为攻克虚拟人生成的典型难题,龙猫团队构建了一套涵盖离线标注与在线验证的多阶段数据处理流程。尤为重要的是,他们针对性引入了三类增强数据:用于训练多人交互理解的“多人对话数据”、提升静默状态自然度的“静默帧数据”,以及赋予表情更多情感的“情绪化数据”。这套组合策略精准应对了当前AI数字人生成的核心痛点。

第三,通过偏好对齐优化生成细节。模型采用了逐帧级别的GRPO(组相对策略优化)技术进行偏好对齐,专门针对手部稳定性与动作连续性进行强化训练。这有助于缓解数字人视频中常见的手部畸变、动作卡顿等细微瑕疵,使得最终生成效果更为细腻、专业。

权威性能评测:展现领先优势
实践是检验真理的唯一标准。美团基于自建的EvalTalker评测基准,覆盖新闻播报、在线教育、娱乐互动等多种真实应用场景,展开了大规模综合评估。
这项由770名评估者完成超1.3万条主观评分,并结合10名专家结构化分析的结果表明,在物理合理性、时间稳定性、身份一致性和音画协调性这四个核心维度上,LongCat-Video-Avatar 1.5的综合表现雷达图面积处于行业领先水平。
在具体的用户偏好盲测中,该模型相比其他主流数字人生成模型也展现出明显优势:对比Kling Avatar 2.0的胜率为65.9%,对比OmniHuman-1.5的胜率为61.1%,对比HeyGen的胜率为54.3%。
特别是在处理多人对话场景时,其得分大幅领先于InfiniteTalk等模型。在衡量生成稳定性的关键指标上,它的主体变形问题率控制在23.1%,跳帧问题率更是低至0.8%,这两项数据均优于参与对比的其他竞品模型。


此次开源清晰地表明,AI数字人视频生成技术正在跨越从“技术演示”到“生产工具”的关键鸿沟。正如美团团队所展望的,他们希望LongCat-Video-Avatar 1.5能成为一个坚实、可验证、可持续迭代的技术基座。让广大开发者与内容创作者能够基于此,深入探索虚拟数字人在电商直播、在线教育、虚拟客服、数字营销等更广阔场景下的应用潜力。

项目已全面开源,相关资源链接如下:
- Github项目地址:https://github.com/meituan-longcat/LongCat-Video
- HuggingFace模型:https://huggingface.co/meituan-longcat/LongCat-Video-Avatar-1.5
- 详细技术报告:https://github.com/meituan-longcat/LongCat-Video/blob/main/assets/LongCat-Video-Avatar-1.5-Tech-Report.pdf
- 官方项目主页:https://meigen-ai.github.io/LongCat-Video-Avatar-1.5-Page/
- Modelscope平台:https://www.modelscope.cn/models/meituan-longcat/LongCat-Video-Avatar-1.5/summary
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
苹果为iPhone与Mac升级后量子加密技术保障设备安全
苹果公开了底层加密库corecrypto的源代码,并详细介绍了其集成到iPhone和Mac中的后量子密码技术。该库包含ML-KEM和ML-DSA两种后量子算法实现,并设立了形式化验证目录以确保符合相关安全标准。此举是苹果应对未来量子计算威胁、加固产品安全防线的重要步骤。
2026年四川科技活动周暨蓉城科学之夜盛大启幕汇聚前沿硬核科技成果
2026年四川省科技活动周暨蓉城科学之夜在成都启动。活动推出“天府科普大讲堂”、科普积分系统,并聘任“科技副校长”。现场设六大展区,展示人工智能、量子科技等前沿成果。多位科技工作者分享手术机器人、便携无人机、具身智能等创新实践,助力科学普及与城市创新氛围提升。
泰和污水处理厂智能巡检机器人全天候自动化运行
上海泰和污水处理厂启用全国首套“海陆空”立体化机器人智能巡检系统,由轮式机器人、四足机器狗、无人机和无人船组成。该系统搭载多种感知设备,可全自动、全天候、无死角巡查工艺、设备与厂区安全,通过协同作业构建立体感知网络,实现从被动响应到主动预警的转变,显著提升运行可靠性。
美股芯片股强势走高 高通股价飙升超11% 中概股普遍回调
美股三大指数收涨,芯片股表现强劲,费城半导体指数创新高,高通股价大涨超11%。中概股普遍下跌,纳斯达克中国金龙指数跌超2%,富途控股与老虎证券因重罚大幅下挫。贵金属价格回落,原油价格上涨。美联储新任主席就任,市场预期加息概率上升。
Meta裁员8000人背后 AI技术革新引发行业震荡
Meta大规模裁员计划正式启动,凌晨向全球员工发出通知,计划削减约8000个岗位,约占员工总数10%,工程、产品及合规等多个团队均受影响。同时,公司推出监控工具,追踪员工键盘、鼠标及屏幕活动以训练AI,员工无法拒绝使用。首席技术官坦言员工普遍对未来感到焦虑。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

