美团开源LongCat视频生成模型:让虚拟人视频不开口也传神
12月18日消息,据“龙猫 LongCat”公众号今晚推文,美团LongCat团队正式发布并开源SOTA级虚拟人视频生成模型——LongCat-Video-Avatar。
该模型基于LongCat-Video基座打造,延续“一个模型支持多任务”的核心设计,原生支持音频/文本生成视频、音频/文本/图像生成视频及视频续写等核心功能,同时在底层架构上全面升级,实现动作拟真度、长视频稳定性与身份一致性三大维度的突破。

据最新介绍,该模型具备如下技术亮点。
“告别僵硬,迎接鲜活”:不仅能准确驱动口型,还能同步指挥眼神、表情和肢体动作,实现丰富饱满的情感表达。
连“不说话”的时候,都很像人:美团通过Disentangled Unconditional Guidance(解耦无条件引导)训练方法,让模型明白了“静音”不等于“死机”。在说话的间隙,虚拟人也会如同人类一般自然地眨眼、调整坐姿、放松肩膀。
据介绍,LongCat-Video-Avatar因此成为首个同时支持文字、图片、视频三种生成模式的“全能选手”,虚拟人从此有了“真正的生命力”。
在HDTF、CelebV-HQ、EMTD和EvalTalker等权威公开数据集上的定量评测表明,LongCat-Video-Avatar在多项核心指标上达到SOTA领先水平。

附项目地址:
GitHub: https://github.com/meituan-longcat/LongCat-Video
Hugging Face: https://huggingface.co/meituan-longcat/LongCat-Video-Avatar
Project: https://meigen-ai.github.io/LongCat-Video-Avatar/
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
腾讯Ardot设计智能体公测上线 一键将设计稿转为前端代码
腾讯AI设计工具Ardot开放公测,可将自然语言描述直接转化为可编辑设计稿并一键生成代码。该工具旨在简化设计开发流程,用户用语言描述界面即可实时生成可调整的初稿并转换为可用代码,有助于提升原型验证与团队协作效率,降低实现门槛。其实际价值取决于生成精度、交互能力及代码质。
阿里云峰会5月20日重磅发布全新升级千问大模型
千问大模型宣布将于5月20日阿里云峰会推出更全能、强大的“新朋友”,可能为全新大模型或多模态AI平台,预示技术路径与产品格局新变化。该发布与云生态深度绑定,将推动AI应用拓展、成本优化及生态开放,引发行业新浪潮。
云境标书AI加入英伟达初创加速计划 AI赋能招投标行业新突破
云境标书AI”入选NVIDIA初创加速计划,获得技术、专家及生态资源支持。该产品专注于招投标领域,利用AI技术高效解析文件、生成内容,并内置合规风控与多行业知识库。其服务注重数据安全与用户所有权,提供免费基础功能与灵活付费模式,旨在提升投标效率与中标率。
酷开企业AI操作系统发布 引领企业管理AI原生转型
酷开科技发布原生AI企业操作系统,旨在将战略目标转化为可执行、可追踪的数字化流程。该系统通过企业、岗位、个人及任务四大智能体协同运作,在“人机协同”原则下提升管理效率。同时,酷开配套提供理论书籍与咨询服务,形成完整转型方案,助力企业特别是中小企业迈向AI原生管理新阶段。
如祺出行AI数据战略:以高价值场景驱动世界模型训练
具身智能发展面临高质量数据短缺挑战。如祺出行依托平台优势,日均产出1600小时多模态真实场景数据,完整覆盖驾驶决策与反馈链条,为世界模型训练提供稀缺资源。公司已构建从采集到标注的全栈数据服务能力,业务拓展至自动驾驶、具身智能与大模型等领域,并与多家头部企业达成合作。
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

