美团开源LongCat视频生成模型:5分钟长视频稳定生成

10月27日,美团LongCat团队正式发布并开源了LongCat-Video视频生成模型。据介绍,该模型在文生视频和图生视频等基础任务上均达到了开源领域的最先进水平。通过原生视频续写任务的预训练,它能够生成长达数分钟且连贯流畅的视频,在跨帧时间序列一致性与物理运动合理性方面表现突出,为长视频生成领域带来了显著优势。

近年来,“世界模型”(World Model)被视为通往下一代人工智能的关键引擎,它能够让AI系统真正理解并预测真实世界的运行规律,甚至参与重构现实。作为一种能够建模物理规律、时空演变与场景逻辑的智能系统,世界模型赋予了人工智能“看见”世界本质的能力。在这一背景下,视频生成模型有望成为构建世界模型的重要路径:通过视频生成任务,系统得以压缩几何、语义、物理等多种形式的知识,进而在数字空间中模拟、推演乃至预测真实世界的动态变化。
作为基于Diffusion Transformer(DiT)架构的多功能统一视频生成基座,LongCat-Video创新性地引入“条件帧数量”机制以区分不同任务类型——文生视频无需条件帧输入、图生视频仅需1帧参考图像、视频续写则依赖多帧前序内容。原生支持三大核心任务且无需额外模型适配,形成了“文生/图生/视频续写”完整的任务闭环。
文生视频方面:模型可生成720p、30fps的高清视频,能够精准解析文本中关于物体、人物、场景、风格等细节指令,在语义理解与视觉呈现能力上均达到开源SOTA级别。
图生视频方面:系统严格保留参考图像的主体属性、背景关系与整体风格,生成的动态过程符合物理规律,支持详细指令、简洁描述、空指令等多种输入类型,内容一致性与动态自然度表现优异。
视频续写方面:作为LongCat Video的核心差异化能力,视频续写功能可基于多帧条件帧延伸视频内容,为生成长视频提供原生技术支持。
依托视频续写任务预训练、Block-Causual Attention机制和GRPO后训练,LongCat-Video能够稳定输出长达5分钟的视频内容,且全程保持高质量输出,号称已达到行业“顶尖”水平。
相关资源链接如下:
GitHub:https://github.com/meituan-longcat/LongCat-Video
Hugging Face:https://huggingface.co/meituan-longcat/LongCat-Video
Project Page:https://meituan-longcat.github.io/LongCat-Video/
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
Thinking+Machines Lab突破:策略蒸馏让Qwen模型效果显著提升
近期,专注于人工智能研究的技术团队Thinking Machines Lab(TML)发布了一篇技术博客,详细阐述了其研发的“在策略蒸馏”训练方法。该方法通过融合强化学习的纠错机制与监督微调的密集反
软银注资225亿美元,加速OpenAI音乐模型开发与升级
路透社近日披露,日本软银集团正式通过一项重大投资决议,计划向美国人工智能企业OpenAI注入225亿美元资金,按当前汇率计算约合人民币1600余亿元。这笔巨额融资将主要用于支持OpenAI在人工智能
奥特曼筹办Merge Labs:以声波磁场技术打造无创脑机接口
据外媒援引知情人士消息,OpenAI首席执行官萨姆·奥尔特曼正在筹备一家名为Merge Labs的脑机接口初创企业,并已邀请加州理工学院生物分子工程专家米哈伊尔·夏皮罗加入核心创始团队。这一动向标志
LG发力半导体封装:液态与薄膜PID双方案布局后端材料
LG化学近日宣布,成功研发出用于半导体封装的液态感光绝缘材料(Photo Imageable Dielectric,简称PID),正式进军人工智能及高性能半导体市场。这一突破性材料作为半导体先进封装
无锡微研携手维谛技术:共建数据中心制冷新方案,推动行业升级
近日,无锡微研有限公司通过其最新微信公众号宣布,自2024年起,该公司已与全球数字基础设施领域领军企业维谛技术(VERTIV)建立合作关系,并成功跻身其供应链体系。随着数据中心行业需求的持续攀升,无
相关攻略
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程








