美团开源LongCat Video:高效生成长视频解决方案


10月27日,美团LongCat团队正式发布并开源视频生成模型LongCat-Video。该团队宣称,该模型在统一架构框架下,能够同步支持文本生成视频(Text-to-Video)、图像生成视频(Image-to-Video)以及视频续写等基础任务。其内部测试及公开基准(包括VBench)评价结果显示,该项目在开源范围内取得了行业领先成果。


▲LongCat-Video在文生、图生视频基础任务上实现开源SOTA突破(资料图)
根据技术报告,LongCat-Video基于Diffusion Transformer(DiT)架构,创新性地采用"条件帧数量"作为任务区分机制:文本生成视频无需输入条件帧,图像生成视频仅需1帧参考图像,视频续写则依赖多帧前置内容。这一设计使得模型无需额外改造即可灵活适配三类生成任务。
为提升长时序生成能力,模型在预训练阶段引入原生的视频续写任务。团队表示,该模型目前已能稳定生成分钟级长视频,并针对跨帧时序一致性与物理运动合理性进行了专项优化,有效缓解了色彩漂移、画质衰减与动作断裂等常见问题。
在效率优化方面,模型结合块稀疏注意力(BSA)与条件token缓存机制,显著降低长序列推理冗余。据称在处理93帧及以上序列时,能够在生成质量与推理效率间保持稳定平衡。针对高分辨率、高帧率场景,模型采用"二阶粗到精(C2F)+ BSA + 蒸馏"组合策略,报告中指出其推理速度较基线提升约10.1倍。
参数规模方面,LongCat-Video基座模型达到约136亿参数。评估体系全面覆盖文本对齐、图像对齐、视觉质量、运动质量与整体质量等维度;团队强调其在文本对齐与运动连贯性等关键指标上表现优异,并在公开基准VBench等测试中取得领先成绩。

LongCat团队将此次发布定位为其"世界模型(World Model)"方向探索的重要里程碑,相关代码与模型已全面开源。以上技术结论与性能数据均引用自团队技术报告与发布材料。
免责声明
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
前阿里CEO张勇5,354万购香港半山竹林苑豪宅 年底掌希慎兴业
港股上市公司希慎兴业近日发布的一则公告引发市场关注。根据公告内容,其全资子公司广运于10月24日与买方达成一项住宅交易协议,广运将出售位于香港半山坚尼道黄金地段的竹林苑一处住宅单位。该住宅实用面积约
华为MatePad Pro与Mini典藏版开售!今日入手攻略
感谢热心网友風見暉一、Autumn_Dream、软媒新友2543710、雨雪载途提供的信息支持。10月27日上午,华为终端最新微博发布消息,宣布华为MatePad Pro流金典藏版与华为MatePa
小米15年成长复盘:天花板逼近还是突破在即?
小米十五年:增长天花板近了吗? 10月22日,针对近期网传 “小米汽车SOS 1秒接通 不含排队时间”等相关内容,小米汽车副总裁李肖爽发文称,该内容完全失实,公司从未在发布会上或物料上有过此宣传,
理光职场赋能:智慧校园让工作变悦享
2025年10月23日、24日,中关村在线“我们学校潮好玩”校园嘉年华第二季活动来到了成都市的西南交通大学(犀浦校区)和电子科技大学(清水河校区),中关村在线携手OA概念的首个提出者理光,在蓉城深情
iPhone17或将降价增配,国产手机AI能否实现逆袭?
今年的手机市场,出现了一个反常现象:新发布的iPhone不再像往年那样快速跳水,反而价格坚挺,一机难求。与此同时,苹果公司市值重新突破4万亿美元大关,股价创出新高。 这种市场表现的背后,是苹果产品
热门推荐
热门教程
更多- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程








