当前位置: 首页
AI资讯
LongCat-Video视频生成模型发布 迈出世界模型探索第一步

LongCat-Video视频生成模型发布 迈出世界模型探索第一步

热心网友 时间:2026-05-28
转载

在人工智能领域,一个始终被追求的核心愿景,是让机器真正理解并预判真实世界的运行规律。从这个角度出发,“世界模型”的出现,无疑成为了通往下一代智能的关键跳板。它能够建模物理定律、推演时空演化、解析场景逻辑,使AI具备“看透”世界本质的能力。那么,如何构建这样一个世界模型?一条被广泛看好的技术路径是——视频生成。通过视频生成任务,AI可以压缩并学习几何、语义、物理等多维知识,进而在数字空间中模拟和推演真实世界的动态变化。

沿着这一思路,美团LongCat团队正式发布了他们的视频生成模型——LongCat-Video。这款模型不仅在文生视频和图生视频这两项基础任务上达到了开源领域的领先水平,更关键的是,它原生支持5分钟级别的长视频连贯生成,攻克了跨帧一致性和物理合理性等难点。可以理解为:这既是美团探索世界模型的第一步,也是技术地基的奠定,为后续自动驾驶、具身智能等深度交互场景铺平了道路。

LongCat-Video 视频生成模型正式发布,探索世界模型的第一步

统一架构:一个模型,覆盖三大任务

LongCat-Video基于Diffusion Transformer(DiT)架构设计,其最大亮点在于用一个模型统一完成三类视频生成任务。具体是如何实现的?依靠“条件帧数量”来区分任务类型:文生视频不需要条件帧,图生视频输入1帧参考图,视频续写则依托多帧前序内容。这样一来,无需为每个任务单独适配模型,自然形成了文生视频、图生视频、视频续写的完整闭环。

文生视频:语义理解与画面呈现双重在线

在文生视频任务中,模型能够生成720p、30fps的高清视频,对文本中关于物体、人物、场景和风格的指令解析相当精准。无论是“一只猫在夕阳下奔跑”,还是“赛博朋克风格的城市夜景”,都能实现语义与视觉的高度匹配,达到开源SOTA水平。

图生视频:忠实参考,动态自然流畅

图生视频的核心挑战在于既要保留参考图的“样貌”,又要让动起来的部分符合物理规律。LongCat-Video在这方面表现出色,无论是详细的动作指令,还是简单的场景描述,甚至空指令,都能在保持内容一致性的前提下,生成动态自然且符合预期的视频。

视频续写:长视频生成的技术基石

这是LongCat-Video的差异化能力所在。通过多帧条件帧续接视频内容,模型为长视频生成提供了原生的技术支撑。打个比方:它不是一段段拼凑,而是一气呵成地往下讲述,保证了故事的连贯性与一致性。

长视频生成:5分钟连贯输出,质量全程在线

长视频生成一直是行业痛点——色彩漂移、画质降解、动作断裂,是常见问题。LongCat-Video如何解决?它依托视频续写任务的预训练,结合Block-Causal Attention机制和GRPO后训练,能够稳定输出5分钟级别的长视频,且全程质量无损。这在行业内属于顶尖水平。

更值得一提的是,模型采用块稀疏注意力(BSA)与条件token缓存机制,大幅降低了长视频推理中的计算冗余。即使处理93帧以上的长序列,也能在效率与质量之间找到平衡,打破了“时长与质量不可兼得”的魔咒。

高效推理:三重优化,速度提升10倍

高分辨率、高帧率视频生成对算力要求极高。LongCat-Video通过“二阶段粗到精生成(C2F)+ 块稀疏注意力(BSA)+ 模型蒸馏”三重优化,将推理速度提升了10.1倍,实现了效率与质量的最优平衡。

粗到精生成(C2F)

先快速生成480p、15fps的低分辨率视频,再通过LoRA精调模块超分到720p、30fps。这种策略不仅降低了计算成本,还让画面细节更加精细。

块稀疏注意力(BSA)

将3D视觉token分块后,只选取top-r关键块计算注意力,计算量可降至标准密集注意力的10%以下。同时支持稀疏注意力并行训练,进一步提升了训练与推理效率。

模型蒸馏优化

结合Classifier-Free Guidance(CFG)与一致性模型(CM)蒸馏,将采样步骤从50步减至16步,大幅缩短生成时间。

性能评估:开源SOTA的全面验证

LongCat-Video的模型评估围绕内部基准测试和公开基准测试展开,覆盖文生视频和图生视频两大任务,从文本对齐、图像对齐、视觉质量、运动质量、整体质量等多个维度进行验证。

评估结果整体来看,这款136亿参数的视频生成基座模型,综合能力跻身开源SOTA。具体表现如下:

  • 在文生视频和图生视频任务中,综合性能均达到当前开源领域的领先水平;
  • 在文本对齐度、运动连贯性等关键指标上优势显著;
  • 在VBench等公开基准测试中,整体表现优异。

可以说,LongCat-Video的发布不仅是视频生成技术的一次升级,更是朝着世界模型迈出的坚实一步。对于需要长时序动态模拟的场景——比如数字人、自动驾驶、具身智能——它提供了一个真正可落地的技术基础。

来源:https://www.53ai.com/news/LargeLanguageModel/2025102713860.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
修Bug被Gemini追删代码致宕机修复报告现编

修Bug被Gemini追删代码致宕机修复报告现编

最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修

时间:2026-05-28 22:58
Notion AI运营指南:自动归纳用户反馈

Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

时间:2026-05-28 22:54
AI给出的答案为何总不符期望?原因解析

AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

时间:2026-05-28 22:54
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

时间:2026-05-28 22:53
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们

时间:2026-05-28 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程