港科大与蚂蚁集团合作研发实时电影导演AI技术

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

港科大与蚂蚁集团合作研发实时电影导演AI技术

热心网友时间：2026-05-19

转载

香港科技大学、蚂蚁集团与上海交通大学联合研发CausalCine系统，通过“全步骤因果基础模型”训练AI理解镜头切换逻辑，保持角色一致性。系统引入“内容感知记忆路由”机制智能选取历史帧参考，并采用“分布匹配蒸馏”技术压缩生成步骤，实现实时流式输出。实验表明，该系统在镜头切换准确率等关键指标上。

近期，一项由香港科技大学、蚂蚁集团与上海交通大学联合开展的研究，为AI视频生成领域带来了突破性的新视角。这项研究以预印本形式发布于2026年5月，论文编号为arXiv:2605.12496，为希望深入了解AI视频生成技术的读者提供了详尽的技术方案。

制作一部电影最大的挑战是什么？或许并非拍摄某个惊艳的独立镜头，而是确保所有镜头能够流畅、连贯地讲述同一个故事。导演需要在不同场景间实现无缝转场，角色在相隔许久的镜头中必须保持外貌一致，新剧情的插入更不能显得突兀——这对人类导演已是艰巨任务，对AI视频生成系统而言，则更像是一个长期存在的技术瓶颈。

如今，一个名为**CausalCine**的新型AI视频生成系统，正致力于攻克这一难题。它的核心目标非常明确：让AI能够像真正的电影导演一样，在实时生成视频的过程中接受新的拍摄指令，并且已生成的内容无需推倒重来。

这听起来似乎是AI视频生成的基本要求，但如果你了解当前主流AI视频生成模型的局限性，就会明白实现这一目标面临着何等复杂的技术挑战。

一、为什么“让AI拍多镜头电影”这么难？

当前的AI视频生成系统，主要可以分为两大技术路线。

第一类是“全局规划派”。这类系统在生成开始前，就需要规划好所有镜头的内容，然后一次性生成完整视频。其优势在于视频前后镜头的协调性与一致性较好，因为生成过程是“双向”建模的，每个镜头既能参考前文，也能预见后文。但代价同样高昂：视频长度增加时，计算复杂度几乎呈指数级增长。更关键的是，用户必须在生成前就提供完整的“剧本”，中途无法进行任何修改或调整。

第二类是“逐帧生成派”。这类系统像记录流水账一样，一帧一帧地顺序生成，每次只参考已生成的历史内容。这种方式天然适合实时流式输出，计算成本也相对可控。但其核心问题在于，随着视频时长增加，系统容易产生“记忆衰退”——开始出现画面循环、主体漂移，甚至遗忘主角外貌特征。更棘手的是，当需要切换场景时（例如从森林全景切换到角色特写），系统往往无法识别指令变化，只是机械地延续之前的画面内容。

我们可以做一个形象的比喻：第一类系统如同在录音棚里精心制作完整专辑的音乐人，作品完整但制作周期长；第二类则像直播中即兴演奏的歌手，互动性强却容易跑调或忘词。

CausalCine的目标，正是让这位“即兴歌手”具备专业水准——在保留实时流式生成能力的同时，让AI真正理解“何时该切换场景”，并牢牢记住几分钟前出现过的重要角色。

二、把“拍片知识”教给AI，要从基础开始

研究团队发现，此前许多系统在训练顺序上存在误区：先让AI学会快速生成（例如仅用四步就输出图像），再让它学习复杂的多镜头叙事结构。这好比让学徒尚未掌握绘画基础，就去挑战一分钟完成一幅作品——速度虽快，但根基不稳，最终效果难以保证。

CausalCine采用了截然相反的思路：首先扎实地教会AI理解并生成多镜头视频的能力，然后再进行速度优化与压缩。

为此，他们首先训练了一个“全步骤因果基础模型”。该模型的训练数据包含了大量真实的长视频片段（约15秒，内含多个镜头切换）。训练过程采用了一种称为“教师强制”的方法：在同一次训练中，同时向AI展示视频的“干净版本”（已生成内容）和“带噪声版本”（待生成内容），让AI在对比中学习——在已知前面镜头内容的前提下，接下来应该生成什么样的画面。

这一训练流程的设计非常精妙。系统将一段视频的所有片段打包成一个长序列，并分为两部分：前半部分是所有干净片段，后半部分是所有带噪声片段。同时，设定了一套严格的“注意力规则”：干净片段之间可以互相参照，但只能参考时间上先于自己的内容；带噪声片段只能参考干净部分，不能相互交叉；而干净片段则完全不允许查看带噪声部分。这套规则确保了AI在训练中学到的“回顾历史、预测未来”的逻辑，与其在实际生成视频时的工作机制完全对齐。

与此同时，每个视频片段的文本描述（即镜头指令）是按镜头分配的：同一镜头内的所有片段共享同一描述，当镜头切换时，描述也随之更新。这套机制让AI学会了：当文本指令发生变化时，画面需要真正开启一个新的场景，而不是惯性延续上一个镜头的内容。

这一阶段训练的效果是显著的。经过如此训练的基础模型，已经能够稳定生成结构清晰的多镜头视频，在切换场景时不再“卡滞”在旧画面中，也能准确保持跨镜头的人物一致性。

三、记住过去，但不能什么都记——智能记忆路由是怎么工作的

解决了多镜头结构生成问题后，第二个挑战接踵而至：随着视频越来越长，AI需要记忆的内容越来越多，但计算资源的“工作记忆”容量有限。如果全盘记忆，会拖垮系统性能；如果只记忆最近内容，又会遗忘很久之前出现的关键角色。

以往常见的做法是“保留最近几秒内容，再加上视频开头的几帧”。这好比开会时，你只记得刚才说的话和会议开场白，中间的重要讨论内容全忘了。这在单场景视频中或许勉强可行，但一旦涉及多场景切换、角色跨镜头重现，该方法便彻底失效：你需要记住的那个角色可能出现在第二个镜头，而系统只记得开头和最近的画面，第二个镜头早已被遗忘。

CausalCine引入了一套更智能的机制，称为“内容感知记忆路由”（Content-Aware Memory Routing, CAMR）。

具体而言，系统会为历史视频中的每一帧提取一个“内容摘要”——通过对该帧的视觉特征进行平均池化，得到一个代表其语义核心的向量。同时，对当前正在生成的视频片段，也提取一个类似的“当前需求摘要”。随后，系统通过计算相似度，将当前需求与历史每一帧的摘要进行匹配打分，动态筛选出历史中最相关的若干帧，将其特征调入参与当前的注意力计算。

这套机制的工作方式，更接近一位经验丰富的导演在脑海中的精准检索：不是盲目回想最近发生的事，而是根据当前拍摄场景的实际需要，快速准确地回忆起“我们之前拍过的类似画面”。在实验设置中，系统会保留最近3个片段的完整记忆（类似于“短期工作记忆”），并额外从更早的历史中检索出5帧最相关的内容（类似于“长期语义记忆”）。

这里还有一个巧妙的设计细节：检索到的历史帧在使用时会被重新编号。例如，一帧视频的实际位置可能是第1000帧，若直接将这个巨大的位置编号输入模型，AI可能因超出训练经验而无法有效处理。CausalCine的解决方案是：无论该帧实际是第几帧，在使用时都按照一套固定的“记忆槽位”格式重新排列。例如，“记忆帧”占据0到4号位，“最近窗口帧”占据5到13号位，“当前片段帧”占据14到16号位。这样，无论视频多长，AI看到的位置编号始终在自己熟悉的范围内，有效避免了因位置索引过大导致的模型困惑。

研究团队将这一设计称为“块相对旋转位置编码”。本质上，它为AI提供了一套固定格式的“记忆索引系统”，无论历史信息有多深，每次调用都按照同一套逻辑进行组织与访问。

四、从“会拍”到“实时拍”——四步完成的加速技术

在具备了扎实的多镜头理解能力和智能记忆机制后，最后一步是让系统真正“高效运行”——并且速度要足够快，以实现实时的流式视频生成。

标准的扩散模型通常需要几十甚至上百步迭代才能生成一帧高质量图像，这对于实时视频生成来说速度太慢。CausalCine采用了一种名为“分布匹配蒸馏”（Distribution Matching Distillation, DMD）的技术，将那个需要50步才能完成工作的基础模型（视为“教师模型”），压缩成一个只需4步就能完成推理的“学生模型”。

这个过程可以理解为：先由“教师模型”缓慢走完50步，生成一段高质量的视频作为示范；再让“学生模型”在仅走4步的情况下，尽力逼近“教师模型”的最终输出效果。训练目标并非逐帧像素级的模仿，而是让“学生模型”的输出数据分布与“教师模型”的输出分布尽可能接近。

此外，研究团队在模型压缩过程中还引入了一个“鉴别器”——一个轻量级的判断网络，专门用于检测生成视频中是否出现长镜头漂移、人物位置突变、画面构图不稳定等问题。如果“学生模型”生成的视频被鉴别器判定为“不真实”或存在瑕疵，训练过程就会对其施加惩罚。这一对抗性正则化机制有效稳定了生成长视频的视觉质量，避免了画面主体在一系列镜头后悄悄移位或变形。

整个蒸馏过程还包含一个关键的初始化步骤：在正式进行分布匹配训练前，先让“学生模型”进行“预热”——在给定正确历史条件的指导下，学习模仿“教师模型”沿标准轨迹走4步的中间结果。这相当于先为学生打好基本功，确保其在后续高强度的分布匹配训练中，不会因为起点偏差过大而难以收敛。

五、这套系统究竟有多好用？

为了进行客观、全面的评估，研究团队构建了一个专门的评测基准，利用谷歌的Gemini 2.5 Pro大模型生成了100段用于测试的多镜头剧本。每段剧本包含一个整体故事描述和五个分镜头描述，涵盖了角色跨镜头重现、复杂场景切换、正反拍对话、视角变化以及长时间间隔等多种极具挑战性的叙事场景。

评测结果在多个维度上都展现了显著优势。与其他自回归（逐段生成）视频系统相比，CausalCine在文本指令跟随准确率、镜头切换精准度等关键指标上大幅领先。具体而言，其镜头切换准确率达到了0.9732，而对比的其他系统大多在0.5左右，表现最好的竞争对手ShotStream也仅为0.9647。这意味着，当用户指令要求“第二个镜头切换为室内特写”时，CausalCine能够在对应时间点准确执行切换，而其他系统往往忽略指令或出现严重的时序偏差。

与“全局规划派”的双向生成模型相比，CausalCine在生成视频的视觉质量和跨镜头一致性上也展现出相当的竞争力——部分评测指标甚至实现反超——同时，它保留了实时流式输出和生成中途可修改指令的核心优势，而这些特性是传统的双向模型所无法提供的。

在消融实验中，CausalCine三个核心设计的价值得到了充分验证。若跳过多镜头因果调优阶段直接进行模型加速，镜头切换准确率会从0.9732骤降至0.5042，跨镜头角色一致性也大幅下滑；将内容感知记忆路由替换为固定的“首帧记忆”策略后，跨镜头一致性明显下降，角色长时间消失后再次出现时常常面目全非；若移除对抗正则化（即“鉴别器”），生成的视频则容易出现长镜头画面构图逐渐漂移的问题。

在硬件部署层面，CausalCine运行在8张英伟达H200显卡上，以140亿参数的骨干模型，实现了每秒16帧的实时视频生成速度。

六、它还不完美的地方

研究团队对系统当前的局限性保持着相当坦诚的态度。其中两个主要问题值得关注。

第一是硬件门槛。140亿参数模型加上8张H200显卡的配置，对于普通消费者或小型开发团队而言成本过高。不过，研究团队认为这更多属于工程优化层面的限制，而非方法学上的根本缺陷。随着更轻量化的视频骨干模型出现、模型量化压缩技术的进步以及更高效注意力计算核的研发，这一硬件门槛有望在未来逐步降低。

第二是“物理状态连续性”问题。CausalCine能够记住人物外貌、跟随叙事逻辑，但并未对物理世界建立显式的状态追踪与推理。论文附录中展示了一个典型失败案例：一段咖啡拉花视频，整体场景和杯子保持一致，但牛奶的流向、壶嘴的位置、手的姿势以及奶泡的形状，在不同镜头之间发生了物理上不可能连贯的变化。这说明，内容感知记忆能帮助AI“识别”出之前的画面元素，但尚无法替代真正的物理状态建模与因果推理能力。

归根结底，这项研究证明了什么？

从根本上说，CausalCine最核心的贡献，在于将一组看似矛盾的需求在一定程度上统一了起来：既要实现实时流式生成（满足直播等场景），又要维持多镜头叙事的连贯一致性（满足电影制作）；既要能随时接受并执行新的文本指令（满足交互创作），又要能记住很久之前出现的画面内容（满足长叙事需求）。

这项任务的难度，不仅在于任何单项技术挑战，更在于这些要求之间存在着内在的张力与权衡。CausalCine提供的解法，是将“学会多镜头叙事”与“学会高效生成”严格分阶段进行，先夯实前者作为基础，再优化后者提升速度；同时在记忆管理策略上，从“机械记忆最近和开头内容”转变为“智能检索最相关内容”，让有限的计算注意力资源用在最关键的刀刃上。

对于普通用户和创作者而言，这意味着未来的AI视频生成工具，或许真能像一个随时待命的虚拟导演：你描述第一幕场景，它开始生成，画面实时流出；你看到第二幕时想增加一个角色特写，直接追加指令，它便能基于已有内容流畅地继续创作，无需一切从头开始。这种体验目前仍主要停留在实验室演示阶段，但通往那个未来方向的技术路径，已因这项扎实的工作而变得更加清晰与可行。

Q&A

Q1：CausalCine生成视频需要什么硬件？普通人能用吗？

目前，CausalCine需要8张英伟达H200显卡才能达到每秒16帧的实时生成效果，这对普通消费者而言硬件门槛过高。不过，研究团队指出这属于工程部署层面的限制。随着模型量化技术、更小参数量的骨干模型以及更高效计算架构的发展，未来的硬件需求有望显著降低。现阶段，它主要是一套展示技术可行性的高水平研究成果。

Q2：CausalCine的内容感知记忆路由和普通的滑动窗口记忆有什么区别？

普通的滑动窗口记忆通常机械地保留最近几帧加上视频开头的几帧，无论这些历史内容对当前生成是否真正有用。CausalCine的内容感知记忆路由则会为历史每一帧提取语义摘要，并与当前生成片段的语义需求进行动态相关性计算，自动筛选出历史中最“相关”、最“有用”的帧作为参考。因此，即使某个关键人物出现在很久之前的第二个镜头，只要当前场景需要，系统也能精准地将其视觉特征调出，确保一致性。

Q3：CausalCine无法处理哪类视频内容？

CausalCine在处理需要精确、连续追踪物体物理状态变化的场景时表现不佳。例如，一段展示咖啡拉花全过程的视频，每个单独镜头看起来都合理，但牛奶的精确流向、拉花壶的位置、手腕的姿势以及奶泡的形状等物理细节，在不同镜头之间会出现不符合物理规律的不连续变化。这是因为系统目前缺乏对物理世界的显式状态建模与因果推理能力，仅依赖视觉内容的相似性来维持表面的一致性。

来源:https://www.163.com/dy/article/KT88MHIP0511DTVV.html

上一篇：美国国家实验室转向初创企业寻求AI芯片替代方案

下一篇：韩国大学AI用代码解数学题性能超越百倍大模型