慕尼黑大学AI仅凭动作预测视频速度提升万倍

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

慕尼黑大学AI仅凭动作预测视频速度提升万倍

热心网友时间：2026-05-15

转载

这项由慕尼黑大学CompVis实验室、慕尼黑机器学习中心与苹果公司联合开展的研究，以预编本形式发布于2026年4月，论文编号为arXiv:2604.11737。

慕尼黑大学让AI

当前，视频AI技术面临一个核心的效率瓶颈：现有方法在预测物体运动时，总是将“视觉外观”与“运动轨迹”这两个维度的信息捆绑处理。这好比学习舞蹈时，必须同时记忆每一帧的服装、灯光和背景，才能理解手臂的摆动规律。这种耦合不仅导致模型臃肿，效率也极低——最先进的视频生成模型每秒仅能产出约0.2帧。而一项名为ZipMo的创新方法，实现了运动预测速度的万倍跃升，可达每秒数千帧。

ZipMo的核心思想是彻底解耦：将纯粹的运动信息从视频中剥离出来，构建一套独立、高度压缩的“运动语言”，并直接在这个抽象空间中进行预测与生成。这类似于铁路调度，只需掌握列车运行轨迹，无需关心每节车厢的载客或载货详情，即可高效指挥。

一、从视频海洋到运动地图——为什么要把运动单独拎出来？

延续舞蹈教学的比喻。教会AI预测人体动作，主要有两种路径：一是让其观看海量视频，逐帧记忆所有像素变化；二是仅提取人体关键关节点的空间坐标变化序列。后者显然更高效——信息维度大幅降低，且不受衣着、光照等无关变量干扰。

这正是研究团队的出发点。他们指出，当前视频生成模型的深层问题在于运动与外观信息高度纠缠。模型在学习“球体飞行”时，不可避免地同时学习了球的颜色、草坪纹理和光线方向。这种纠缠导致模型需要海量参数和算力，且时间压缩能力薄弱——现有视频自动编码器的时间压缩倍数通常仅为4到8倍。

相比之下，纯粹的运动轨迹是低维信息。一个点在64帧视频中的运动，本质上是64个二维坐标序列，不含任何外观冗余。这种信息天然适合极致压缩。ZipMo团队设定了一个大胆目标：将64帧的运动信息压缩为单个潜在向量，实现高达64倍的时间压缩率。

这里需要明确一个关键概念：“轨迹”或“追踪点”。它指的是在视频首帧标记一个像素点，并追踪其在后续每一帧中的位置，最终形成一条空间运动曲线。现代AI追踪器（如TapNext、CoTracker3）能自动从视频中提取大量此类轨迹。ZipMo的训练数据，正是利用这类工具从大规模视频中自动生成的。

二、运动地图是怎么绘制的——ZipMo的第一阶段

ZipMo框架分为两个阶段。第一阶段的目标，是训练一个能够绘制“运动地图”的编码器。

具体而言，团队训练了一个变分自动编码器（VAE）。你可以将其理解为一个“运动速记员”：输入一段视频中若干条稀疏的运动轨迹（例如20、50或100条任意分布的点位轨迹），再加上视频第一帧的图像特征，这个编码器便能将这些信息“提炼”成一张16×16的潜在网格。网格中的每个单元格存储着16个数值，整张网格便是整段视频运动状态的高度浓缩。

这张16×16的网格被称为“潜在运动空间”，它就像一张城市的运动地形图。地图虽小，却蕴含了视频运动的本质规律。更巧妙的是，这张地图支持“查询”——你可以询问它：“第一帧中坐标(0.3, -0.5)这个点，在未来64帧中将如何运动？”即便该点原本未被追踪，它也能给出预测。这实现了从稀疏输入到稠密输出的泛化能力。

在编码器设计上，团队做了几项精巧的工程决策。每条轨迹上的采样点首先经过傅里叶嵌入处理，将普通坐标转换为更丰富的数学表示，以帮助模型捕捉高频细节。随后，采用三维旋转位置编码（3D RoPE）来同时编码时间信息和轨迹身份信息，让模型既能区分“哪个轨迹在第几帧”，又能理解轨迹间的空间关系。所有轨迹点信息、网格信息以及首帧图像特征，通过全局自注意力机制进行交互，最终汇聚到那张16×16的潜在网格中。

解码器设计同样值得关注。它采用了掩码自动编码器（MAE）的思路：在训练时，随机掩码（隐藏）部分轨迹点，迫使解码器仅凭潜在网格和首帧特征，去预测这些被隐藏点的运动轨迹。这种策略能有效驱动模型学习泛化的运动规律，而非简单记忆输入。

训练这个“速记员”的目标函数包含两部分：一是重建误差（预测轨迹与真实轨迹坐标的L1距离），确保预测准确；二是KL散度正则项，约束潜在空间的分布接近标准正态分布，便于后续生成模型采样。两者通过一个极小的权衡系数β（1×10⁻⁶）进行平衡，表明模型主要专注于重建精度。

三、64倍压缩到底有多神奇——时间压缩的秘密

或许你会质疑：将64帧压缩成一个格子，信息损失不会太大吗？

研究团队进行了一组颇具说服力的实验，专门测试不同时间压缩倍数（从2倍到64倍）的效果。他们在固定计算预算下，训练了不同压缩倍数的模型，并同步评估运动生成质量、重建精度和推理速度。

结论出人意料却又在情理之中：压缩倍数越高，运动生成质量越好，推理速度越快，而重建精度仅有轻微下降。具体数据表明，从2倍压缩提升至64倍压缩，运动生成质量（以最小均方误差Min MSE衡量）从约7降至约5，推理速度提升了约20倍。重建精度（以δ^a vg衡量）则从约96.5%微升至约99%——这意味着，更高的压缩反而迫使模型学到了更本质的运动特征。

这背后存在两种相互强化的机制。首先是计算效率：压缩倍数越高，需要处理的时序标记（token）越少，同等算力下模型能见到更多样本，训练更充分。其次是语义化程度：更高的压缩迫使模型抛弃细节噪声，只保留运动的核心规律。团队通过一个kNN检索实验验证了这一点：在Something-Something V2数据集子集上，随着压缩倍数增加，利用潜在向量进行最近邻检索的动作类别识别准确率从约5%单调上升至约29%。这说明高压缩率的潜在空间确实学到了更丰富的语义信息，相似的运动在此空间中被聚合得更紧密。

这类似于汉字的演化过程。最初的甲骨文竭力摹画实物，“日”字画得如同太阳，细节丰富却难以书写。经过漫长抽象，“日”字被压缩成简单的方块，反而更易于书写和组合表达新意。ZipMo的潜在运动空间，完成的正是类似的“抽象提炼”工作。

四、让运动地图“开口说话”——ZipMo的第二阶段

拥有了高质量的运动潜在空间后，第二阶段的任务是训练一个生成模型，使其能在此空间内自由“创作”——给定初始场景和运动目标，生成符合物理规律的运动预测。

团队选择了流匹配（Flow Matching）技术路线。可以这样理解：训练一个“向导”，其工作是将随机噪声一步步“引导”成符合真实世界规律的运动模式。这个向导便是ZipMo的第二阶段模型，命名为ZipMo Planner。

ZipMo Planner是一个基于Transformer的神经网络，共24层，每层自注意力与交叉注意力的维度均为1024，总参数量约5.3亿。它的输入是一个带噪声的潜在运动网格，以及各种条件信号；输出是一个速度场，指示该噪声向量应向哪个方向“流动”才能更接近真实运动分布。

条件信号有两种形式，对应不同应用场景。第一种是“戳点”（Poke）：用户在图像上指定若干点及其位移（如“从A点移到B点”）。这些点经傅里叶嵌入后，通过交叉注意力注入模型。此方式非常灵活——戳点稀少时，模型有更大自由发挥空间，能生成多样化的合理运动；戳点密集时，模型被严格约束，生成高度贴合指定路径的运动。第二种是文字描述：通过BERT文本编码器将任务指令转换为语言特征，再注入模型，适用于机器人操作等需要语言指令的场景。

值得注意的是，ZipMo Planner始终以第一帧的视觉特征（由冻结的DINOv2 ViT-B/14图像编码器提取）作为场景上下文。这确保了模型知晓“场景中有什么”，从而生成符合物理约束的运动。例如，它不会预测一只鸟俯冲后穿越地板，因为模型知道地板的存在。

五、训练数据与工程细节——一切从大规模视频开始

两个阶段的模型均在1000万个视频片段上训练，数据来源于开放大规模视频数据集KOALA-36M。每个片段最长8秒，经帧采样（每秒12-15帧）后，使用TapNext追踪器随机采样1024个点位，获得伪真实轨迹作为训练监督信号，并过滤高不确定性轨迹，最终在64帧长度的轨迹上进行训练。

VAE训练从64块H200 GPU开始，批次大小从64逐步扩大至256，总训练步数约80万步，耗时约3天。ZipMo Planner的训练规模相近，批次大小从512扩大至2048，总步数约70万步，同样耗时约3天。

两个模型均使用AdamW优化器，学习率为1×10⁻⁴，动量参数为(0.9, 0.95)，采用bfloat16混合精度训练以节省显存。VAE采用带预热的稳定衰减学习率调度，Planner则使用常数学习率。归一化层采用RMSNorm，前馈网络使用SwiGLU激活函数，这些都是当前高性能模型的通用实践。

六、与其他方法的正面较量——结果如何？

研究团队在多个基准上评估了ZipMo，比较对象涵盖流场预测方法、原始轨迹预测方法以及最先进的视频生成大模型。

评估指标的设计本身便值得探讨。由于真实世界的运动具有高度多模态性——同一场景存在无数种物理合理的运动方式——使用单一确定性指标（如平均误差）会严重惩罚那些创造性预测了“另一种合理运动”的模型。因此，团队采用了三个互补的指标：Min MSE（最小均方误差，衡量生成的多个样本中是否存在一个贴近真实运动，反映分布覆盖能力）、Mean MSE（所有样本的平均均方误差，衡量多样性，过低表明模型崩塌至单一模式）、以及EPE（端点误差，在戳点条件下衡量模型遵循用户指定终点的程度）。所有指标均在[0,128]分辨率下计算。

在戳点条件下的运动生成对比中，ZipMo与Motion-I2V（流场预测方法，每秒21帧）和Track2Act（轨迹预测方法，每秒180帧）进行了比较。ZipMo以每秒2500帧的速度，在所有条件密度设置下（1个戳点至全图密集）均大幅领先。以1个戳点为例，ZipMo的Min MSE为41.0，Motion-I2V为135.7，差距超过3倍；EPE（条件遵循误差）ZipMo仅0.5，Motion-I2V高达19.7。Track2Act仅在密集条件下可评估，其Min MSE为138.7，远高于ZipMo的30.4。

与视频生成大模型的比较尤为引人注目。团队选择了两个代表性模型：Wan（140亿参数的开源视频模型）和Veo 3（谷歌DeepMind的闭源顶级视频模型）。由于视频模型不直接输出运动轨迹，团队使用CoTracker3对生成视频进行追踪，以获得可比较的运动预测结果。

在“样本匹配”评估下（双方各生成8个样本），ZipMo的Min MSE为27.08，Wan为28.67，Veo 3为36.18。ZipMo略优于Wan，明显优于Veo 3。但这一比较对ZipMo并不完全公平——ZipMo仅8.6亿参数，约为Wan的1/16。且生成8个视频样本对Wan而言需约1小时，而ZipMo仅需1秒。

在“时间匹配”评估下（双方使用相同的计算时间），差距变得极为悬殊。Wan在1小时内仅能生成1个视频样本，Veo 3同样只能生成1个（且时间未知），而ZipMo在相同时间内可生成超过1万个样本。结果是ZipMo的Min MSE降至21.29，而Wan和Veo 3仍停留在64左右。这意味着，当ZipMo能对同一场景进行大量采样、覆盖各种可能运动模式时，其生成的运动分布质量远超视频大模型。

七、让机器人听话——在机器人操作任务上的表现

研究团队还在LIBERO机器人操作基准上测试了ZipMo的实际决策能力。LIBERO包含多个子套件，任务描述以自然语言给出，如“打开炉灶并把摩卡壶放上去”。

ZipMo的应用方式如下：给定场景首帧和任务文字描述，ZipMo Planner生成一个运动嵌入，预测未来64帧（评估时下采样至16帧）内机器人手臂及相关物体的运动轨迹。随后，一个轻量级策略头（6层Transformer，768维）根据此运动嵌入预测机器人的下一步动作（7维关节角度向量）。策略头仅能读取运动嵌入，无法直接看到图像，这确保了真正的场景理解与规划由ZipMo完成，策略头仅负责将运动信号翻译为机械臂指令。

整个系统采用滚动规划策略：每执行一步动作后，便从当前帧重新规划未来运动轨迹，实现闭环控制。

在与同类方法的比较中，遵循ATM的评估设置，ZipMo在五个子套件上的平均成功率为77.5%，优于ATM的60.4%和Amplify的71.4%。遵循Tra-MoE的评估设置，ZipMo平均成功率为80.3%，优于Tra-MoE的61.4%。在需要精准识别目标物体的LIBERO-Object任务上，ZipMo成功率高达98%，在LIBERO-Spatial任务上达到91.3%，均大幅领先。

在轨迹预测精度上，ZipMo同样全面领先。与当前最佳的轨迹生成基准方法WHN相比，ZipMo在LIBERO-90侧视角的Min MSE为5.96，WHN为10.99；在LIBERO-10侧视角的Min MSE为7.43，WHN为13.86。与ATM、Tra-MoE等判别式方法相比，优势更为明显——ATM在LIBERO-90侧视角的MSE高达47.82，而ZipMo的单次采样误差（8.83）已远低于此值。

八、还能做什么——密集运动推断与视觉语义对齐

ZipMo还具备一些额外能力值得关注。

第一是密集运动推断。追踪器提供的轨迹是稀疏的，仅覆盖视频中部分像素点。但ZipMo可在任意空间位置查询运动，因此能将稀疏轨迹转换为全图稠密的运动场。具体操作是：将已有追踪轨迹作为戳点输入ZipMo Planner，生成完整的潜在运动网格，再对全图每个像素位置进行解码，得到类似光流的稠密运动表示。这对视频编辑、运动转移等需要全局运动场的下游任务非常有用。

第二是对追踪器选择的鲁棒性。测试表明，用TapNext训练的模型对CoTracker3轨迹的重建精度（δ^a vg约96-97%）与同源追踪器相当，说明ZipMo学到的是运动本质规律，而非特定追踪器的偏差。即便在训练时故意丢弃部分轨迹或仅使用未遮挡轨迹，重建精度也仅轻微下降（从96.8%降至93-94%），表现出良好的监督信号鲁棒性。

第三是在DA VIS 2017和PhysicsIQ这两个额外数据集上的泛化能力。DA VIS包含150段带有显著相机运动的真实视频，PhysicsIQ聚焦固体力学物理场景。ZipMo在两个数据集上均大幅优于Motion-I2V：在DA VIS上Min MSE从222.2降至155.1，在PhysicsIQ上从177.8降至90.6，EPE同样从16.37和12.4大幅降至0.83和0.76。

结语

归根结底，ZipMo的贡献可以概括为：用最少的信息、最快的速度，最精准地理解“物体如何运动”。这项研究的核心洞见在于，运动理解不必捆绑于视频生成的巨大计算开销之上。将运动从外观中剥离，压缩为高度语义化的潜在向量，并在这个“干净”的空间中进行生成与推理，不仅使速度提升万倍量级，其生成质量甚至超越了参数量数十倍于它的视频大模型。

对于机器人领域，ZipMo提供了一个高效的运动规划前端，能以极低成本实现从语言指令到运动预测的转化。对于视频理解研究，它展示了一条不依赖像素却能学习强运动语义的新路径。对于普通用户，未来某天，你的手机相册应用或许就能利用类似技术，真正理解“视频中猫咪跳跃的优雅姿态”，而不仅仅是识别出“这是一只猫”。

这项工作提醒我们，解决复杂问题的关键，有时并非一味扩大模型规模，而是厘清“我们真正需要什么信息”。ZipMo将这个问题的答案，优雅地压缩进了一张16×16的网格之中。