国产开源模型实现万帧实时流式3D重建技术突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

国产开源模型实现万帧实时流式3D重建技术突破

热心网友时间：2026-05-19

转载

蚂蚁灵波在具身智能领域的战略布局，正日益清晰地展现在我们面前。

今年1月，蚂蚁灵波开源了四款关键大模型，构建了从环境感知到智能决策的初步框架，包括高精度空间感知模型LingBot-Depth、具身视觉语言模型LingBot-VLA与LingBot-VA，以及世界模型LingBot-World。然而，从连续的视觉感知到可供行动决策的三维空间模型，中间一直缺少一个能够实时、稳定进行流式三维重建的核心环节。

如今，这一关键缺口已被正式填补。

蚂蚁灵波最新开源了LingBot-Map，这是一个基于几何上下文Transformer（GCT）架构的纯自回归流式3D重建基础模型。其核心突破在于，能够在近乎恒定的内存消耗下，实现对超万帧长视频的实时三维重建，处理速度达到约20 FPS，并在多个权威基准测试中超越了现有的主流流式重建方法。

简而言之，面对连续输入的视频流，LingBot-Map能够同步输出高精度的相机位姿估计与高质量的三维点云。无论是真实世界的无人机航拍场景，还是在复杂的室内外环境中进行长距离移动探索，该模型都表现出了卓越的鲁棒性和稳定性。

例如，在真实航拍场景中，它能实现稳定的定位与高精度的三维重建效果：

即便在穿越多个房间、摄像机视角发生剧烈变化的挑战性场景下，模型的重建表现依然稳健：

对于AI生成的合成视频，它同样能够实现稳定的相机位姿追踪：

在户外快速运动及视角频繁切换的场景中，其位姿估计精度同样可靠：

在建筑环绕等场景中，其强大的回环检测与重建能力确保了全局地图的一致性：

目前，该模型的技术报告、核心代码及预训练权重已在Hugging Face和ModelScope平台同步开源。至此，从单帧深度估计、流式3D重建，到场景理解与智能控制，一条更为完整的具身智能技术链路已经贯通。

机器实现空间记忆为何如此困难？

试想一下，当我们在一个陌生建筑中穿行二十分钟后，通常能够大致描绘出走过的路径和空间布局。这得益于人类大脑能够持续整合视觉等感官信息，构建并更新动态的空间记忆。

然而，对于机器而言，这项任务要困难得多。摄像头可以持续捕获二维图像序列，但如何将这些画面实时、准确地还原为连贯的三维空间模型，同时保证处理速度和资源可用性，一直是具身智能、机器人导航和自动驾驶领域的核心挑战。其根本难点在于：视频流在理论上是无限的，历史信息不能简单丢弃，当前帧又必须即时处理，而计算资源——尤其是内存——却是有限的。

现有的技术方案往往难以兼顾所有需求。传统的三维重建方法，如运动恢复结构（SfM），通常需要收集所有图像帧后进行离线全局优化，精度虽高却无法满足实时性要求。流式重建的思路应运而生，旨在实现边接收边处理，但在实际应用中面临两大障碍：一是“灾难性遗忘”，即模型在处理新信息时会覆盖旧记忆，导致长序列重建前后矛盾；二是“内存膨胀”，若试图保留全部历史帧作为参考，海量数据又会迅速耗尽内存。对于万帧以上的超长视频，现有流式方法面临着严峻考验。

正是在这一两难困境中，LingBot-Map提出了一条创新的解决路径。

如何破解机器的“记忆”难题？

让机器实时理解三维世界，本质上是一个高效的记忆管理问题：需要记住哪些关键信息、如何对其进行高效压缩、以及如何在需要时快速准确地调取。LingBot-Map的解决方案，核心在于其创新的几何上下文注意力（Geometric Context Attention, GCA）机制。

GCA的设计灵感源于机器人领域的经典同步定位与地图构建（SLAM）算法。传统SLAM表明，要让机器人在未知环境中实时建图，至少需要维护三类关键记忆：确定坐标系原点的参考帧、记录邻近几何细节的局部窗口，以及保存全局运动轨迹的稀疏地图。然而，传统方法严重依赖人工设计的几何约束，灵活性有限。

LingBot-Map团队转换思路，将这些空间认知规律内化到Transformer的注意力机制中。通过因果注意力确保模型仅利用过去和当前信息，完全符合“边走边看”的实时逻辑。GCA在运行时，会协同维护三类核心记忆：

锚点（Anchor）：记住空间“起点”，为整个世界坐标系提供稳定的绝对基准，有效防止长序列重建中的坐标漂移问题。
位姿参考窗口（Pose-reference window）：专注于捕捉当前位置附近的局部几何细节，确保逐帧重建的精度和即时性。
轨迹记忆（Trajectory memory）：将庞大的历史信息压缩为紧凑的逐帧Token，以极低的存储成本保留对过去运动路径的“印象”。这是实现超高内存效率的关键，使得处理100帧与处理10000帧所需的内存消耗几乎保持恒定。

这三类记忆协同工作，使得模型能够同时调取空间基准、局部细节和历史轨迹信息。整个机制端到端可学习，模型在训练过程中自动掌握信息分配与压缩的优化策略。

效率提升是显著的。以万帧视频为例，若采用朴素的因果注意力缓存所有历史信息，需要维护约500万个token；而GCA机制仅需约7万个，压缩率近80倍，且每处理一帧新画面，其计算和内存开销几乎不随总帧数增长。

如何教会机器“有选择地记忆”？

拥有了GCA这一高效记忆机制，还需要配套的训练与推理策略，模型才能在超长序列中稳定工作。直接在长序列上进行端到端训练极具挑战，早期帧的误差会沿时间轨迹传播累积，破坏训练稳定性。为此，LingBot-Map采用了渐进式视图训练策略：从短序列开始，逐步增加输入视图的数量（从24帧线性增至320帧），让模型先掌握局部几何重建，再逐步学习维持长程一致性。

面对长序列训练带来的平方级计算复杂度增长，团队引入了上下文并行策略，将不同视图分布到多张GPU上进行处理，并通过高效的通信机制实现并行注意力计算，从而成功突破了内存瓶颈。

损失函数也经过精心设计，采用由深度损失、绝对位姿损失与相对位姿损失组成的复合损失函数。模型采用从相机坐标系到世界坐标系的变换进行监督，避免了参数耦合带来的误差放大问题。此外，视频时序位置编码将帧序信息注入轨迹记忆Token，使模型能够感知历史帧的时间距离，从而更有效地抑制长程漂移。

在推理层面，模型借鉴了自回归大语言模型的KV缓存机制，并通过分页KV缓存布局避免了频繁的内存分配与释放，配合FlashInfer框架的稀疏注意力优化，最终在518×378分辨率下实现了约20 FPS的实时推理速度，相比PyTorch基线提升近一倍。

基准测试表现如何？

研究团队建立了一个全面的评估基准，涵盖相机位姿估计与三维重建两大核心任务，横跨室内、室外及大规模场景。测试结果显示，LingBot-Map在多项关键指标上显著优于现有的流式重建方法。

在相机位姿估计方面，Oxford Spires数据集场景复杂、视角变化显著，是检验长序列鲁棒性的严苛标准。

在稀疏设置下，LingBot-Map在几乎所有指标上均取得最优成绩，其绝对轨迹误差（ATE）仅为6.42，不仅大幅领先所有在线方法，甚至超越了需要全局信息的离线优化方法。这充分证明了GCA机制在保持全局一致性方面的强大能力。

在密集设置（完整3840帧序列）下，大多数流式方法因轨迹漂移导致性能大幅下降，而LingBot-Map的误差仅从6.42小幅升至7.11，在序列长度增加12倍的情况下，误差仅增长0.69，展现出极强的长程稳定性。同时，它保持了20.29 FPS的高推理速度。

在ETH3D、7-Scenes和Tanks and Temples等其他权威数据集上，LingBot-Map同样全面领先。例如在Tanks and Temples上，其AUC@30高达92.80，ATE仅为0.20。

定性比较也印证了其优势。在长时间间隔后重访同一场景时，LingBot-Map表现出最小的漂移，能生成清晰一致的建筑结构，而其他对比方法则因记忆遗忘出现严重的轨迹漂移和点云碎片化。

在三维重建任务上，LingBot-Map在ETH3D数据集上的F1得分达到98.98，比次优方法高出22.7个百分点；在NRGBD数据集上也大幅领先。

消融实验进一步验证了各核心组件的重要性。例如，引入相对位姿损失对于约束帧间旋转误差至关重要；而上下文Token与视频RoPE（旋转位置编码）的联合使用，则显著提升了长程一致性。

效率分析显示，将位姿参考窗口限定为64帧（而非保留全部历史），不仅将推理速度从11.87 FPS提升至20.29 FPS，显存占用从36.06 GB大幅降至13.28 GB，绝对轨迹误差也从6.60进一步下降至5.98。这表明GCA保留的精选几何上下文，其信息密度高于完整的原始历史缓存，真正实现了效率与精度的双赢。