当前位置: 首页
AI
国产开源模型实现万帧实时流式3D重建技术突破

国产开源模型实现万帧实时流式3D重建技术突破

热心网友 时间:2026-05-19
转载

蚂蚁灵波在具身智能领域的战略布局,正日益清晰地展现在我们面前。

今年1月,蚂蚁灵波开源了四款关键大模型,构建了从环境感知到智能决策的初步框架,包括高精度空间感知模型LingBot-Depth、具身视觉语言模型LingBot-VLA与LingBot-VA,以及世界模型LingBot-World。然而,从连续的视觉感知到可供行动决策的三维空间模型,中间一直缺少一个能够实时、稳定进行流式三维重建的核心环节。

如今,这一关键缺口已被正式填补。

蚂蚁灵波最新开源了LingBot-Map,这是一个基于几何上下文Transformer(GCT)架构的纯自回归流式3D重建基础模型。其核心突破在于,能够在近乎恒定的内存消耗下,实现对超万帧长视频的实时三维重建,处理速度达到约20 FPS,并在多个权威基准测试中超越了现有的主流流式重建方法。

简而言之,面对连续输入的视频流,LingBot-Map能够同步输出高精度的相机位姿估计与高质量的三维点云。无论是真实世界的无人机航拍场景,还是在复杂的室内外环境中进行长距离移动探索,该模型都表现出了卓越的鲁棒性和稳定性。

例如,在真实航拍场景中,它能实现稳定的定位与高精度的三维重建效果:

即便在穿越多个房间、摄像机视角发生剧烈变化的挑战性场景下,模型的重建表现依然稳健:

对于AI生成的合成视频,它同样能够实现稳定的相机位姿追踪:

在户外快速运动及视角频繁切换的场景中,其位姿估计精度同样可靠:

在建筑环绕等场景中,其强大的回环检测与重建能力确保了全局地图的一致性:

目前,该模型的技术报告、核心代码及预训练权重已在Hugging Face和ModelScope平台同步开源。至此,从单帧深度估计、流式3D重建,到场景理解与智能控制,一条更为完整的具身智能技术链路已经贯通。

机器实现空间记忆为何如此困难?

试想一下,当我们在一个陌生建筑中穿行二十分钟后,通常能够大致描绘出走过的路径和空间布局。这得益于人类大脑能够持续整合视觉等感官信息,构建并更新动态的空间记忆。

然而,对于机器而言,这项任务要困难得多。摄像头可以持续捕获二维图像序列,但如何将这些画面实时、准确地还原为连贯的三维空间模型,同时保证处理速度和资源可用性,一直是具身智能、机器人导航和自动驾驶领域的核心挑战。其根本难点在于:视频流在理论上是无限的,历史信息不能简单丢弃,当前帧又必须即时处理,而计算资源——尤其是内存——却是有限的。

现有的技术方案往往难以兼顾所有需求。传统的三维重建方法,如运动恢复结构(SfM),通常需要收集所有图像帧后进行离线全局优化,精度虽高却无法满足实时性要求。流式重建的思路应运而生,旨在实现边接收边处理,但在实际应用中面临两大障碍:一是“灾难性遗忘”,即模型在处理新信息时会覆盖旧记忆,导致长序列重建前后矛盾;二是“内存膨胀”,若试图保留全部历史帧作为参考,海量数据又会迅速耗尽内存。对于万帧以上的超长视频,现有流式方法面临着严峻考验。

正是在这一两难困境中,LingBot-Map提出了一条创新的解决路径。

如何破解机器的“记忆”难题?

让机器实时理解三维世界,本质上是一个高效的记忆管理问题:需要记住哪些关键信息、如何对其进行高效压缩、以及如何在需要时快速准确地调取。LingBot-Map的解决方案,核心在于其创新的几何上下文注意力(Geometric Context Attention, GCA)机制。

GCA的设计灵感源于机器人领域的经典同步定位与地图构建(SLAM)算法。传统SLAM表明,要让机器人在未知环境中实时建图,至少需要维护三类关键记忆:确定坐标系原点的参考帧、记录邻近几何细节的局部窗口,以及保存全局运动轨迹的稀疏地图。然而,传统方法严重依赖人工设计的几何约束,灵活性有限。

LingBot-Map团队转换思路,将这些空间认知规律内化到Transformer的注意力机制中。通过因果注意力确保模型仅利用过去和当前信息,完全符合“边走边看”的实时逻辑。GCA在运行时,会协同维护三类核心记忆:

  1. 锚点(Anchor):记住空间“起点”,为整个世界坐标系提供稳定的绝对基准,有效防止长序列重建中的坐标漂移问题。
  2. 位姿参考窗口(Pose-reference window):专注于捕捉当前位置附近的局部几何细节,确保逐帧重建的精度和即时性。
  3. 轨迹记忆(Trajectory memory):将庞大的历史信息压缩为紧凑的逐帧Token,以极低的存储成本保留对过去运动路径的“印象”。这是实现超高内存效率的关键,使得处理100帧与处理10000帧所需的内存消耗几乎保持恒定。

这三类记忆协同工作,使得模型能够同时调取空间基准、局部细节和历史轨迹信息。整个机制端到端可学习,模型在训练过程中自动掌握信息分配与压缩的优化策略。

效率提升是显著的。以万帧视频为例,若采用朴素的因果注意力缓存所有历史信息,需要维护约500万个token;而GCA机制仅需约7万个,压缩率近80倍,且每处理一帧新画面,其计算和内存开销几乎不随总帧数增长。

如何教会机器“有选择地记忆”?

拥有了GCA这一高效记忆机制,还需要配套的训练与推理策略,模型才能在超长序列中稳定工作。直接在长序列上进行端到端训练极具挑战,早期帧的误差会沿时间轨迹传播累积,破坏训练稳定性。为此,LingBot-Map采用了渐进式视图训练策略:从短序列开始,逐步增加输入视图的数量(从24帧线性增至320帧),让模型先掌握局部几何重建,再逐步学习维持长程一致性。

面对长序列训练带来的平方级计算复杂度增长,团队引入了上下文并行策略,将不同视图分布到多张GPU上进行处理,并通过高效的通信机制实现并行注意力计算,从而成功突破了内存瓶颈。

损失函数也经过精心设计,采用由深度损失、绝对位姿损失与相对位姿损失组成的复合损失函数。模型采用从相机坐标系到世界坐标系的变换进行监督,避免了参数耦合带来的误差放大问题。此外,视频时序位置编码将帧序信息注入轨迹记忆Token,使模型能够感知历史帧的时间距离,从而更有效地抑制长程漂移。

在推理层面,模型借鉴了自回归大语言模型的KV缓存机制,并通过分页KV缓存布局避免了频繁的内存分配与释放,配合FlashInfer框架的稀疏注意力优化,最终在518×378分辨率下实现了约20 FPS的实时推理速度,相比PyTorch基线提升近一倍。

基准测试表现如何?

研究团队建立了一个全面的评估基准,涵盖相机位姿估计与三维重建两大核心任务,横跨室内、室外及大规模场景。测试结果显示,LingBot-Map在多项关键指标上显著优于现有的流式重建方法。

在相机位姿估计方面,Oxford Spires数据集场景复杂、视角变化显著,是检验长序列鲁棒性的严苛标准。

在稀疏设置下,LingBot-Map在几乎所有指标上均取得最优成绩,其绝对轨迹误差(ATE)仅为6.42,不仅大幅领先所有在线方法,甚至超越了需要全局信息的离线优化方法。这充分证明了GCA机制在保持全局一致性方面的强大能力。

在密集设置(完整3840帧序列)下,大多数流式方法因轨迹漂移导致性能大幅下降,而LingBot-Map的误差仅从6.42小幅升至7.11,在序列长度增加12倍的情况下,误差仅增长0.69,展现出极强的长程稳定性。同时,它保持了20.29 FPS的高推理速度。

在ETH3D、7-Scenes和Tanks and Temples等其他权威数据集上,LingBot-Map同样全面领先。例如在Tanks and Temples上,其AUC@30高达92.80,ATE仅为0.20。

定性比较也印证了其优势。在长时间间隔后重访同一场景时,LingBot-Map表现出最小的漂移,能生成清晰一致的建筑结构,而其他对比方法则因记忆遗忘出现严重的轨迹漂移和点云碎片化。

在三维重建任务上,LingBot-Map在ETH3D数据集上的F1得分达到98.98,比次优方法高出22.7个百分点;在NRGBD数据集上也大幅领先。

消融实验进一步验证了各核心组件的重要性。例如,引入相对位姿损失对于约束帧间旋转误差至关重要;而上下文Token与视频RoPE(旋转位置编码)的联合使用,则显著提升了长程一致性。

效率分析显示,将位姿参考窗口限定为64帧(而非保留全部历史),不仅将推理速度从11.87 FPS提升至20.29 FPS,显存占用从36.06 GB大幅降至13.28 GB,绝对轨迹误差也从6.60进一步下降至5.98。这表明GCA保留的精选几何上下文,其信息密度高于完整的原始历史缓存,真正实现了效率与精度的双赢。

结语

纯自回归的流式3D重建,是具身智能与机器人领域长期存在的技术难点。此前,实时性与内存占用的矛盾严重制约了相关系统在复杂、长时任务中的实际表现。LingBot-Map的开源,为这一难题提供了一个高性能、可复现的解决方案,也在一定程度上降低了该领域的研究与应用门槛。

从更宏观的视角看,这也是蚂蚁灵波具身大脑平台趋于完整的重要一步。随着深度感知、场景理解、决策控制以及现在的实时空间建模等核心模块相继开源,一套完整的具身智能基础能力栈正逐渐清晰。

当然,具身智能技术的真正成熟与广泛应用,离不开无数真实场景的反复打磨与工程验证。但此类核心基础能力的开放与共享,无疑将对整个领域的研发节奏、技术创新与生态建设,产生实质性的推动作用。

来源:https://www.163.com/dy/article/KQL09G9B0511AQHO.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
智象未来获新一轮融资 加速研发下一代全模态世界模型

智象未来获新一轮融资 加速研发下一代全模态世界模型

近日,国内多模态生成式人工智能领域的领先企业智象未来(HiDream ai)宣布完成新一轮超5亿元融资,引发行业广泛关注。本轮融资由东方富海、安徽省投资集团旗下的省产业投资公司、峰华资本等新晋投资方联合领投,并获得了合肥产投、兴泰集团、合肥高投、安徽省人工智能母基金等原有股东的持续跟投加码。 此次融

时间:2026-05-19 18:20
特斯拉OpenAI数据路线遇挫!8千平具身「兵工厂」+ego众包狂飙

特斯拉OpenAI数据路线遇挫!8千平具身「兵工厂」+ego众包狂飙

为什么机器人至今还干不好家务?问题的关键或许不在于它不够“聪明”,而在于它尚未真正“成长”。人类通过数年的亲身实践、数百万次与物理世界的真实互动,才习得了动作与决策的本能。而机器人,却要从零开始,在海量数据中艰难“补课”。 展望2026年,Physical AI(具身智能)发展的真正瓶颈,可能已不再

时间:2026-05-19 18:20
阿里秒悟AI开发工具发布助力模型训练

阿里秒悟AI开发工具发布助力模型训练

4月15日,阿里云ATH事业群正式推出其首款AI应用开发工具——Meoo,中文名“秒悟”。这款产品的发布,精准回应了当前市场的一个核心诉求:如何让软件开发像日常对话一样简单直观,真正实现“所想即所得”。 纵观全球AI编程辅助工具市场,同类产品虽层出不穷,却普遍存在两大瓶颈:要么对使用者的编程基础要求

时间:2026-05-19 18:20
沃尔沃袁小林谈汽车安全:系统平衡才是真安全

沃尔沃袁小林谈汽车安全:系统平衡才是真安全

为庆祝品牌创立99周年,沃尔沃正式推出两款限量特别版车型:XC70 99周年感恩版Core与Plus,官方指导价分别为26 99万元和24 99万元。这两款车型不仅是纪念之作,更在核心安全技术上实现了重要突破,全系标配新一代City Safety城市智能安全系统,新增了自行车骑手侦测与十字路口转向主

时间:2026-05-19 18:19
吉利银河星耀8远航家华南上市 中高级轿车市场迎来硬核挑战者

吉利银河星耀8远航家华南上市 中高级轿车市场迎来硬核挑战者

2026款吉利银河星耀8远航家正式登陆华南市场。作为吉利银河旗下的旗舰级中高级插电混动轿车,新车以12 58-14 88万元的限时先享价推出多款配置,凭借全面升级的“五大旗舰”核心实力,向这片竞争极为激烈的中高级轿车市场发起了强有力的冲击。 华南地区用户普遍存在跨城出行频繁、日常通勤里程较长的特点,

时间:2026-05-19 18:19
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程