GeoVLA框架重构机器人空间感知，突破2D视觉局限

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

GeoVLA框架重构机器人空间感知，突破2D视觉局限

热心网友时间：2025-12-25

转载

论文名称： GeoVLA: Empowering 3D Representation in Vision-Language-Action Models

在具身智能的浪潮中，VLA 模型被视为通往通用机器人的快车道。然而，随着研究深入到非结构化环境，现有 VLA 模型面临着一个严重的维度缺陷：空间失明。

目前，大多数 VLA 模型（比如 OpenVLA、RT-2、Pi0、Pi05）单纯依赖 2D RGB 图像作为视觉输入，导致模型眼中的世界“纸片化”，严重缺乏深度信息和几何先验；由此带来的后果是：

深度感知缺失：面对需要精确距离判断的任务，比如精准投篮、挂扣环，2D 模型往往“抓瞎”，无法准确预测 Z 轴的动作。

空间适应性差：一旦物体尺寸发生变化（Scale Variance）或相机视角发生偏移（Viewpoint Shift），便无法理解物体在空间中的本质位置，导致任务失败。

图 1：GeoVLA 整体示意图

Dexmal 原力灵机作者团队提出一种全新的 VLA 框架 GeoVLA，它在保留现有视觉-语言模型（VLM）的预训练能力的同时，采用了一种优雅的双流架构（Dual-path Architecture）。

具体而言，GeoVLA 在保留 VLM 强大的语义理解能力的同时，引入专用的点云嵌入网络 PEN 和空间感知动作专家 3DAE，直接利用深度图生成的点云数据，赋予机器人真正的三维几何感知能力。

这一设计不仅在仿真环境中取得 SOTA，更在真实世界的鲁棒性测试中，特别是在视角改变和物体尺度变化的极端条件下，展现出惊人的适应力。

方法框架

常见的做法试图让一个 VLM 既懂语义又懂几何，这往往顾此失彼；GeoVLA 的核心逻辑是选择把任务解耦：让 VLM 负责“看懂是什么”，让点云网络负责“看清在哪里”。

图2：GeoVLA 框架图

GeoVLA 是一个全新的端到端框架，其流程包含三个关键组件的协同工作：

语义理解流：利用预训练的 VLM（如 Prismatic-7B）处理 RGB 图像和语言指令，提取融合后的视觉-语言特征。

几何感知流：利用点云嵌入网络 PEN 处理由深度图转换而来的点云，独立提取高精度的 3D 几何特征。

动作生成流：通过3D 增强动作专家 3DAE 融合上述两种特征，生成精确的动作序列。

点云嵌入网络 PEN

图 3：双路径点云嵌入网络细节图

原始深度图往往包含大量噪声，且数据稀疏，直接作为输入效果不佳。点云嵌入网络 PEN 专为机器人操作设计，采用双路径架构来提取干净且紧凑的几何特征：

几何特征提取：使用大核卷积和局部池化的轻量级 CNN，将非结构化的点云编码为 Patch 级别的几何 Token。

空间位置编码：引入在大语言模型中常见的旋转位置编码 RoPE，它能极好地保留 3D 空间中的相对位置信息，这对于操作任务至关重要。

空间锚点（Spatial Anchor）设计是 PEN 的一大亮点。作者团队并没有简单地对所有点云特征进行平均池化，而是选择对应于末端执行器坐标原点的 Token 作为“锚点”。这种以“手”为中心的视角设计，让模型能够显式地建模“手”与“物体”之间的几何关系，大幅提升操作精度。

3D 增强动作专家 3DAE

特征提取只是第一步，如何有效融合 RGB 的语义信息和点云的几何信息，实现1+1＞2的效果，是多模态研究当中的难点。作者团队在动作生成端采用基于扩散 Transformer (DiTs) 的架构，并创新性地引入混合专家 (MoE) 机制。

静态路由策略 (Static Routing)：这是一个直觉且有效的策略。在训练过程中，由于 VLM 分支是预训练的，而点云分支是从头开始学，如果使用常规的动态路由，模型会倾向于走捷径，只依赖 VLM 分支，忽略点云信息。

强制解耦：作者团队采用了静态路由，随机丢弃某种模态，逼迫模型必须学会独立利用几何信息来解决问题，从而确保了双流信息的有效融合。

实验结果

GeoVLA 在仿真和真机实验中均展现出对传统 2D VLA 模型的压倒性优势，证明显式 3D 表征在复杂操作中的不可替代性。

仿真环境测试结果

表 1：LIBERO 评测结果

在 LIBERO 基准测试中，GeoVLA 超越所有任务套件。在最具挑战性的 LIBERO-90（长程多任务）中，GeoVLA 达到 97.7% 的成功率，超越之前的 SOTA 方法 OpenVLA-OFT (95.3%) 和 CogACT (93.2%)。

表 2：ManiSkill2 评测结果

在物理仿真更为逼真的 ManiSkill2 中，GeoVLA 优势更加明显，平均成功率达到 77%，大幅领先 Dita (66%) 和 CogACT (69%)；特别是在 PickClutterYCB 这种物体堆叠杂乱、遮挡严重的任务中，GeoVLA 凭借点云带来的几何理解，保持了极高的操作精度。

真机环境与鲁棒性测试

图 4：真机实验任务的变体展示

作者团队使用 WidowX-250s 机械臂进行了广泛的真机测试；实验被分为“基础任务”和“3D 感知任务”。在域内任务中，GeoVLA 在基础任务上平均成功率 95.0%，在 3D 感知任务上为 77.5%，总体平均 86.3%，大幅领先 Pi0 (57.5%) 和 CogACT (76.3%)。特别是在 Put Basketball 和 Put Hairclip 等需要精确空间理解的任务中，GeoVLA 表现出更好的鲁棒性。