当前位置: 首页
AI资讯
上海交大突破视觉语言模型空间感知 0.9B参数实现90%真机成功率

上海交大突破视觉语言模型空间感知 0.9B参数实现90%真机成功率

热心网友 时间:2026-05-26
转载

机器人视觉感知的精度不足,是当前视觉-语言-动作模型普遍面临的核心挑战。许多模型仍主要依赖二维图像信息,在执行需要精确定位、细微操作或复杂空间关系判断的任务时,成功率往往难以保证。

要弥补空间感知能力的短板,业界通常有两种主流方案,但各自存在局限。显式3D方法依赖深度相机与点云重建,硬件链路复杂且对设备标定精度极为敏感;隐式3D方法则尝试从RGB图像直接学习几何信息,虽免去了额外硬件,但许多方案依赖参数量巨大的基础模型,导致训练与推理成本高昂。

为此,上海交通大学MINT实验室团队创新性地提出了一条高效的中间路径:Evo-Depth。这个参数量约0.9B的模型,无需增加任何硬件负担,而是通过一种紧凑的隐式深度编码技术,将三维空间感知能力无缝集成到VLA模型的决策流程中。在仿真与真实机器人测试中,它实现了性能与效率的出色平衡。

实验结果表明,该模型在主流仿真基准测试中表现优异:在Meta-World任务上达到84.4%的成功率,在LIBERO任务上更是取得了95.4%的高成功率。部署至真实机器人平台后,其平均任务成功率仍能稳定在90%左右。更值得关注的是其轻量级部署优势:仅需约3.2 GB的GPU显存,推理速度可达约12.3 Hz,完全满足实时控制要求。

目前,该项目的代码、模型权重及完整训练脚本均已全面开源。

轻量化设计与端到端训练策略

Evo-Depth的核心设计目标明确:从多视角RGB图像中提取轻量化的隐式深度特征,并将其高效融入视觉-语言理解通路,最终通过一个基于流匹配的动作生成模块,输出精准、连续的操作指令。

整个系统架构主要由三个关键组件构成:

1. 隐式深度编码模块

该模块负责从多视角图像中学习并提取隐式的深度表征。其设计重点并非生成高成本的显式3D中间表示,而是高效捕捉场景的空间布局与物体间的相对几何关系。为实现轻量化,该模块主干网络参数量控制在约0.13B,并借助多视角深度预训练进行初始化,从而在有限参数下引入了关键的几何先验知识。

2. 空间增强模块

该模块的作用是将隐式深度特征作为一种调制信号,来增强视觉与语言的联合表征。这种融合方式比增设独立的深度处理分支更为高效:原有的视觉语言模型继续专注于语义理解,而深度特征则专门提供空间信息的补充。这种分工协作的设计,在提升模型空间感知能力的同时,有效控制了计算延迟与内存开销。

3. 渐进式对齐训练流程

为了解决多模块联合训练时常见的优化不稳定问题,研究团队采用了渐进式对齐训练策略。训练过程分为三个阶段:首先对齐深度表征,然后进行多模态特征融合,最后学习具体的动作策略。这种分步训练方法显著提升了训练的稳定性与最终性能。动作生成部分则采用了当前VLA领域先进的流匹配技术。

在总计约0.9B参数的配置下,模型取得的综合性能如下:

仿真基准测试结果: Meta-World任务成功率84.4%,VLA-Arena任务成功率41.1%,LIBERO任务成功率95.4%,LIBERO-Plus任务成功率69.6%。

真实机器人部署表现: 平均任务成功率约为90%。

实际部署指标: 约需3.2 GB GPU显存,推理频率约12.3 Hz。

需要特别指出的是,除了关注基准测试分数,该研究也明确给出了实际部署所需的资源开销与实时性指标。对于最终需要嵌入机器人实时控制回路的VLA系统而言,这些部署可行性数据的重要性,丝毫不亚于任务成功率本身。

在性能、成本与实时性间寻求最佳平衡

本质上,Evo-Depth旨在解决一个非常实际的工程问题:如何在不大幅增加系统整体复杂度和成本的前提下,显著提升VLA模型对三维空间的感知与理解能力。

从结果来看,它确实找到了一种巧妙的平衡点:相较于纯二维的VLA模型,它补充了关键的空间几何信息;而与那些依赖显式3D重建或庞大规模基础模型的方案相比,它又最大限度地保持了系统的部署效率和实用性。

对于专注于机器人灵巧操作、空间人工智能或VLA系统开发的团队而言,这类在模型性能、硬件成本与系统实时性之间取得精妙折中的方案,其应用价值正日益凸显。在追求更高层次智能的同时,如何让先进算法真正实现高效、稳定的落地应用,始终是机器人技术工程化道路上必须攻克的核心难题。

来源:https://36kr.com/p/3825744462353280

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
Word流程图制作教程:从零开始手把手教你

Word流程图制作教程:从零开始手把手教你

流程图作为梳理工作流程、呈现复杂逻辑的经典工具,在日常办公与学习中被广泛使用。提到制作方法,许多用户首先会想到Word——这款普及度极高的办公软件确实内置了流程图绘制功能,操作门槛也相对较低。本文将为您系统梳理在Word中绘制流程图的完整步骤,并进一步探讨当流程变得复杂时,如何借助专业工具提升效率,

时间:2026-05-26 18:53
通义万象色彩管理精准度实测产品颜色匹配效果如何

通义万象色彩管理精准度实测产品颜色匹配效果如何

通义万象在精准色彩还原任务中,可通过启用CMYK预设与印刷适配参数减少色差。结合外部校准工具闭环反馈,能借助专业硬件提升一致性。采用参考色块锚定法可锁定局部色彩。专业版用户还可调用内置色域映射引擎,直接匹配Pantone色号并获取误差报告,实现精准可控的色彩管理。

时间:2026-05-26 18:53
十大高效工作规划工具助你轻松管理时间与任务

十大高效工作规划工具助你轻松管理时间与任务

在当今竞争激烈的职场环境中,高效的时间管理与任务规划能力已成为个人核心竞争力的关键。面对日益复杂的工作流程与多线程任务,一套得心应手的工作规划工具,往往是提升效率、实现目标的重要杠杆。本文将深入盘点十款备受职场人士推崇的工作规划软件与效率工具,它们覆盖了从个人时间管理、任务分配到团队项目协作的全场景

时间:2026-05-26 18:52
手机壳图案设计教程:用通义万象生成高清印刷素材

手机壳图案设计教程:用通义万象生成高清印刷素材

使用通义万相生成可直接印刷的手机壳高清图案时,需针对载体尺寸、印刷精度和图案适配进行设置。具体方法包括:用结构化提示词明确设备型号与印刷参数;以模板图为基准进行图生图,保持物理结构;通过涂鸦草图叠加坐标标注引导AI;调用专用微调模型优化纹样延展;融合RGB图案与CMYK色卡进。

时间:2026-05-26 18:52
二狗PPT模板库资源盘点国企互联网房地产全场景覆盖

二狗PPT模板库资源盘点国企互联网房地产全场景覆盖

二狗PPT模板库提供44个专属模板,覆盖国企、互联网及房地产三大职场场景。模板针对中式汇报习惯深度设计,国企类注重规范格式与稳重配色;房地产类预设行业图表与多风格切换;互联网类强调信息结构与本地化表达,支持文档智能转换。所有模板兼容主流办公软件,确保排版稳定。

时间:2026-05-26 18:51
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程