当前位置: 首页
AI资讯
上海交大突破VLA空间感知难题 09B模型真机成功率高达90%

上海交大突破VLA空间感知难题 09B模型真机成功率高达90%

热心网友 时间:2026-05-26
转载

机器人能够“看见”世界,但如何让它们“看准”并精准操作,一直是视觉-语言-动作模型面临的核心挑战。

当前,大多数VLA模型主要依赖二维图像信息进行决策。一旦任务涉及精确抓取定位、精细物品摆放或需要理解复杂的物体间遮挡关系——这些对三维空间感知要求极高的场景,模型的成功率往往会显著下降。

为机器人模型补全空间感知能力,业界主要有两种技术路径,但各自存在局限。显式3D方案依赖深度相机和点云重建,硬件链路复杂且对设备标定误差敏感;隐式3D方案尝试从RGB图像直接学习几何信息,虽免去了额外硬件,但许多方法依赖庞大的基础模型,导致训练与推理成本高昂。

为此,上海交通大学MINT实验室团队提出了一条创新的折中路径:Evo-Depth。这个仅约0.9B参数的轻量模型,无需增加硬件负担,而是通过一种紧凑的隐式深度编码技术,将三维空间感知能力“内嵌”到VLA模型的决策网络中,旨在同时兼顾仿真环境下的高性能与在真实机器人上的高效部署。

0.9B跑出90%真机成功率!上海交大为VLA补上空间感

其实际表现如何?在广泛的仿真基准测试中,它在Meta-World任务上达成率84.4%,在LIBERO任务上高达95.4%;在真实机器人操作平台上,平均成功率稳定在90%左右。在部署效率方面,模型仅需约3.2 GB显存,推理频率可达约12.3 Hz,满足实时控制需求。

目前,该项目的全部代码、预训练模型权重及完整训练脚本均已开源,便于研究和应用。

轻量化设计与端到端训练

Evo-Depth的核心设计目标明确:从多视角RGB图像中提取紧凑的隐式深度表征,并以轻量化的方式将其融合进视觉-语言处理流程,最终通过基于流匹配的动作生成模型,输出精准、连续的操作指令。

0.9B跑出90%真机成功率!上海交大为VLA补上空间感

整个系统架构由三个核心模块协同工作:

1. IDEM:隐式深度编码模块。 该模块负责从多视角图像中高效提取隐式的深度与几何特征,其重点是理解空间布局和相对位置关系,而非生成计算密集的显式3D点云。IDEM骨干网络参数仅约0.13B,并采用了多视角深度预训练进行初始化,从而在轻量化的前提下引入了关键的几何先验知识。

2. SEM:空间增强模块。 该模块的作用是将隐式深度特征作为一种调制信号,来增强视觉与语言的联合表征。与增设独立深度分支的方案相比,这种融合方式更为高效:原有的视觉语言主干网络继续专注于语义理解,而深度特征则专门提供空间信息补充,同时严格控制由此带来的额外计算与显存开销。

3. 渐进式对齐训练策略。 为了解决多模块联合训练容易出现的优化不稳定问题,研究团队采用了分阶段的渐进式对齐训练。该方法依次完成深度表征对齐、多模态特征融合以及最终的动作策略学习。动作生成部分则采用了在VLA领域表现优异的流匹配技术。

在总参数量约0.9B的配置下,论文报告的关键性能指标如下:

  • 仿真性能: Meta-World基准达成率84.4%、VLA-Arena 41.1%、LIBERO 95.4%、LIBERO-Plus 69.6%。
  • 真机性能: 在真实机器人操作任务中,平均成功率约为90%。
  • 部署开销: 仅需约3.2 GB GPU显存,推理频率可达约12.3 Hz。

特别值得注意的是,除了关注算法在标准测试集上的分数,该研究也明确给出了实际部署时的资源消耗与实时性指标。对于最终需要落地到真实机器人控制回路中的VLA系统而言,这些部署效率指标与任务成功率同等重要。

在性能、成本与实时性间寻求最佳平衡

本质上,Evo-Depth致力于解决一个经典的机器人学工程难题:如何在不大幅增加系统整体复杂度与资源消耗的前提下,有效提升视觉-语言-动作模型对三维空间的理解与精细操作能力。

从实验结果看,它似乎找到了一个巧妙的平衡点——相较于纯二维的VLA模型,它补充了至关重要的空间几何信息;而相较于那些更“重型”的显式或复杂隐式3D方案,它又较好地保持了模型的轻量化与部署的实用性。

对于深耕机器人灵巧操作、空间人工智能或VLA系统研发的团队而言,这类在模型性能、计算成本与系统实时性之间寻求精妙平衡的技术方案,其价值正日益凸显,为机器人走向更复杂、更真实的作业环境提供了新的思路。

来源:https://www.aitntnews.com/newDetail.html?newId=25506

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
游戏攻略制作工具大全:从录制到剪辑必备软件清单

游戏攻略制作工具大全:从录制到剪辑必备软件清单

制作游戏攻略可借助专业工具提升效率。boardmix博思白板适合可视化整合素材,语雀便于团队结构化协作,有道云笔记支持多平台同步记录,Evernote利于多设备资料归档,千本笔记则以手账式排版见长。这些工具各具特色,能有效辅助攻略制作。

时间:2026-05-26 19:14
Codex 模型高效使用指南与最佳实践

Codex 模型高效使用指南与最佳实践

Codex正从代码助手演变为工作流智能体。它通过持久线程、语音输入、实时干预、任务队列等工具构建闭环系统,能保存上下文、捕捉想法、即时纠偏、规划任务并连接外部资源,围绕完整电脑任务流推进,实现持续自动化工作。

时间:2026-05-26 19:04
广东加快布局算力节点与词元经济发展

广东加快布局算力节点与词元经济发展

广东省发展和改革委员会主任龚桢梽26日在广州表示,广东将依托自身雄厚的能源保障、网络基础设施与产业集群优势,系统谋划并建设一批高性能的超算中心、智能计算枢纽及边缘计算节点,全力推动近期备受瞩目的“词元经济”实现跨越式发展。 文中所指的“词元”,是国家数据局对自然语言处理核心技术单元Token的官方规

时间:2026-05-26 19:03
Twilio人工智能应用优势与风险深度解析

Twilio人工智能应用优势与风险深度解析

Twilio股价因市场看好其语音AI业务而逆势上涨,但该业务占比仍小,公司核心仍依赖面临激烈竞争与定价压力的信息业务。当前估值显著高于同行,但增长前景存疑:AI尚未成为主力,信息业务毛利率低可能拖累整体利润,市场竞争加剧也威胁市场份额。未来增长能否支撑高估值仍不确定。

时间:2026-05-26 19:02
灵珠AI英语写作口语练习全攻略

灵珠AI英语写作口语练习全攻略

灵珠AI可作为全功能语言训练伙伴提升英语能力。通过设定角色进行情境化写作训练,启用语音输入实现实时纠错,构建“写—说—改”循环强化语言一致性。利用多轮追问深化逻辑表达,调用对比润色功能精炼书面细节,从而针对性提升写作严谨度与口语流利度。

时间:2026-05-26 19:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程