当前位置: 首页
AI资讯
VLM赋能RDK X5机器狗精准理解遛弯与避障

VLM赋能RDK X5机器狗精准理解遛弯与避障

热心网友 时间:2026-05-28
转载

跨形态机器人控制长期是机器人领域的行业难题。传统方案通常需要为不同形态的机器人各自独立设计控制逻辑——例如为四足机器人、轮式机器人、人形机器人分别开发一套专属策略,彼此之间难以复用。这种做法的弊端很明显:开发成本居高不下,一旦硬件平台更换,就需要从零开始构建控制软件,系统的泛化能力更是难以实现。

那么,有没有可能让用户仅通过一句自然语言指令,就能指挥不同形态的机器人协同完成同一个任务?本项目的初衷正是为了解决这一挑战。我们提出的核心思路是构建一个分层强化学习框架:上层采用视觉语言模型(VLM)解析用户任务,生成标准化的中间指令——比如“左转30度”;下层则依靠强化学习策略,根据机器人的形态参数,将这条指令转换为具体的底层动作——四足机器人可能会迈出相应的步态,而轮式机器人则执行一轮转向控制。整个训练过程在NVIDIA Isaac Sim仿真器中完成,随后部署到X5 RDK人形机器人及四足机器人上开展真机验证。

长期以来,跨形态机器人(如四足、轮式、人形)的控制方案多为各自独立开发,导致研发成本高昂且泛化能力匮乏。本课题提出一种基于语言-视觉分层强化学习的跨形态机器人通用控制架构,旨在通过自然语言指令这一统一接口,实现多形态机器人的任务适配与高效控制。具体而言,高层视觉语言模型(VLM)负责解析用户指令并生成标准化的中间指令(例如“左转30度”);低层强化学习策略则依据机器人形态的参数化编码,将中间指令映射为适应具体形态的底层动作(如四足步态或轮式转向)。通过在NVIDIA Isaac Sim仿真器中快速训练跨形态通用策略,并结合X5 RDK人形机器人及四足机器人进行真机验证,本课题成功展示了同一语言指令在不同形态机器人上的高效执行能力。实验结果表明,该框架在动态避障、复杂地形适应及任务重规划等方面展现出显著优势,为跨形态机器人控制提供了一种低成本、高泛化的解决方案。

拟采用技术方案

整体架构采用分层强化学习设计。上层由VLM负责——将图像与自然语言输入转化为标准化的中间指令;下层则由强化学习策略将这些指令进一步转换为最终的底层动作序列。在仿真层面,我们使用mujoco配合多形态机器人模型完成验证,并最终尝试实现跨平台的真人机部署。

预期展示效果

在仿真环境中,我们对四足机器人和轮式机器人下达同一句指令——“绕过障碍物进入右侧房间”——观察它们各自规划出的路径与执行动作的差异。真机部分,则使用自搭建的轮式小车配合Petoi Bittle进行演示。后续将设计更丰富的人机交互场景。

X5 RDK用法

具体来说,X5平台上的RGB摄像头与IMU数据,会同时输入给高层VLM和低层策略模块。中间通过ROS2桥接,将低层策略输出的关节目标角度转换为电机控制指令。

仿真器验证内容

首先完成四足策略的训练,然后冻结高层VLM,仅对低层部分进行微调,使其适配人形机器人与轮式机器人。为了增强验证的可信度,仿真环境中会随机生成障碍物、地形起伏及光照变化,测试策略在复杂场景下的稳定性。与此同时,我们还将对比端到端的强化学习策略,评估两者在运行效率与算力消耗方面的差异。

真机演示内容

轮式机器人执行“沿走廊前进,在第二个门口右转”的任务;足式机器人则完成“避开地面杂物,将指定物品放置到指定位置”。两个演示均基于同一套控制框架。

项目预算

主要支出集中在三个方面:一台用于强化训练的工程机(或租用云算力),3D打印所需材料,以及舵机升级电机(此项待定)。

项目进度与计划

目前仿真环境已搭建完毕,机器人模型也已构建好。后续工作重点将放在数据采集、强化训练以及真机部署上。

方案验证

高层VLM

目标非常明确:将自然语言转换成中间动作指令,并且在简单任务——例如移动——上实现与机器人具体形态无关的通用控制。

使用VLM完成Navigation任务,实际上更接近VLA而非VLN,前者更关注场景内容的理解与交互,后者则侧重于路径规划。

我们采用开源VLM模型进行微调,但团队在这一过程中遇到了不少挑战。

首先尝试了openVLA——结果发现它直接输出端到端数据,对特定形态依赖性极强,不适用于跨形态场景。随后测试了LLaVA,本地部署7B模型,但其空间感知能力较差,且处理速度极慢——大约每个项目需要耗时一分钟。

接着我们尝试了Qwen-72B。这条路径相对简单直接——通过增加参数规模来提升性能,效果确实有所改善。但代价是无法实现本地部署,不过优势在于,即使在未进行微调的情况下,它在特定场景下也具备一定的空间感知能力。

随后,我们确实对Qwen-72B进行了数据采集与微调——前后手动拍摄了80多张场景照片,并配以对应的描述prompt,通过官方API运行了一轮训练。然而,微调后模型的部署成本过高——每小时160元,最终只得放弃。

最后,团队调整了策略:不再强制VLM进行精确的位置估算(特别是在未使用深度相机的情况下),而是仅让它进行粗略的距离判断,输出下一步的任务指令。这样,原生Qwen-72B即可胜任此工作。

低层PPO

目标是让该层将中间动作指令转化为机器人关节的角度与力矩。理想情况下,这一部分也应具备跨形态能力——但目前尚未验证,主要瓶颈在于变长输出问题。

强化学习部分主要针对四足机器人展开,我们基于Stable-Baselines3搭建了一个mujoco仿真环境用于训练。基本要求是使机器人在保持平稳的前提下完成直行与转弯动作。考虑到VLM的输出频率较低——大约每秒一个指令,后续还需加入速度跟踪机制以应对实时避障需求,这部分也通过强化学习来实现。

项目进度

  • week1:仿真场景搭建,完成了足式与轮式机器人的建模及控制测试。
  • week2:搭建高层VLM,完成多模态控制目标的输入。目标是将中间指令生成准确率提升至80%以上,同时完成X5 RDK上轮式机器人的sim2real优化与演示。
  • week3:部署低层四足PPO策略训练仿真,初步完成跨形态任务测试。

2.20仿真:

2.21实机:

  • week4:尝试3DGS场景下的高精度仿真。
来源:https://m.elecfans.com/article/6505318.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
修Bug被Gemini追删代码致宕机修复报告现编

修Bug被Gemini追删代码致宕机修复报告现编

最近,一起堪称“教科书级别”的AI Agent IDE翻车事件在开发者社区引发热议。这起事故值得所有依赖AI编程工具的开发者,尤其是那些已经在生产环境中对AI Agent 授予较高权限的团队,进行深刻反思。 简单回顾:5月26日,一位开发者要求Gemini 3 5(运行在Agent IDE环境中)修

时间:2026-05-28 22:58
Notion AI运营指南:自动归纳用户反馈

Notion AI运营指南:自动归纳用户反馈

其实,想在 Notion 中高效搞定用户反馈的自动归纳,并不复杂。下面这四种 AI 方法,基本覆盖了从单条处理到全局分析的常见场景。 如果你也在用 Notion 收集用户反馈——无论是问卷、邮件、客服记录,还是社群发言——但总觉得信息碎片化严重,难以提炼共性问题和核心诉求,那很可能是因为缺少一套结构

时间:2026-05-28 22:54
AI给出的答案为何总不符期望?原因解析

AI给出的答案为何总不符期望?原因解析

大模型能力强大,但提问方式不当会导致结果不理想。核心在于精准提问,通过角色设定、背景介绍、明确任务、实现路径和输出要求这五个关键步骤逐步细化问题,才能大幅提升AI回答的质量和精准度。

时间:2026-05-28 22:54
Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

Anthropic新AI聊天机器人模型声称在多项测试中击败OpenAI GPT-4

2024年3月5日,人工智能领域迎来了一位重要参与者——由OpenAI前员工创立的Anthropic公司正式推出了Claude 3系列模型。这次发布极具分量:新模型不仅在性能上与Google和OpenAI的顶级产品并驾齐驱,部分指标甚至实现超越。要理解此次升级的真正价值,先关注几个关键变化。首先是多

时间:2026-05-28 22:53
Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

Trae对Deno与Bun运行时的AI代码补全支持程度全面详解

如果你在使用 Trae 进行 AI 代码补全时发现,它对 Deno 或 Bun 运行时的提示不够精准——例如类型定义缺失、API 无法正确识别——那很可能不是代码本身有误,而是 Trae 的底层配置尚未适配。简而言之,Trae 对于非 Node js 运行时的标准库支持尚未实现“开箱即用”。下面我们

时间:2026-05-28 22:52
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程