NVIDIA技术如何优化机器人移动与全身控制能力
欢迎关注首期“NVIDIA机器人研究与开发摘要(R²D²)”。本系列技术博客旨在为开发者和研究人员提供一个窗口,深入洞察NVIDIA各研究实验室在物理AI与机器人领域的最新突破。我们希望通过分享这些前沿探索,与全球社区共同拓展机器人技术的可能性。
构建真正智能、鲁棒的机器人系统,始终面临多重核心挑战。行业普遍存在三大痛点:首先是数据匮乏——获取大规模、高质量、多样化的真实世界训练数据成本极高;其次是泛化能力不足——如何让算法方案适应不同机器人形态与动态变化的环境;最后是系统集成复杂——如何将移动、操作、控制与高级认知能力无缝融合,形成完整解决方案。
NVIDIA的应对策略,是将尖端人工智能研究与工程化实践深度结合,并依托其强大的AI与机器人平台(如Omniverse、Cosmos、Isaac Sim和Isaac Lab)进行持续验证与迭代。最终产出的模型、策略及数据集,旨在为全球研究者和开发者社区提供可复用、可定制的基础,从而加速各类机器人项目的开发进程。本期内容,我们将聚焦于机器人移动与全身控制这一关键领域,详细解读几个核心工作流及AI模型,揭示它们如何协同攻克智能导航、灵巧移动与精准控制中的难题。
NVIDIA机器人移动工作流与AI模型解析
从人形机器人、四足机器狗到自主移动机器人(AMR),各类移动机器人正加速渗透至物流、制造、服务等多个行业。这对机器人导航系统提出了前所未有的高要求:它们不仅需要在已知或未知环境中实现安全运行,还必须具备动态避障、路径优化能力,以最大化运行效率并减少停机。然而,传统导航软件往往存在“适应性”短板——针对不同机器人平台的算法差异巨大,环境变化即需大量重新调试,导致工程复杂度高、可扩展性受限。
NVIDIA研究团队的核心思路是:通过开发由AI驱动的端到端基础模型、高效可扩展的合成数据生成流程,以及支持零样本(Zero-Shot)现实部署的训练框架,系统性解决上述挑战。其终极目标是让机器人即使在仅配备基础传感器、面对杂乱未知空间时,也能实现稳健的自主导航。

图1. 机器人移动工作流涵盖三大核心环节:合成数据生成、模型训练与微调、以及零样本部署前的仿真验证。
MobilityGen:高效合成数据生成方案
数据是训练AI模型的基石,但对机器人领域而言,采集真实世界的高质量运动数据耗时耗力且成本高昂。MobilityGen工作流应运而生,它借助NVIDIA Isaac Sim仿真平台,能够为包括人形、四足和轮式机器人在内的多种形态,快速生成大规模、多样化的合成运动数据。这套方案能显著降低数据获取成本,有效缓解机器人AI训练中的数据稀缺问题。
MobilityGen如何提升数据集的价值与多样性?它主要通过多种技术手段实现:在仿真环境中引入动态障碍物、丰富机器人的动作库、结合人类远程操控演示数据,并对光照、纹理等视觉条件进行增强。其输出的数据格式全面,包括占据地图、机器人位姿、速度信息、RGB图像、深度图、语义分割图,以及可定制的动作序列与渲染数据。数据采集方式灵活,支持通过键盘/手柄远程操控、自动随机动作探索或基于自定义路径规划进行录制。
可以说,MobilityGen为机器人感知与移动算法的研发夯实了数据基础。它生成的高保真合成数据,能够高效用于训练和验证各类移动模型及环境感知算法。

图2. 机器人移动合成数据生成的四个标准化步骤:环境构建与导入、机器人模型配置、仿真运动与轨迹记录、多模态数据渲染与输出。
视频2. MobilityGen用户使用Isaac Sim进行合成数据生成
COMPASS:跨机器人形态的通用移动策略
拥有高质量数据后,下一步是训练具备强大泛化能力的策略模型。COMPASS工作流的核心使命,正是开发能够跨越不同机器人形态的通用移动策略。它提供了一套完整的端到端工作流与预训练模型,致力于实现从仿真到现实的“零样本”迁移部署,从而解决因机器人平台各异导致的开发周期长、难以规模化复制的行业难题。
COMPASS的先进性在于其融合训练方法:它将基于视觉的端到端模仿学习(IL),与在Isaac Lab中利用X-Mobility进行的残差强化学习(RL)及策略蒸馏技术相结合。尽管其模仿学习部分基于特定形态数据预训练,但最终通过蒸馏得到的通用策略,在不同形态机器人上的导航成功率可提升高达5倍。这意味着,形态各异的机器人有望共享同一套高性能“导航大脑”,在复杂环境中高效穿行,同时保留了针对特定平台或任务进行快速微调的灵活性。

图3. COMPASS工作流的三阶段设计架构。
具体而言,第一阶段通过模仿学习构建基础世界模型,让策略掌握关于移动的“物理常识”,例如理解环境结构、动态障碍物感知与规避、可行路径规划。第二阶段利用残差强化学习,将这些常识具体化为执行特定导航任务的专家策略。第三阶段则通过策略蒸馏技术,将多位“专家”的知识融合压缩到一个统一的、轻量化的跨形态模型中。这套流程最终能支持零样本下的多机器人协同交互,并可连接移动操作控制器,以执行取放、开门等更复杂的复合任务。
视频3. 搭载COMPASS策略的人形机器人演示
COMPASS通过攻克跨形态通用性难题,显著增强了集成式机器人软件栈的移动能力基础。
HOVER:人形机器人全身协调控制框架
让机器人移动到目标位置仅是第一步。对于像人形机器人这样拥有多自由度的高维系统,稳健的运动表现离不开精妙的平衡控制与全身关节的协调。HOVER工作流的目标,正是为此提供一个统一的、高性能的全身控制参考解决方案。
传统方法中,人形机器人常需为不同任务切换不同控制模式,例如导航时采用速度追踪模式,进行桌面操作时则需切换至上身关节位置追踪模式。HOVER在Isaac Lab中训练,旨在将这些分散的控制模式整合进一个统一的神经全身控制器中。对于采用其他移动工作流的机器人,也可用其对应的控制器模块替代HOVER。
HOVER本质上是一个多模式策略蒸馏框架。它首先通过强化学习训练多个专注于特定技能的专家策略,并融合人类运动数据先验,最后将这些专家的能力蒸馏到一个通用策略中,从而实现不同控制模式间的平滑、无缝过渡。其开源代码库提供了在Unitree H1等真实人形机器人上的部署示例,展示了出色的运动柔顺性与稳定性。
图4. HOVER策略在Isaac Lab中训练、在MuJoCo中测试并最终部署到真实机器人上;(左)仿真测试,(右)真实部署
图5. HOVER策略在执行复杂手臂动作的同时保持全身动态平衡
ReMEmbR:赋予机器人推理与记忆能力
当数据、移动、控制能力均已具备,要实现完全自主、具备交互智能的移动机器人,还需要最后的关键能力:环境理解、推理与长期记忆。机器人如何记住在环境中的历史观察,并根据用户的自然语言指令或提问进行推理并采取行动?
ReMEmbR工作流正是为此而设计。它创新性地将大语言模型(LLM)、视觉语言模型(VLM)与检索增强生成(RAG)技术相结合,为具身机器人构建了一个强大的“长期记忆”与推理系统。这使得机器人能够基于过往的环境观察进行逻辑推理、回答用户关于环境的问题,并在大范围、复杂的空间内执行基于语义的导航任务。

图6. ReMEmbR工作流示意图,展示其如何整合多模态感知与记忆。
ReMEmbR可以作为其他工作流的“智能决策中枢”,提供高级指令。例如,它将MobilityGen、COMPASS和HOVER串联起来,形成一个从环境感知、记忆构建到智能导航与控制的完整问题解决闭环。为了推动该领域的研究与评估,NVIDIA还发布了NaVQA数据集,其中包含了大量涉及空间关系、时间逻辑和物体描述的多轮问答示例。

图7. MobilityGen、ReMEmbR、COMPASS和HOVER四个工作流协同工作的整合视图,构成完整机器人智能系统。
通过引入大模型强大的语义理解与推理能力,ReMEmbR从根本上提升了AI机器人系统的认知水平与环境适应能力。
生态系统应用与合作伙伴案例
这些前沿研究并非仅停留在实验室阶段。在全球人形机器人、仓储自动化及高端自主系统领域,已有多家领先的机构与公司开始采用NVIDIA的机器人研究工作流,以加速其产品开发进程并实现技术突破。
例如,机器人公司Under Control Robotics成功集成了X-Mobility模块,引导其机器人“Moby”在复杂场景中流畅完成自主导航任务。这套模块化系统已展现出灵活适配多种工业场景的潜力,包括现场数据采集、物料精准搬运以及高风险作业自动化等。
另一方面,研华科技、威刚科技与Ubitus的合作项目,则展示了ReMEmbR技术的实际应用前景。它们利用该技术使服务机器人能够依据对环境的长期观察进行推理并自主采取行动,向着构建真正具备对话式智能、可长期运行的自主机器人系统迈出了关键一步。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
海螺AI自动生成每日社交媒体内容日历教程
想让海螺AI帮你搞定每日社交媒体内容日历,实现从选题到发布的全程自动化,而不是手动一条条添加或依赖人工排期?关键在于激活它的“智能日历引擎”和“多源触发机制”。这套能力,背后是海螺AI内置的MoE大模型abab 6 5、实时热点API以及跨平台语义适配模块在协同工作,目标就是打通从内容生成、时间规划
CodeBuddy自动生成Java单元测试:JUnit与Mockito代码教程
为Java项目编写高质量的单元测试,是保障代码质量和系统稳定性的核心环节。如果你正在使用CodeBuddy AI协同编辑器,却遇到自动生成功能未触发,或生成的测试用例不够完善的情况,这通常并非工具本身的局限。其根本原因,往往在于项目配置未被完整识别、测试框架依赖缺失,或编辑器未能获取到足够的代码语义
智谱清影视频水印去除方法详解
智谱清影生成的视频,那个位于画面右下角的半透明水印,算是平台的一个默认“签名”。如果你希望视频更干净,用于更正式的场合,去除这个水印是不少用户的需求。别担心,方法不止一种,从AI智能修复到巧妙的视觉遮盖,总有一款适合你的视频情况和处理习惯。 一、AI智能抹除水印 这大概是目前最“黑科技”的方法了。它
港股AI大模型板块表现活跃 MiniMax与智谱股价显著上扬
港股AI大模型板块持续走强,MiniMax与智谱股价显著上涨。板块整体受资金追捧,动力源于政策预期明朗、应用落地加速及指数纳入效应。龙头企业凭借全栈自研能力与清晰商业化路径,正推动市场从概念驱动向价值验证阶段过渡。
海螺AI教学备课指南:自动生成教案与课件详解
海螺AI作为一款智能教学辅助工具,虽不直接输出完整的教案文档或PPT课件,但其强大的文本生成、语音合成与逻辑分析能力,能够系统性地赋能教师备课全流程。通过分阶段调用其核心功能,教师可以高效完成:结构化教案文本框架的搭建、课件分页文案与讲稿的生成、听力音频素材的合成、教材文本的深度解析以定位教学重点,
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

