英伟达开源机器人技能库 具身智能迎来新范式
6!机器人也能学习技能了。近日,英伟达推出了一套能让机器人持续进化的技能库——ASPIRE。从某种意义上说,ASPIRE就像是为机器人量身打造的专属Coding Agent。正如GPT能将用户的提示词与工作记录转化为可复用的技能,ASPIRE也会把机器人反复试错与修正的经验沉淀为后续可直接调用的技能
6!机器人也能学习技能了。
近日,英伟达推出了一套能让机器人持续进化的技能库——ASPIRE。

从某种意义上说,ASPIRE就像是为机器人量身打造的专属Coding Agent。正如GPT能将用户的提示词与工作记录转化为可复用的技能,ASPIRE也会把机器人反复试错与修正的经验沉淀为后续可直接调用的技能。不同之处在于,它审查的对象不是代码,而是机器人的操作过程。
每当机器人执行任务时,ASPIRE会完整记录感知、导航、抓取、碰撞检测、运动规划等所有环节。其背后调用的GPT/Claude模型如同研究员般分析故障点,并迭代改进程序。一旦任务成功完成,便将这些经验积累写入技能库。
这样一来,机器人便获得了通过编写代码、观察执行轨迹、修正程序、沉淀技能来持续学习的能力。
而这远不止于技能提炼那么简单。英伟达机器人研究主管Jim Fan指出,ASPIRE代表了一种全新的持续学习范式。

在这种范式下:
- 训练方式从传统的梯度下降转变为不断精炼技能(Skill Refinement);
- 训练产出的模型不再是简单的浮点权重,而是一个持续动态扩展的机器人技能库(Sensorimotor Skills);
- 分布式训练则演化为多个Agent分别演练不同技能,并将各自经验汇总至同一个技能库中。
尽管前面已做了大致介绍,但在深入探讨ASPIRE如何革新机器人训练范式之前,有必要先补充一些背景信息。
ASPIRE的全称为Agentic Skill Programming through Iterative Robot Exploration(通过迭代机器人探索实现智能体技能编程)。

该系统使机器人能够通过代码执行任务,在失败后回放多模态执行轨迹,并据此修改程序,将修正后的经验存入一个持续增长的技能库(Skills Library)。
这里的技能(Skill)本质上虽然仍是大模型的一段上下文提示,但沉淀下来的是经过实际验证的代码修复模式(Code Repair Pattern),指导机器人遇到特定类型问题时如何调整控制程序。

举例来说:当机器人试图拿起一台收音机时,虽然已成功识别目标,却始终无法接近。Agent分析后发现,问题并不在于识别错误,而是规划器(Planner)给出的目标点全部落在了障碍物的碰撞缓冲区之内。
基于这次经验,ASPIRE会提炼出一条新的技能:若遇到类似的规划失败,可尝试从45°、90°、180°等多个不同角度重新接近目标,直至找到无碰撞路径。未来再遇到类似场景,无论目标是收音机、微波炉还是其他物体,这条经验均可直接复用,无需重复试错。
说到这里,你或许会产生疑问:机器人训练不应该是收集数据、梯度下降、调整模型权重、真机采集、仿真到现实迁移吗?怎么突然变成了积累技能?
这里需要先介绍一个当下热门的研究范式——Code as Policy。
与VLA等端到端策略模型不同,Code as Policy并非让模型直接输出机器人动作,而是令大语言模型生成一段可执行的机器人控制代码。该代码可调用感知模块、规划API及控制原语,例如物体识别、路径规划、机械臂运动、抓取执行等。这样一来,机器人的行为不再完全隐藏在神经网络权重之中,而是转化为可操作的可执行代码,从而可以被当前能力强大的Agent模型检查、修改、调试与优化。
然而,过去的Code as Policy方法一直存在两个关键问题。
第一,机器人执行失败后,系统通常仅能获知“任务未完成”,无法判断是感知错误、抓取不稳、路径规划碰撞还是恢复动作异常。第二,也是更为关键的缺陷——它不具备记忆能力。一个任务完成后,调试过程中发现的修复方案、恢复策略及提示词写法便被丢弃,下次遇到类似问题必须从头再来。
这正是Jim Fan所说的:(有了ASPIRE)当机器人完成第100个任务时,它终于不再像完成第1个任务时那样对一切毫不知晓。

简单来说,整个过程与人类机器人工程师的工作方式如出一辙:当机器人程序失败时,工程师会回放执行过程,检查感知结果,分析运动轨迹,确定是抓取失误、规划错误还是某个恢复动作未能衔接。修复完成后,工程师会记录本次经验。下次再遇到桌边物体、抽屉把手或狭窄空间导航等场景,便无需从零开始。
而ASPIRE所做的,正是将这套经验积累机制交由Agent自动完成。它不仅让大模型编写机器人代码,更让大模型在执行环境中反复尝试、反复观察、反复修正,最终将经过验证的修复经验沉淀为可复用的技能。
因此,在ASPIRE中,训练已不再局限于梯度下降。训练过程转化为技能精炼(Skill Refinement);训练成果也不仅仅是模型权重,而是一个机器人持续积累、不断进化的技能库(Skills Library)。
在相关论文中,这一思想被实现为一个三阶段流水线(Pipeline)。

首先是Robot Execution Engine(机器人执行引擎)。传统机器人在程序失败后,系统往往仅提示任务未完成。而ASPIRE会细致地拆解失败过程,对每一次感知、规划、抓取、控制调用都保留输入、输出、视觉证据及错误日志。正如人类工程师在调试机器人时会回放视频、查看轨迹、判断是感知错误还是抓取失败一样,ASPIRE将这套分析工作交给了Coding Agent。
其次是Skill Library(技能库)。Agent修复程序后,并不会丢弃本次经验,而是将其提炼为可复用的知识。

在官网技能库中可以看到非常具体的条目,例如SAM3文本提示的编写方法、桌边物体需要多角度接近、抽屉把手如何过滤虚假检测、平面物体推动时应使用哪种运动原语(Motion Primitive)。这些内容不同于传统的模型权重,更像是机器人程序员积累的踩坑笔记。
最后是Evolutionary Search(进化搜索)。Agent并非仅沿着单一修复路径尝试,系统会生成多条候选控制程序,让它们在实际执行环境中运行,然后根据成功幸存程序与失败轨迹继续迭代优化。
在软件工程领域,Coding Agent早已习惯编写代码、运行测试、查看跟踪、修复缺陷。ASPIRE所做的正是将这一循环移植到物理世界。
为验证该方法的有效性,论文在三个经典机器人基准上进行了测试,涵盖LIBERO-Pro(泛化操作)、Robosuite(接触密集型操作)以及BEHAVIOR-1K(长时序家庭任务)。整体结果均显著优于以往的Code as Policy方法。例如,在Robosuite的双臂物体交接(Bimanual Handover)任务中,ASPIRE将成功率从20%提升至92%。

在泛化能力测试中,研究团队先在LIBERO-90上持续积累技能库,然后直接迁移至从未见过的LIBERO-Pro Long长任务,期间未针对新任务进行额外训练,也未更新技能库。

结果显示,随着技能库日益丰富,机器人在新任务上的成功率持续攀升,从几乎无法完成到最终达到31%。换言之,技能库越庞大,机器人就越不像一个新手。
在技术博客的结尾,英伟达还公布了完整的作者名单。

作者阵容依旧是GEAR团队的熟悉面孔:Jim Fan、朱玉可、Guanzhi Wang、石冠亚等。排名前三位的作者为共同贡献。其中,Runyu Lu目前是密歇根大学博士二年级学生,正在GEAR实习;Yuubo Wu来自伊利诺伊大学厄巴纳-香槟分校(UIUC);Ethan Kou则来自加州大学伯克利分校,目前仍是一名本科生。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:英伟达开源机器人技能库 具身智能迎来新范式要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点那些碘伏性的科技创新,从来不只是技术层面的突破——它们催生新的创业风口,重塑城市格局,改写财富分配逻辑,本质上是一场深刻的社会变革。未来三年,人工智能将如何改变我们的生活?它会深度嵌入人类活动方式,推动AI与全球价值链加速整合,引发新一轮产业变革,最终成为城市发展和经济高质量发展的核心引擎。 在科技
近年来,在众多汽车行业技术交流与AI应用研讨会上,一个经典但又始终缺乏标准答案的议题再次被热议:在开发智能助手时,究竟应该选择模型微调路线,还是依靠RAG技术来撑起实际应用?今天,我们以汽车销售这一具体业务场景为切入点,把这个话题掰开揉碎,深入聊一聊。首先给出一个核心判断:没有绝对的优劣之分,只有场
人工智能时代,医疗、教练、艺术创作、发型设计、社工等需要情感互动、领导激励或精细手艺的职业相对安全。机器人难以复制人类的情感理解、直觉和复杂人际能力,因此无法完全替代这些工作。
人工智能(AI)如今已成为各行各业关注的焦点,制造业也不例外。媒体上频繁报道的新功能与新趋势,无疑在加速生产数字化进程中发挥了重要作用。然而,坦率地说,当前AI在众多应用场景中仍处于理论探索阶段,距离大规模普及尚有相当距离。不少第三方服务商打着“基于AI技术”的旗号,将自家产品包装得玄妙且昂贵,反而
- 日榜
- 周榜
- 月榜
热点快看
