面包屑图标 当前位置: 首页
AI资讯
热点详情

英伟达开源机器人技能库Jim Fan称具身智能范式变了

AI热点日报
AI热点日报时间:2026-07-03
热点解读

英伟达开源ASPIRE框架,构建机器人持续成长的技能库。系统记录感知、导航、抓取等执行轨迹,由大模型分析失败原因并修改控制程序,将成功经验沉淀为可复用技能。训练从梯度下降变为技能打磨,最终产出可读的技能库,实现持续学习新范式。

机器人终于也能像人类一样,持续积累并沉淀可复用的技能了。

英伟达刚刚发布了一套全新的开源框架——ASPIRE,它本质上是一个能让机器人不断成长的技能库。如果说之前的机器人训练像是在黑盒里调节参数,那么ASPIRE带来的变化更像是为机器人装配了一套可复盘、可迭代的成长系统。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

你可以将其理解为一个机器人版的Coding Agent。就像GPT能从你的提示词和工作记录中提炼出可复用的技能一样,ASPIRE也会把机器人每一次的失败与修复过程,沉淀为后续可以持续调用的经验。不过,它审视的对象不是代码,而是机器人的操作过程

每当机器人执行一个任务,ASPIRE就会把感知、导航、抓取、碰撞检测、运动规划等环节全部记录下来。随后,背后的GPT / Claude模型会像一位经验丰富的研究员,判断任务在哪个环节出了问题,并迭代修改控制程序。如果修改后能顺利运行,这条经验就会被写入技能库。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

这样一来,机器人获得了一种全新的学习机制:编写代码、查看执行轨迹、修复程序、沉淀技能——形成了一个持续进化的闭环。英伟达机器人研究主管Jim Fan评价说,ASPIRE代表了一种全新的持续学习范式。具体而言,这里面有几个关键转变:

  • 训练方式从梯度下降转变为不断打磨和迭代技能(Skill Refinement);
  • 最终产出的不再只是一堆难以解释的浮点权重,而是一个持续扩展、可读的机器人技能库(Sensorimotor Skills);
  • 分布式训练的范式也随之改变,变成一群Agent各自练习不同技能,最后把经验汇总到同一个技能库里。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

训练出来的不一定是权重

虽然开头已经介绍了不少,但在深入探讨这套新范式之前,有必要先交代一些背景知识。

ASPIRE的全称是Agentic Skill Programming through Iterative Robot Exploration。它让机器人通过代码来执行任务,失败后能查看多模态的执行轨迹,然后自行修改程序,最后将成功修复的经验存入一个不断迭代的技能库。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

你可能会问,这里的Skill到底是什么?它本质上虽然还是一段喂给大模型的上下文,但沉淀下来的却是一套经过验证的代码修复模式(Code Repair Pattern)。简单来说,就是机器人学会了当遇到某类问题时,应该怎样修改控制程序。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

举个例子。当机器人准备拿起一台收音机时,它明明已经识别到了目标,却怎么也靠不近。系统分析之后发现,原因并非识别错误,而是规划器给出的目标点都落入了障碍物的碰撞缓冲区里。

基于这次失败经验,ASPIRE就能总结出一条新的Skill:如果遇到这类规划失败,可以尝试从45°、90°、180°等不同角度重新接近目标,直到找到一条无碰撞路径。此后,不管目标是收音机还是微波炉,这条经验都可以直接复用,无需从头试错。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

看到这里,或许会有人好奇:机器人训练,不该是搞数据、梯度下降、模型权重、真机采集、仿真迁移这些事吗?怎么突然变成积累Skill了?

这就不得不提到一个最近很火的新范式——Code as Policy

与我们熟悉的VLA等端到端策略模型不同,Code as Policy的思路不是让模型直接输出机器人动作,而是让大模型去写一段可执行的机器人控制程序。在这段程序里,它可以调用各种API,比如感知模块、运动规划API、控制原语——识别物体、规划路径、移动机械臂、执行抓取,都在代码层面完成。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

这意味着,机器人的行为不再完全隐藏在神经网络权重里,而是变成了可读、可改、可调试的操作代码。有了代码,能力强大的Agent模型就能像程序员一样,对它进行检查、修改、调试和持续优化。

但过去的Code as Policy有两个很棘手的问题。第一,机器人一旦失败,系统通常只知道“任务没完成”,却不清楚到底错在哪里——是感知有问题、抓取没抓稳、路径规划撞墙了,还是恢复动作没衔接上。第二,也是更关键的一点,它完全不长记性。一个任务做完,所有调试过程中发现的修复方案、恢复策略、提示词写法,统统被丢掉了。下次遇到类似问题,一切从头再来。

所以Jim Fan才说,有了ASPIRE,当机器人完成第100个任务时,它终于不再像完成第1个任务时那样一无所知。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

说白了,这整个过程和人类机器人工程师的工作方式如出一辙:当一个机器人程序失败,工程师会回放执行过程,查看感知结果,分析运动轨迹,判断到底是抓取错了、路径规划错了,还是哪个恢复动作没接上。修好之后,经验会被记录下来。下次再遇到桌边物体、抽屉把手、窄空间导航这类场景,就不必再从零开始。ASPIRE所做的,就是把这套经验积累机制交给Agent自动完成。

所以,在ASPIRE的框架下,训练已经不只是梯度下降。训练过程变成了技能的持续打磨和迭代;训练产物也不只是模型权重,而是一个机器人可以不断积累、不断成长的技能库(Skills Library)。

三阶段pipeline

在论文中,这套思想被实现为一个清晰的三阶段流程。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

第一阶段是robot execution engine,也就是机器人执行引擎。传统程序失败后,系统只会提示“任务失败”。ASPIRE会把失败过程拆解开,每一次感知、规划、抓取、控制调用,都留下对应的输入、输出、视觉证据和错误日志。就像人类工程师调试机器人时会回放视频、看轨迹、逐条排查原因,ASPIRE把这套精细的诊断能力交给了coding agent。

第二阶段是skill library。Agent修好程序之后,不会把这次经验丢弃,而是会提炼成可复用的知识沉淀下来。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

在官网展示的技能库里,能看到很多非常具体、实用的条目——比如SAM3文本提示怎么写、桌边物体需要多角度接近、抽屉把手如何过滤假检测、平面物体推动时该用哪种运动原语。这些经验不像传统模型权重那样抽象,它们更像是机器人程序员的一本踩坑笔记。

第三阶段是evolutionary search。系统不会只沿着一条修复路径往下走。它会生成多条候选控制程序,让它们在执行环境里运行,然后根据幸存下来的程序和失败的轨迹继续迭代。这套机制在软件工程里已经很常见了——coding agent习惯了写代码、跑测试、查看trace、修bug。ASPIRE所做的,就是把这套循环成功搬进了物理世界。

实验验证

为了验证这套方法,论文在三个经典的机器人基准上进行了测试,包括LIBERO-ProRobosuiteBEHA VIOR-1K,分别覆盖了泛化操作、接触密集型操作以及长时家庭任务。整体结果都比之前的Code as Policy方法明显更优。

举个具体的例子。在Robosuite的双臂物体交接任务中,ASPIRE将成功率从20%直接提升到了92%

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

更值得关注的是泛化能力的测试。研究人员先在LIBERO-90上不断积累Skill Library,然后直接将这些经验迁移到从未见过的LIBERO-Pro Long长任务中——中间没有任何针对新任务的训练,也没有更新技能库。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

结果很有意思:随着技能库越来越丰富,机器人在新任务上的成功率也一路提升,从一开始的几乎无从下手,最终达到了31%。换句话说,技能库越厚实,机器人就越像是一个有经验的老手,而不是一个从头开始的新手。

作者介绍

在技术博客的末尾,英伟达也公布了完整的作者名单。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

依旧是GEAR团队的熟悉面孔——Jim Fan、朱玉可、Guanzhi Wang、石冠亚等人。排在最前面的三位作者为共同贡献。其中,Runyu Lu是密歇根大学博士二年级学生,目前在GEAR实习;Yuubo Wu来自伊利诺伊大学厄巴纳-香槟分校(UIUC);Ethan Kou则来自加州大学伯克利分校,目前还是一名本科生。

具身智能的Skill时刻!英伟达开源机器人技能库,Jim Fan:范式变了

热点追踪提示词
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:英伟达开源机器人技能库Jim Fan称具身智能范式变了要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
来源:https://www.aitntnews.com/newDetail.html?newId=26782
skill

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

相关热点
AI热点2026-07-03 20:42
AI驱动的员工英语口语教练Lucida

LucidaAI是一款面向企业的AI英语口语教练,通过实时对话提供发音、语法、词汇和流利度的个性化反馈。采用端到端加密并支持合规定制,定价策略注重普及化,旨在以低成本提升团队英语沟通能力。

AI热点2026-07-03 20:42
Screenshot2Code:截图转代码工具

Screenshot2Code工具能够从截图中自动识别代码,并将其转换为可直接运行的代码。支持Python、HTML及API接口信息提取,帮助开发者快速复用他人分享的代码片段,从而显著提升工作效率。这个工具极大简化了代码复用过程。

AI热点2026-07-03 20:42
SpeakStruct 语音转结构化数据 可自定义模板

SpeakStruct通过可自定义模板将语音转换为结构化数据,适用于会议记录、客户通话等场景。核心功能包括自定义模板、准确转录和随处捕捉,使口语信息直接转化为可用的数据资产。

AI热点2026-07-03 20:41
AI驱动语音治疗应用 IzzyAI

IzzyAI是一款AI驱动的语音治疗应用,提供全天候服务。通过智能治疗师头像互动,系统评估并治疗五种常见语音语言障碍,融合语音与面部识别技术给予实时反馈。内置综合评估、个性化练习、进展报告及支持性社区,提升治疗效果。

延伸阅读