大语言模型帮助机器人理解模糊指令并聚焦关键细节
麻省理工学院研究团队提出掩码逆强化学习方法,利用两个大语言模型分别解析模糊指令和筛选关键环境细节,将机器人所需演示数据量减少近五倍,正确识别用户隐含偏好的准确率最高提升15%,使机器人能在家庭、办公室和工厂安全执行复杂任务。
想象一下这个场景:你在仓库或办公室里忙得不可开交,手头任务堆积如山,突然需要指导一位“新员工”熟悉基本操作流程。只不过这位新员工并非人类,而是一台机器人。要让它快速掌握技能,最直观的方式大概是“我做你看,边说边练”——亲自演示几种不同的操作方法,同时口头解释你在做什么。

举个例子,你让机器人把咖啡杯放到桌上,但前提是绝不能打扰你正在进行的视频会议。你希望它尽量远离你和笔记本电脑,以免影响会议进程。要实现这一行为,机器人需要的是能清晰展示完整任务的数据来训练。此前,计算机科学家们探索过两条路径:要么录制大量实物演示,要么撰写一份极其详细的操作说明。可问题在于,这两类数据但凡缺失一项,机器人就很可能无法准确判断自己究竟该做什么。
要求人类同时完成“示范”和“讲解”,实在是既耗费时间又消耗精力。针对这一痛点,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究团队直接实现了机器人教学流程的自动化——不仅能够自动解析操作指令,还将所需的演示数据量缩减了近五倍。他们提出的方法名为“掩码逆强化学习”(Masked IRL),核心思路是:首先利用一个大语言模型,根据用户的演示数据把模糊的提示翻译成更具体的指令;然后让第二个大语言模型从中筛选出那些真正关键的环境细节,供算法在制定运动计划时参考。这样一来,机器人就能在家庭、办公室和工厂等场景中安全地完成任务。
“人与机器人交互时,用户肯定不希望把每一步的细节都交代得清清楚楚,这时我们的方法就能发挥作用,”麻省理工学院博士生、CSAIL研究员、论文第一作者黄敏英(Minyoung Hwang)表示,“目标就是让机器人真正理解用户的意图,尽可能降低人类的操作负担。”
黄敏英指出,Masked IRL能帮助机器人在复杂环境中实现安全移动——这类环境里总是存在一些人类在操作提示中根本不会主动提及、但至关重要的元素。比如,机器人去厨房拿零食,可能不知道要避开你的笔记本电脑;工厂机器人在往不同箱子里投放物品时,也必须小心绕开货架。
学习新任务时,Masked IRL会通过机器人的传感器采集周围环境信息,同时记录运动示教过程中的每一个动作。所谓运动示教,就是由人类亲手引导机器人执行操作,类似于给机器人做“物理治疗”——弯曲关节,示范如何抓取、拿取和放置。
接着,麻省理工的系统会调用一个大语言模型,将这一连串动作(即运动轨迹)与最短路径进行对比,同时对提示中模糊的部分加以解读。像“保持靠近”这种笼统的请求,会被转化为更明确的表述,例如“保持靠近桌面”。借助轨迹比较和明确后的指令,大语言模型就能逐步理解哪些训练动作对完成任务具有实际意义。
第二个大语言模型则负责评估环境细节——比如障碍物的位置、目标物体的形状。在此过程中,它会判断哪些元素与当前任务无关,然后进行“掩码”处理(即直接忽略),并为每个元素打分:“1”代表重要,“0”代表不重要。举个例子,用户演示时是否靠在桌子上,这类信息会被标记为“0”;而所有被评为“1”的细节,都会被算法纳入最终的行动计划。
这种掩码机制让Masked IRL在三维仿真环境和真实场景演示中,表现都优于同类基线方法——因为它教会了机器人哪些值得关注、哪些可以忽略。借助这套系统,虚拟和真实的机器人都能灵活地绕过障碍物移动物体,例如避开笔记本电脑,将咖啡杯放到桌上的不同位置。在这些任务中,Masked IRL正确识别用户未在提示中明确表达的偏好的准确率,比同类基线方法最高提升了15%。
在仿真实验中,CSAIL的研究人员还发现Masked IRL的学习效率更高。相比基线方法,它只需要更少的演示次数就能学会如何移动马克杯。而且,当大语言模型负责厘清指令时,机器人的表现远优于直接跟随模糊指令行动。
这种更具聚焦性的方法同样适用于真实的机械臂——能够执行系统在训练阶段从未见过的指令。经过50次运动示教训练之后,机器人可以小心地端着杯子递向人类,同时避免碰到用户的电脑。这个需要回避的障碍,正是系统通过解析“保持距离”这一笼统请求学到的。此外,机器人还能在“保持贴近”桌面的前提下完成擦拭任务,以及在同时“远离”人类和桌子的条件下,把一袋薯片递给用户。
Masked IRL能够感知并解读用户未说出口的意图。在不久的将来,它还将具备“视觉感知”能力。CSAIL的研究团队计划为系统安装摄像头,让机器人拍摄周围环境的图像,进而识别并聚焦于附近的特定元素。举例来说,当你说“捡起那个玩具”时,它可能会先看到旁边的香蕉,但在抓取目标之前,会自动忽略香蕉。
这篇论文由黄敏英与三位CSAIL同事共同撰写,包括博士生亚历山德拉·福西-斯梅雷克(Alexandra Forsey-Smerek,学士2020届、硕士2022届)、博士后纳撒尼尔·丹勒(Nathaniel Dennler),以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布(Andreea Bobu)。该研究获得了塔塔集团通过麻省理工学院生成式AI影响力联盟奖以及美国国防部的部分资助。研究团队将于今年6月在2026年IEEE国际机器人与自动化大会上正式公布这一成果。
Q&A
Q1:Masked IRL技术是什么?它如何帮助机器人理解指令?
A:Masked IRL(掩码逆强化学习)是麻省理工学院CSAIL研究团队开发的一套机器人教学方法。它利用大语言模型对用户模糊的操作提示进行扩展解读,同时通过第二个大语言模型对环境细节进行重要性评分,忽略无关信息,聚焦关键要素,从而帮助机器人准确理解用户真实意图,并生成合理的运动计划。
Q2:Masked IRL相比传统机器人训练方法有哪些优势?
A:相比传统方法,Masked IRL主要有两大优势:一是大幅减少了所需的演示数据量,训练效率提升近五倍;二是通过大语言模型自动厘清模糊指令,避免了机器人因指令不清而产生误解。此外,该方法正确识别用户隐含偏好的准确率比同类基线方法最高提升15%。
Q3:Masked IRL目前能在真实场景中应用吗?
A:可以。研究人员已在真实机械臂上验证了Masked IRL的实际效果。经过50次运动示教训练后,机器人能够完成多项现实任务,例如绕开笔记本电脑递送杯子、贴近桌面擦拭,以及在远离人类和桌子的前提下递送物品未来-研究团队还计0.2pt>,运用 Masked IRL 的系统还将配备摄像头,进一步增强其对真实环境的感知与理解能力
想象一下这个场场景—样,你就会发现,当你需要在仓库或办公室中途停下手中的一堆事务去帮一位“新员工熟悉基本操作时,这位新员工并非人类,而是一台机器人。要教会它,最自然的方式就是“我做你看,边说边练”——亲自演示几种不同的做法,同时口头解释你在做什么。

打个比方,你让机器人把咖啡放到桌上,但前提是不能影响你正在进行的视频会议。你希望它尽可能远离你和笔记本电脑,以免干扰会议。要实现这个行为,机器人需要的是能清晰展示完整任务的数据来训练。过去,计算机科学家们尝试过两条路:要么录下大量实物演示,要么撰写一份极其详细的操作说明。然而问题是,这两样东西只要缺少一样,机器人很可能就搞不清楚自己到底该干什么。
对人类来说,同时完成“示范”和“讲解”这两件事既费时又费力。针对这一痛点,麻省理工学院计算机科学与人工智能实验室(CSAIL)的研究团队,直接将机器人教学流程自动化——既能自动理解操作指令,又能把所需的演示数据量缩减近五倍。他们提出的方法名为“掩码逆强化学习”(Masked IRL),核心思路是:先用一个大语言模型,根据用户的演示数据,将模糊的提示转化为更具体的指令;再让第二个大语言模型从中筛选出那些真正关键的环境细节,供算法在制定运动计划时参考。这样一来,机器人就能在家庭、办公室和工厂中更安全地完成任务。
“人跟机器人交互的时候,肯定不想把每个步骤的细节都掰扯清楚,这时候我们的方法就派上用场了,”麻省理工博士生、CSAIL研究员、论文第一作者黄敏英(Minyoung Hwang)指出,“目标是让机器人真正弄懂用户的意图,把人类的操作负担降到最低。”
黄敏英补充道,Masked IRL能帮助机器人在复杂环境中安全移动——这种环境里,总有一些人类在操作提示中根本不会主动提、但至关重要的东西。比如,机器人去厨房拿零食,可能不知道要躲开你的笔记本电脑;工厂机器人在往不同箱子里放物品时,也必须小心绕开货架。
学习新任务的时候,Masked IRL会通过机器人的传感器采集周围环境信息,同时记录运动示教过程中每一个动作。所谓运动示教,就是由人类亲手引导机器人执行动作,有点像给机器人做“物理治疗”——弯弯关节,示范怎么抓、怎么拿、怎么放。
接着,麻省理工的系统会调用一个大语言模型,把这一连串动作(也就是运动轨迹)与最短路径做个比较,同时对提示里模糊的地方展开解读。像“保持靠近”这种笼统请求,会被翻译成更明确的表述,比如“保持靠近桌面”。借助轨迹比较和明确后的指令,大语言模型就开始理解哪些训练动作对完成任务是真正有意义的。
第二个大语言模型则负责评估环境细节——比如障碍物的位置、目标物体的形状。在这个过程中,它会判定哪些元素与当前任务无关,然后进行“掩码”处理(直接忽略),并为每个元素打分:“1”代表重要,“0”代表不重要。比方说,用户在演示时是不是靠在桌子上,这类信息会被标成“0”;而所有被评为“1”的细节,都会被算法纳入最终的行动计划。
这个掩码机制让Masked IRL在三维仿真和真实场景演示里,表现都优于同类基线方法——因为它教会了机器人什么值得关注,什么可以忽略。借助这套系统,虚拟和真实的机器人都能灵活地绕过障碍物移动物体,比如绕过笔记本电脑,把咖啡杯放到桌上的不同位置。在这些任务中,Masked IRL正确识别用户未在提示中明确表达的偏好的准确率,比同类基线方法最高提升了15%。
仿真实验中,CSAIL的研究人员还发现Masked IRL的学习效率更高。与基线方法相比,它只需要更少的演示次数就能学会如何移动马克杯。而且,当大语言模型负责厘清指令时,机器人表现得比直接跟着模糊指令走要好得多。
这种更聚焦的方法同样适用于真实的机械臂——能执行系统在训练阶段从没见过的指令。经过50次运动示教训练之后,机器人可以小心地端着杯子递向人类,同时避免碰到用户的电脑。这个需要回避的障碍,正是系统通过解析“保持距离”这个笼统请求学到的。此外,机器人还能在“保持贴近”桌面的前提下完成擦桌任务,以及在同时“远离”人类和桌子的条件下,把一袋薯片递给用户。
Masked IRL能感知并解读用户没说出口的意图。在不久的将来,它还能拥有“视觉感知”能力。CSAIL的研究团队计划给系统装上摄像头,让机器人拍下周围环境的图像,进而识别并聚焦于附近的特定元素。举个例子,当你说“捡起那个玩具”时,它可能会先看到旁边的香蕉,但在抓取目标之前,会自动将香蕉忽略掉。
这篇论文由黄敏英与三位CSAIL同事共同撰写,包括博士生亚历山德拉·福西-斯梅雷克(Alexandra Forsey-Smerek,学士2020届、硕士2022届)、博士后纳撒尼尔·丹勒(Nathaniel Dennler),以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布(Andreea Bobu)。该研究得到了塔塔集团通过麻省理工学院生成式AI影响力联盟奖及美国国防部的部分资助。研究团队将于今年6月在2026年IEEE国际机器人与自动化大会上正式发表这一成果。
Q&A
Q1:Masked IRL技术是什么?它如何帮助机器人理解指令?
A:Masked IRL(掩码逆强化学习)是麻省理工学院CSAIL研究团队开发的一套机器人教学方法。它利用大语言模型对用户模糊的操作提示进行扩展解读,同时通过第二个大语言模型对环境细节进行重要性评分,忽略无关信息,聚焦关键要素,从而帮助机器人准确理解用户真实意图,并生成合理的运动计划。
Q2:Masked IRL相比传统机器人训练方法有哪些优势?
A:相比传统方法,Masked IRL主要有两大优势:一是大幅减少了所需的演示数据量,训练效率提升近五倍;二是通过大语言模型自动厘清模糊指令,避免了机器人因指令不清而产生误解。此外,该方法正确识别用户隐含偏好的准确率比同类基线方法最高提升15%。
Q3:Masked IRL目前能在真实场景中应用吗?
A:可以。研究人员已在真实机械臂上验证了Masked IRL的实际效果。经过50次运动示教训练后,机器人能够完成多项现实任务,例如绕开笔记本电脑递送杯子、贴近桌面擦拭,以及在远离人类和桌子的前提下递送物品。未来研究团队还计划为系统配备摄像头,进一步增强其对真实环境的感知与理解能力。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:大语言模型帮助机器人理解模糊指令并聚焦关键细节要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点SummarAIze是一个基于人工智能的内容转化引擎,可将播客、网络研讨会等音频视频转化为社交帖子、电子邮件、摘要、金句等可复用素材。提供音频转文本、视频转文本、内容再利用等功能,上传文件并配置相关信息后即可自动生成新内容,大幅提升传播力。
心辰Lingo是国内首个端到端语音大模型,具备实时打断、超级拟人、情绪感知能力。它集成语音识别、自然语言处理、语音合成等流程,可应用于具身智能、心理疗愈、客户服务、儿童教育及记忆存档等场景。
Shownotes是一个AI平台,可将YouTube自动字幕转换为播客说明文档,生成含摘要和精彩引用的登陆页面、时间标记字幕文件及完整转录文本。支持YouTube、音频文件和Apple播客链接,还提供即刻摘要与ChatGPT集成功能。
Unsummary是一款AI摘要生成工具,覆盖4000万本书籍、63万部电影、23万部电视节目、400万个播客及120万个人物资料。输入名称或关键词,几秒内即可获得结构清晰的摘要,支持长文本提炼,显著提升信息筛选效率。
- 日榜
- 周榜
- 月榜
热点快看
