数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

大语言模型帮助机器人理解模糊指令并聚焦关键细节

AI热点日报时间：2026-07-04

热点解读

麻省理工学院研究团队提出掩码逆强化学习方法，利用两个大语言模型分别解析模糊指令和筛选关键环境细节，将机器人所需演示数据量减少近五倍，正确识别用户隐含偏好的准确率最高提升15%，使机器人能在家庭、办公室和工厂安全执行复杂任务。

想象一下这个场景：你在仓库或办公室里忙得不可开交，手头任务堆积如山，突然需要指导一位“新员工”熟悉基本操作流程。只不过这位新员工并非人类，而是一台机器人。要让它快速掌握技能，最直观的方式大概是“我做你看，边说边练”——亲自演示几种不同的操作方法，同时口头解释你在做什么。

大语言模型助力机器人理解模糊指令并聚焦关键细节

举个例子，你让机器人把咖啡杯放到桌上，但前提是绝不能打扰你正在进行的视频会议。你希望它尽量远离你和笔记本电脑，以免影响会议进程。要实现这一行为，机器人需要的是能清晰展示完整任务的数据来训练。此前，计算机科学家们探索过两条路径：要么录制大量实物演示，要么撰写一份极其详细的操作说明。可问题在于，这两类数据但凡缺失一项，机器人就很可能无法准确判断自己究竟该做什么。

要求人类同时完成“示范”和“讲解”，实在是既耗费时间又消耗精力。针对这一痛点，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究团队直接实现了机器人教学流程的自动化——不仅能够自动解析操作指令，还将所需的演示数据量缩减了近五倍。他们提出的方法名为“掩码逆强化学习”（Masked IRL），核心思路是：首先利用一个大语言模型，根据用户的演示数据把模糊的提示翻译成更具体的指令；然后让第二个大语言模型从中筛选出那些真正关键的环境细节，供算法在制定运动计划时参考。这样一来，机器人就能在家庭、办公室和工厂等场景中安全地完成任务。

“人与机器人交互时，用户肯定不希望把每一步的细节都交代得清清楚楚，这时我们的方法就能发挥作用，”麻省理工学院博士生、CSAIL研究员、论文第一作者黄敏英（Minyoung Hwang）表示，“目标就是让机器人真正理解用户的意图，尽可能降低人类的操作负担。”
黄敏英指出，Masked IRL能帮助机器人在复杂环境中实现安全移动——这类环境里总是存在一些人类在操作提示中根本不会主动提及、但至关重要的元素。比如，机器人去厨房拿零食，可能不知道要避开你的笔记本电脑；工厂机器人在往不同箱子里投放物品时，也必须小心绕开货架。

学习新任务时，Masked IRL会通过机器人的传感器采集周围环境信息，同时记录运动示教过程中的每一个动作。所谓运动示教，就是由人类亲手引导机器人执行操作，类似于给机器人做“物理治疗”——弯曲关节，示范如何抓取、拿取和放置。

接着，麻省理工的系统会调用一个大语言模型，将这一连串动作（即运动轨迹）与最短路径进行对比，同时对提示中模糊的部分加以解读。像“保持靠近”这种笼统的请求，会被转化为更明确的表述，例如“保持靠近桌面”。借助轨迹比较和明确后的指令，大语言模型就能逐步理解哪些训练动作对完成任务具有实际意义。

第二个大语言模型则负责评估环境细节——比如障碍物的位置、目标物体的形状。在此过程中，它会判断哪些元素与当前任务无关，然后进行“掩码”处理（即直接忽略），并为每个元素打分：“1”代表重要，“0”代表不重要。举个例子，用户演示时是否靠在桌子上，这类信息会被标记为“0”；而所有被评为“1”的细节，都会被算法纳入最终的行动计划。

这种掩码机制让Masked IRL在三维仿真环境和真实场景演示中，表现都优于同类基线方法——因为它教会了机器人哪些值得关注、哪些可以忽略。借助这套系统，虚拟和真实的机器人都能灵活地绕过障碍物移动物体，例如避开笔记本电脑，将咖啡杯放到桌上的不同位置。在这些任务中，Masked IRL正确识别用户未在提示中明确表达的偏好的准确率，比同类基线方法最高提升了15%。

在仿真实验中，CSAIL的研究人员还发现Masked IRL的学习效率更高。相比基线方法，它只需要更少的演示次数就能学会如何移动马克杯。而且，当大语言模型负责厘清指令时，机器人的表现远优于直接跟随模糊指令行动。

这种更具聚焦性的方法同样适用于真实的机械臂——能够执行系统在训练阶段从未见过的指令。经过50次运动示教训练之后，机器人可以小心地端着杯子递向人类，同时避免碰到用户的电脑。这个需要回避的障碍，正是系统通过解析“保持距离”这一笼统请求学到的。此外，机器人还能在“保持贴近”桌面的前提下完成擦拭任务，以及在同时“远离”人类和桌子的条件下，把一袋薯片递给用户。

Masked IRL能够感知并解读用户未说出口的意图。在不久的将来，它还将具备“视觉感知”能力。CSAIL的研究团队计划为系统安装摄像头，让机器人拍摄周围环境的图像，进而识别并聚焦于附近的特定元素。举例来说，当你说“捡起那个玩具”时，它可能会先看到旁边的香蕉，但在抓取目标之前，会自动忽略香蕉。

这篇论文由黄敏英与三位CSAIL同事共同撰写，包括博士生亚历山德拉·福西-斯梅雷克（Alexandra Forsey-Smerek，学士2020届、硕士2022届）、博士后纳撒尼尔·丹勒（Nathaniel Dennler），以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布（Andreea Bobu）。该研究获得了塔塔集团通过麻省理工学院生成式AI影响力联盟奖以及美国国防部的部分资助。研究团队将于今年6月在2026年IEEE国际机器人与自动化大会上正式公布这一成果。

Q&A

Q1：Masked IRL技术是什么？它如何帮助机器人理解指令？

A：Masked IRL（掩码逆强化学习）是麻省理工学院CSAIL研究团队开发的一套机器人教学方法。它利用大语言模型对用户模糊的操作提示进行扩展解读，同时通过第二个大语言模型对环境细节进行重要性评分，忽略无关信息，聚焦关键要素，从而帮助机器人准确理解用户真实意图，并生成合理的运动计划。

Q2：Masked IRL相比传统机器人训练方法有哪些优势？

A：相比传统方法，Masked IRL主要有两大优势：一是大幅减少了所需的演示数据量，训练效率提升近五倍；二是通过大语言模型自动厘清模糊指令，避免了机器人因指令不清而产生误解。此外，该方法正确识别用户隐含偏好的准确率比同类基线方法最高提升15%。

Q3：Masked IRL目前能在真实场景中应用吗？

A：可以。研究人员已在真实机械臂上验证了Masked IRL的实际效果。经过50次运动示教训练后，机器人能够完成多项现实任务，例如绕开笔记本电脑递送杯子、贴近桌面擦拭，以及在远离人类和桌子的前提下递送物品未来-研究团队还计0.2pt>，运用 Masked IRL 的系统还将配备摄像头，进一步增强其对真实环境的感知与理解能力

想象一下这个场场景—样，你就会发现，当你需要在仓库或办公室中途停下手中的一堆事务去帮一位“新员工熟悉基本操作时，这位新员工并非人类，而是一台机器人。要教会它，最自然的方式就是“我做你看，边说边练”——亲自演示几种不同的做法，同时口头解释你在做什么。

大语言模型助力机器人理解模糊指令并聚焦关键细节

打个比方，你让机器人把咖啡放到桌上，但前提是不能影响你正在进行的视频会议。你希望它尽可能远离你和笔记本电脑，以免干扰会议。要实现这个行为，机器人需要的是能清晰展示完整任务的数据来训练。过去，计算机科学家们尝试过两条路：要么录下大量实物演示，要么撰写一份极其详细的操作说明。然而问题是，这两样东西只要缺少一样，机器人很可能就搞不清楚自己到底该干什么。

对人类来说，同时完成“示范”和“讲解”这两件事既费时又费力。针对这一痛点，麻省理工学院计算机科学与人工智能实验室（CSAIL）的研究团队，直接将机器人教学流程自动化——既能自动理解操作指令，又能把所需的演示数据量缩减近五倍。他们提出的方法名为“掩码逆强化学习”（Masked IRL），核心思路是：先用一个大语言模型，根据用户的演示数据，将模糊的提示转化为更具体的指令；再让第二个大语言模型从中筛选出那些真正关键的环境细节，供算法在制定运动计划时参考。这样一来，机器人就能在家庭、办公室和工厂中更安全地完成任务。

“人跟机器人交互的时候，肯定不想把每个步骤的细节都掰扯清楚，这时候我们的方法就派上用场了，”麻省理工博士生、CSAIL研究员、论文第一作者黄敏英（Minyoung Hwang）指出，“目标是让机器人真正弄懂用户的意图，把人类的操作负担降到最低。”
黄敏英补充道，Masked IRL能帮助机器人在复杂环境中安全移动——这种环境里，总有一些人类在操作提示中根本不会主动提、但至关重要的东西。比如，机器人去厨房拿零食，可能不知道要躲开你的笔记本电脑；工厂机器人在往不同箱子里放物品时，也必须小心绕开货架。

学习新任务的时候，Masked IRL会通过机器人的传感器采集周围环境信息，同时记录运动示教过程中每一个动作。所谓运动示教，就是由人类亲手引导机器人执行动作，有点像给机器人做“物理治疗”——弯弯关节，示范怎么抓、怎么拿、怎么放。

接着，麻省理工的系统会调用一个大语言模型，把这一连串动作（也就是运动轨迹）与最短路径做个比较，同时对提示里模糊的地方展开解读。像“保持靠近”这种笼统请求，会被翻译成更明确的表述，比如“保持靠近桌面”。借助轨迹比较和明确后的指令，大语言模型就开始理解哪些训练动作对完成任务是真正有意义的。

第二个大语言模型则负责评估环境细节——比如障碍物的位置、目标物体的形状。在这个过程中，它会判定哪些元素与当前任务无关，然后进行“掩码”处理（直接忽略），并为每个元素打分：“1”代表重要，“0”代表不重要。比方说，用户在演示时是不是靠在桌子上，这类信息会被标成“0”；而所有被评为“1”的细节，都会被算法纳入最终的行动计划。

这个掩码机制让Masked IRL在三维仿真和真实场景演示里，表现都优于同类基线方法——因为它教会了机器人什么值得关注，什么可以忽略。借助这套系统，虚拟和真实的机器人都能灵活地绕过障碍物移动物体，比如绕过笔记本电脑，把咖啡杯放到桌上的不同位置。在这些任务中，Masked IRL正确识别用户未在提示中明确表达的偏好的准确率，比同类基线方法最高提升了15%。

仿真实验中，CSAIL的研究人员还发现Masked IRL的学习效率更高。与基线方法相比，它只需要更少的演示次数就能学会如何移动马克杯。而且，当大语言模型负责厘清指令时，机器人表现得比直接跟着模糊指令走要好得多。

这种更聚焦的方法同样适用于真实的机械臂——能执行系统在训练阶段从没见过的指令。经过50次运动示教训练之后，机器人可以小心地端着杯子递向人类，同时避免碰到用户的电脑。这个需要回避的障碍，正是系统通过解析“保持距离”这个笼统请求学到的。此外，机器人还能在“保持贴近”桌面的前提下完成擦桌任务，以及在同时“远离”人类和桌子的条件下，把一袋薯片递给用户。

Masked IRL能感知并解读用户没说出口的意图。在不久的将来，它还能拥有“视觉感知”能力。CSAIL的研究团队计划给系统装上摄像头，让机器人拍下周围环境的图像，进而识别并聚焦于附近的特定元素。举个例子，当你说“捡起那个玩具”时，它可能会先看到旁边的香蕉，但在抓取目标之前，会自动将香蕉忽略掉。

这篇论文由黄敏英与三位CSAIL同事共同撰写，包括博士生亚历山德拉·福西-斯梅雷克（Alexandra Forsey-Smerek，学士2020届、硕士2022届）、博士后纳撒尼尔·丹勒（Nathaniel Dennler），以及麻省理工学院助理教授、航空航天系暨CSAIL成员安德烈亚·博布（Andreea Bobu）。该研究得到了塔塔集团通过麻省理工学院生成式AI影响力联盟奖及美国国防部的部分资助。研究团队将于今年6月在2026年IEEE国际机器人与自动化大会上正式发表这一成果。

Q&A

Q1：Masked IRL技术是什么？它如何帮助机器人理解指令？

Q2：Masked IRL相比传统机器人训练方法有哪些优势？

Q3：Masked IRL目前能在真实场景中应用吗？

A：可以。研究人员已在真实机械臂上验证了Masked IRL的实际效果。经过50次运动示教训练后，机器人能够完成多项现实任务，例如绕开笔记本电脑递送杯子、贴近桌面擦拭，以及在远离人类和桌子的前提下递送物品。未来研究团队还计划为系统配备摄像头，进一步增强其对真实环境的感知与理解能力。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：
热点：大语言模型帮助机器人理解模糊指令并聚焦关键细节要求：
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题

来源：https://ai.zhiding.cn/2026/0703/3192400.shtml

语言模型

上一篇：微软投170亿组建6000人AI专家团推进企业AI落地

下一篇：麻省理工新芯片让微型机器人穿越复杂环境

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。