对话孙宇教授解析大语言模型在机器人任务规划中的应用

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

对话孙宇教授解析大语言模型在机器人任务规划中的应用

热心网友时间：2026-05-16

转载

在工业自动化领域，机器人“四大家族”凭借深厚的技术积累早已确立领先地位。然而，当我们将视线转向日常生活，服务型机器人的发展历程则相对短暂，面临的挑战也更为复杂多元。

以烹饪场景为例，厨房作业的复杂性远超结构化工业流水线。火候的精准控制、食材的千变万化，这些高度依赖人类直觉与经验的环节，使得烹饪机器人的研发长期面临瓶颈。但变革正在发生。回顾2022年北京冬奥会，智慧餐厅内的烹饪机器人已能娴熟烹制各类中西菜肴。行业分析数据同样预示强劲增长：预计到2026年，全球烹饪机器人设备市场规模将突破1亿美元，年均复合增长率保持在20%左右。

这一技术突破的背后，大语言模型（LLM）扮演了关键角色。它为人机交互带来了范式革新。随着模型参数、训练数据与算力的大幅提升，大模型不仅提升了自然语言理解与生成能力，更展现出“涌现能力”——包括上下文学习、指令遵循与逻辑推理。这些能力使其成为机器人任务规划研究中一项强大的新工具。

南佛罗里达大学孙宇教授在机器人领域拥有超过二十年研究经验，其领导的机器人感知与行为实验室（RPAL）长期致力于让机器人理解并执行复杂指令。团队早在2015年便开始探索知识图谱在任务规划中的应用。自去年起，他们重点研究将大语言模型集成于烹饪机器人规划系统，相关成果已发表于国际期刊《人工智能与机器人研究》（IJAIRR）。

基于知识网络的机器人任务规划方法

机器人任务规划，本质上是为机器人制定一系列动作序列，使其能在动态环境中安全、高效且准确地完成目标。这需要综合考量机器人本体能力、任务目标与环境约束，例如路径避障、工序优化以及行为可解释性等。

孙宇教授团队的核心基础是一个名为“面向功能对象网络”（FOON）的知识图谱系统。该系统如同机器人的“烹饪大脑”，通过分析网络视频与文本资料，学习并存储各类食材、厨具的功能属性与操作关联。经过人工校验与标注，FOON能提供高可靠性的任务规划。对于已知任务，它能给出完全正确的方案；对于相似任务，也能保证高度可信的结果。

然而，知识库的覆盖范围终究有限。当遇到完全超出FOON知识范畴的创新性任务时，这一封闭系统便可能失效。这正是传统知识网络面临的普遍局限，而大语言模型的出现，为解决该问题提供了新的思路。

如何实现知识库外的创新任务规划？

那么，烹饪机器人该如何完成一项知识库中从未记录的任务？孙宇教授与Sadman Sakib博士的研究提出了创新方案：融合大语言模型的创造性联想与知识网络的结构化可靠性，实现优势互补。

该方法的核心流程如下：当用户输入烹饪指令后，研究团队通过精心构建的提示词，引导GPT-4生成多个不同的高级任务规划方案，并以“任务树”形式呈现。每棵树代表一种可能的执行路径，它们在资源消耗、步骤并行度与操作风险上各有差异。

随后，利用一个“图合并算法”将这些任务树融合为统一网络。通过对比分析，系统会自动剔除不合理部分（如成本过高的步骤），并将筛选后正确、高效的组件重新整合，最终输出一个优化后的解决方案。这一过程显著提升了规划的准确性与执行效率。

当然，机器人无法直接理解高级语义指令。此时，GPT-4还需承担“翻译器”的职责，将自然语言描述的最优计划，转化为用PDDL（规划领域定义语言）描述的低级可执行动作序列，从而将“制作一碗面”这样的抽象指令，分解为“抓取酱油瓶”、“向锅中倒入食用油”等机器人可执行的具体动作。

尤为值得一提的是，该研究还发现了合并任务树的衍生价值。当将多个菜谱对应的任务树合并成一个综合网络时，不同菜系的烹饪步骤与技巧相互交融，竟能衍生出全新的菜品制作流程。这意味着，该系统不仅能够复现经典菜肴，更具备创造新颖菜品的潜力，为烹饪创新提供了技术可能。

大语言模型与知识网络的协同互补

本质上，大语言模型与FOON知识网络形成了完美的能力互补。以GPT-4为代表的大模型，能够从开放互联网中汲取海量信息，生成富有想象力的任务规划，但其输出结果未经严格验证，准确性难以保证。而FOON中的规划树经过人工标注与校验，正确率可达100%，但知识覆盖面有限。

因此，一个高效的协作模式应运而生：首先利用大语言模型生成多个（可能包含错误的）任务树草案；随后借助FOON的结构化知识对其进行合并、验证与修正，剔除错误的功能单元，并以已验证的正确单元替代。从而在拓展创新边界的同时，确保了规划结果的可靠性。

该方法具备良好的泛化性能，其应用价值不仅限于厨房机器人。经过少量适配或无需调整，它即可为多种工作场景下的机器人（如清洁、物流、护理机器人）生成高效任务计划。

当然，挑战依然存在。当前机器人任务规划研究仍需解决执行失败时的自主纠错问题。当规划出现偏差或系统发生故障时，如何让机器人自主调整策略、回归正轨，是下一步的关键研究方向。孙宇教授团队未来将更注重环境反馈机制，尝试让机器人结合视觉传感与大语言模型，实时感知并更新环境状态，从而减少人工干预，实现更高层级的自主智能。

来源:https://www.leiphone.com/category/academic/llbrWzIUVFePw3JO.html

上一篇：国产3D视觉技术如何革新新能源汽车产业

下一篇：专访方昱春教授：数据驱动的手语识别研究如何突破数据瓶颈