机器人技术何时迎来ChatGPT式革命性突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

机器人技术何时迎来ChatGPT式革命性突破

热心网友时间：2026-05-21

转载

未来几十年，数十亿台自主运行的AI驱动机器人将与人类并肩工作——在工厂生产线上协作、在仓库执行重复性任务、照护老年人、在危险灾区提供援助、将包裹和食物送到家门口，最终还会进入我们的家庭提供帮助。有些机器人会像人类一样，但更多不会。可以确定的是，无论外形如何，机器人都将严重依赖AI才能创造真实世界的价值。

机器人会迎来ChatGPT式突破吗？

2025年，机器人公司的总投资达到了创纪录的407亿美元，占所有风险投资的9%。于是，一个价值数十亿美元的问题浮出水面：AI驱动的机器人要产生严肃的经济影响，究竟需要什么条件？如今，许多机器人和AI公司都在做出大胆的宣称，比如人形机器人很快就会进入千家万户。然而，承诺与现实之间，依然横亘着巨大的鸿沟。

与我们共同生活和工作的机器人，其承诺长期以来一直是科幻小说的素材。虽然无数程序员试图将这一愿景变为现实，但物理世界对于传统计算机程序来说，其呈现的无尽复杂性实在太过复杂，难以处理。得益于AI，机器人不再仅仅被编程——它们开始学习在真实世界中运作。通过足够的练习，它们能够学会感知和理解周围环境，对世界进行推理，并利用这种推理和理解来执行有用、可靠且安全的任务。

过去十年，我们一直工作在AI和机器人领域的前沿。我们在真实世界环境中部署AI驱动机器人的经验，让我们对AI在复杂机器人系统中的近期应用有了独特的视角，也清楚地知道哪些领域仍停留在科幻前沿。可以明确的是，AI必将推动机器人技术迎来拐点，但这将是通过精心设计的不同AI工具协调系统来实现，而非依赖单一的、类似ChatGPT式的突破。

当围绕AI的兴奋与对其可能性的不确定性并存时，以下是定义机器人AI发展的五个严峻现实。

不要相信YouTube上的机器人视频

多年来，YouTube上充斥着人形机器人在舞池或障碍赛道上表演惊人动作的视频。然而，机器人领域内部流传着一句箴言：“永远不要相信YouTube机器人视频”。能够在非结构化人类环境中执行真实工作的机器人，与那些经过精心编排和剪辑的表演之间，存在着显著的差距。

最近引起广泛关注的，是2026年中国春节联欢晚会上，Unitree人形机器人与儿童一同表演的武术节目。虽然场面令人印象深刻，但这本质上属于严格编排的机器人表演的长期传统，一切动作都经过精心设计和提前规划。其低级控制、同步和编排技术固然令人惊叹，但春晚机器人所展示的自主性和智能水平，更接近于工厂里制造汽车的工业机器人，而非很快会出现在你家客厅的通用助手。

这类演示自然引发了关于机器人技术真实水平的问题：如果机器人能表演功夫、后空翻和跳舞，为什么它们还没能大规模进入工厂车间？为什么它们还不能在晚餐后帮忙洗碗？简单的答案是：让AI驱动的机器人在多样化的人类环境中执行通用任务，仍然极其困难。春节联欢晚会这类技术壮举或许让我们感觉离目标很近，但其中AI的应用大多仅限于低级运动控制（比如防止摔倒），这只是解决机器人在人类真实、非结构化空间中实现通用目的所需的一小部分难题。

机器人不会有ChatGPT时刻

像OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型，最初是在互联网规模的文本数据库上训练的。2022年底，世界仿佛一觉醒来，发现AI突然能够用散文或诗歌与我们“交谈”，并且几乎可以讨论任何话题。大语言模型已被证明具有良好的泛化能力，现在还能接受多模态输入（文本、图像、视频）并产生多模态输出。关键在于，其训练数据语料库既庞大又由人类生成，这些特征构成了AI训练的黄金标准。

然而，给AI一个身体（以机器人的形式），使其能够在物理世界中与人互动，仍然是一个非常困难且远未解决的问题。通用机器人的AI模型必须同时满足多个常常相互冲突的物理、几何和时间限制，同时还要在非结构化、动态的环境中运行。为了实现泛化，机器人模型需要在高维配置空间中收集的数据上进行训练。这里的“维度”代表文本、光照条件、自由度、关节限制、速度、力和安全边界等等。更重要的是，这必须是“好”数据——它必须包含来自物理世界中无限可能配置的众多示例。

由于这类现成的数据源非常稀缺，远程操作、视频分析、人类动作捕捉以及在模拟和真实世界中的自我探索等方法，都被视为收集数据的重要途径。这是一项艰巨的任务。以Google X的Everyday Robots项目为例，在2022年，他们运行了2.4亿个机器人实例来收集训练数据，而这主要用于训练一个垃圾分类模型。每项技能都需要类似规模的数据才能达到相近的能力水平，而这还远未达到人类水平。

通用机器人需要智能体AI

我们距离单一AI模型就能让通用机器人与我们共同生活和工作的时刻，还很遥远。

通用机器人可以有轮子或腿，可以有一到多个手臂。有些依靠螺旋桨飞行，有些则设计用于水下作业，还有些会在繁忙的道路上行驶。物理世界无限多样且复杂，更不用说所有将围绕在机器人周围的人类和其他生物了。如何训练一个模型在所有环境中都安全可靠地操作机器人？简单的答案是：做不到。至少在相当长的一段时间内做不到。

引领通用机器人下一个重大突破的获胜AI架构，很可能是机器人的“智能体AI”。这是一种能够推理、规划、使用工具并从结果中学习的高级协调模型，可以在有限的监督下执行复杂任务。在机器人上运行的智能体高级模型，将为不同类型的任务调用专门的子系统。我们可能很快会看到，多个机器人通过其机载的智能体AI模型相互协作与协调。

AI工具正在解锁机器人技术中的新能力，这反过来将催生新的解决方案和市场。令人鼓舞的是，这些新模型正被广泛提供，有些甚至作为开源解决方案。这种可用性让人联想到互联网的发展历程：只有当它变得无处不在时，真正的进步才会发生。随着对这些AI工具和技术的广泛访问，机器人技术中复杂行为的民主化将不可避免。

机器人硬件需要赶上AI软件

机器人是包含众多部件的复杂系统，所有部件都需要以极高的精度协同工作。为了使机器人既实用又安全，它的每个部分都必须协调一致，从感知系统到控制计算机，再到各个执行器。

执行器——即电机和齿轮——是机器人关键部件的一个典型例子，过去的方法已难以满足新需求。大多数工业机器人广泛使用的执行器，并不适用于在人类环境中运行的机器人。如果这些机器人意外与障碍物碰撞，产生的冲击会非常剧烈，力很大，容易造成损坏。但人类并非以这种方式移动。我们与世界互动的方式更加柔顺，我们不断与环境接触，并利用这种接触来辅助完成任务。

想想将钥匙插入锁中的挑战：人类通常不是通过将钥匙与钥匙孔完美对齐来完成的。相反，我们会感受钥匙孔的边缘并轻微晃动钥匙。机器人需要能够以新颖的方式操作，这要通过使用对力敏感、能够与环境进行柔顺交互的新型执行器来实现。虽然这类执行器确实存在，但它们尚未普遍应用于设计在人类周围运行机器人系统中。

客户需求推动机器人AI发展

看起来令人印象深刻的任务，与能提供实际价值的真实世界任务之间，存在巨大差异。机器人技术是“莫拉维克悖论”的完美例证：对人类来说困难的任务（如计算大数乘法）对计算机很容易，而对人类来说容易的任务（如幼儿的动作）对计算机和机器人却极其困难。

服务客户是一个无情的现实检验场，因为客户只关心解决他们实际遇到的问题。如果要部署基于AI的机器人解决方案，它们必须在可靠性和安全性指标上优于现有做法。Agility Robotics在客户地点部署人形机器人Digit的早期工作让他们意识到，首要障碍是安全性：在人类空间中平衡和操纵物体的机器人，给工作场所带来了新型风险。在首次人形机器人部署中，甚至需要设置物理屏障。这促使Agility启动了一项长达数年的工程努力来解决安全挑战，涉及机器人设计的几乎每个方面，并严重依赖基于AI的新方法进行人类检测和行为控制。

Everyday Robots项目于2019年在Google办公楼部署了自主工作的机器人，执行清洁咖啡桌和分类垃圾等杂务。他们很快了解到真实世界对机器人来说有多么“混乱”和困难。这一经验不仅为他们的AI系统架构和部署提供了信息，还收集了可以与模拟数据结合、用于训练和改进模型的宝贵真实世界数据。

这种专注于创建满足特定客户需求的产品，并在真实世界环境中反复部署测试的做法，是为近期实用性构建AI工具和基础设施的唯一途径，也是通往长期更广泛能力和通用性的必经之路。不会有“顿悟”时刻，没有一劳永逸的灵丹妙药算法，也没有足够的数据量可以在缺乏广泛真实世界经验的情况下，直接催生出通用机器人。

Q&A

Q1：为什么YouTube上的机器人视频不能代表真实的机器人能力？

A：机器人领域内部有句行话：“永远不要相信YouTube机器人视频”。这些视频中的表演通常是精心编排和剪辑的，一切动作都经过提前规划。虽然视觉效果令人印象深刻，但它们使用的AI大多仅用于维持平衡等低级运动控制。这与能够在非结构化人类环境中自主执行真实、多样化任务的机器人能力相比，仍有显著差距。

Q2：机器人AI为什么不能像ChatGPT那样实现单一突破？

A：赋予AI一个物理身体，使其能在复杂多变的物理世界中安全、可靠地与人互动，是一个远未解决的难题。机器人AI模型必须同时协调处理多个相互冲突的物理、几何和时间约束，并且需要在包含无限现实变量（如光线、纹理、力反馈）的高维配置空间中进行训练，而这类高质量数据源极为稀缺。训练每一项新技能都需要海量数据，因此，期待一个单一的、碘伏性的“ChatGPT时刻”来解决所有机器人问题是不现实的。

Q3：智能体AI在机器人技术中扮演什么角色？

A：智能体AI可以被看作机器人的“高级指挥官”或“决策大脑”。它是一个能够进行推理、规划、调用工具（如下层控制模块、视觉系统）并从执行结果中学习的高级协调模型。在机器人上，智能体AI模型会根据任务类型，灵活调度不同的专用子系统。未来，多个机器人甚至可以通过各自的机载智能体AI进行协作。这种架构被认为是实现通用机器人下一个重大突破的关键路径，它通过分层协调而非单一模型，来应对物理世界的极端复杂性。

来源:https://ai.zhiding.cn/2026/0521/3187688.shtml

上一篇：豆包AI方言功能升级支持4种方言对话与18种方言识别

下一篇： Matternet无人机采用Amprius电池提升配送距离与续航能力