机器人技术何时迎来ChatGPT式革命性突破
未来几十年,数十亿台自主运行的AI驱动机器人将与人类并肩工作——在工厂生产线上协作、在仓库执行重复性任务、照护老年人、在危险灾区提供援助、将包裹和食物送到家门口,最终还会进入我们的家庭提供帮助。有些机器人会像人类一样,但更多不会。可以确定的是,无论外形如何,机器人都将严重依赖AI才能创造真实世界的价值。

2025年,机器人公司的总投资达到了创纪录的407亿美元,占所有风险投资的9%。于是,一个价值数十亿美元的问题浮出水面:AI驱动的机器人要产生严肃的经济影响,究竟需要什么条件?如今,许多机器人和AI公司都在做出大胆的宣称,比如人形机器人很快就会进入千家万户。然而,承诺与现实之间,依然横亘着巨大的鸿沟。
与我们共同生活和工作的机器人,其承诺长期以来一直是科幻小说的素材。虽然无数程序员试图将这一愿景变为现实,但物理世界对于传统计算机程序来说,其呈现的无尽复杂性实在太过复杂,难以处理。得益于AI,机器人不再仅仅被编程——它们开始学习在真实世界中运作。通过足够的练习,它们能够学会感知和理解周围环境,对世界进行推理,并利用这种推理和理解来执行有用、可靠且安全的任务。
过去十年,我们一直工作在AI和机器人领域的前沿。我们在真实世界环境中部署AI驱动机器人的经验,让我们对AI在复杂机器人系统中的近期应用有了独特的视角,也清楚地知道哪些领域仍停留在科幻前沿。可以明确的是,AI必将推动机器人技术迎来拐点,但这将是通过精心设计的不同AI工具协调系统来实现,而非依赖单一的、类似ChatGPT式的突破。
当围绕AI的兴奋与对其可能性的不确定性并存时,以下是定义机器人AI发展的五个严峻现实。
不要相信YouTube上的机器人视频
多年来,YouTube上充斥着人形机器人在舞池或障碍赛道上表演惊人动作的视频。然而,机器人领域内部流传着一句箴言:“永远不要相信YouTube机器人视频”。能够在非结构化人类环境中执行真实工作的机器人,与那些经过精心编排和剪辑的表演之间,存在着显著的差距。
最近引起广泛关注的,是2026年中国春节联欢晚会上,Unitree人形机器人与儿童一同表演的武术节目。虽然场面令人印象深刻,但这本质上属于严格编排的机器人表演的长期传统,一切动作都经过精心设计和提前规划。其低级控制、同步和编排技术固然令人惊叹,但春晚机器人所展示的自主性和智能水平,更接近于工厂里制造汽车的工业机器人,而非很快会出现在你家客厅的通用助手。
这类演示自然引发了关于机器人技术真实水平的问题:如果机器人能表演功夫、后空翻和跳舞,为什么它们还没能大规模进入工厂车间?为什么它们还不能在晚餐后帮忙洗碗?简单的答案是:让AI驱动的机器人在多样化的人类环境中执行通用任务,仍然极其困难。春节联欢晚会这类技术壮举或许让我们感觉离目标很近,但其中AI的应用大多仅限于低级运动控制(比如防止摔倒),这只是解决机器人在人类真实、非结构化空间中实现通用目的所需的一小部分难题。
机器人不会有ChatGPT时刻
像OpenAI的ChatGPT和Anthropic的Claude这样的大语言模型,最初是在互联网规模的文本数据库上训练的。2022年底,世界仿佛一觉醒来,发现AI突然能够用散文或诗歌与我们“交谈”,并且几乎可以讨论任何话题。大语言模型已被证明具有良好的泛化能力,现在还能接受多模态输入(文本、图像、视频)并产生多模态输出。关键在于,其训练数据语料库既庞大又由人类生成,这些特征构成了AI训练的黄金标准。
然而,给AI一个身体(以机器人的形式),使其能够在物理世界中与人互动,仍然是一个非常困难且远未解决的问题。通用机器人的AI模型必须同时满足多个常常相互冲突的物理、几何和时间限制,同时还要在非结构化、动态的环境中运行。为了实现泛化,机器人模型需要在高维配置空间中收集的数据上进行训练。这里的“维度”代表文本、光照条件、自由度、关节限制、速度、力和安全边界等等。更重要的是,这必须是“好”数据——它必须包含来自物理世界中无限可能配置的众多示例。
由于这类现成的数据源非常稀缺,远程操作、视频分析、人类动作捕捉以及在模拟和真实世界中的自我探索等方法,都被视为收集数据的重要途径。这是一项艰巨的任务。以Google X的Everyday Robots项目为例,在2022年,他们运行了2.4亿个机器人实例来收集训练数据,而这主要用于训练一个垃圾分类模型。每项技能都需要类似规模的数据才能达到相近的能力水平,而这还远未达到人类水平。
通用机器人需要智能体AI
我们距离单一AI模型就能让通用机器人与我们共同生活和工作的时刻,还很遥远。
通用机器人可以有轮子或腿,可以有一到多个手臂。有些依靠螺旋桨飞行,有些则设计用于水下作业,还有些会在繁忙的道路上行驶。物理世界无限多样且复杂,更不用说所有将围绕在机器人周围的人类和其他生物了。如何训练一个模型在所有环境中都安全可靠地操作机器人?简单的答案是:做不到。至少在相当长的一段时间内做不到。
引领通用机器人下一个重大突破的获胜AI架构,很可能是机器人的“智能体AI”。这是一种能够推理、规划、使用工具并从结果中学习的高级协调模型,可以在有限的监督下执行复杂任务。在机器人上运行的智能体高级模型,将为不同类型的任务调用专门的子系统。我们可能很快会看到,多个机器人通过其机载的智能体AI模型相互协作与协调。
AI工具正在解锁机器人技术中的新能力,这反过来将催生新的解决方案和市场。令人鼓舞的是,这些新模型正被广泛提供,有些甚至作为开源解决方案。这种可用性让人联想到互联网的发展历程:只有当它变得无处不在时,真正的进步才会发生。随着对这些AI工具和技术的广泛访问,机器人技术中复杂行为的民主化将不可避免。
机器人硬件需要赶上AI软件
机器人是包含众多部件的复杂系统,所有部件都需要以极高的精度协同工作。为了使机器人既实用又安全,它的每个部分都必须协调一致,从感知系统到控制计算机,再到各个执行器。
执行器——即电机和齿轮——是机器人关键部件的一个典型例子,过去的方法已难以满足新需求。大多数工业机器人广泛使用的执行器,并不适用于在人类环境中运行的机器人。如果这些机器人意外与障碍物碰撞,产生的冲击会非常剧烈,力很大,容易造成损坏。但人类并非以这种方式移动。我们与世界互动的方式更加柔顺,我们不断与环境接触,并利用这种接触来辅助完成任务。
想想将钥匙插入锁中的挑战:人类通常不是通过将钥匙与钥匙孔完美对齐来完成的。相反,我们会感受钥匙孔的边缘并轻微晃动钥匙。机器人需要能够以新颖的方式操作,这要通过使用对力敏感、能够与环境进行柔顺交互的新型执行器来实现。虽然这类执行器确实存在,但它们尚未普遍应用于设计在人类周围运行机器人系统中。
客户需求推动机器人AI发展
看起来令人印象深刻的任务,与能提供实际价值的真实世界任务之间,存在巨大差异。机器人技术是“莫拉维克悖论”的完美例证:对人类来说困难的任务(如计算大数乘法)对计算机很容易,而对人类来说容易的任务(如幼儿的动作)对计算机和机器人却极其困难。
服务客户是一个无情的现实检验场,因为客户只关心解决他们实际遇到的问题。如果要部署基于AI的机器人解决方案,它们必须在可靠性和安全性指标上优于现有做法。Agility Robotics在客户地点部署人形机器人Digit的早期工作让他们意识到,首要障碍是安全性:在人类空间中平衡和操纵物体的机器人,给工作场所带来了新型风险。在首次人形机器人部署中,甚至需要设置物理屏障。这促使Agility启动了一项长达数年的工程努力来解决安全挑战,涉及机器人设计的几乎每个方面,并严重依赖基于AI的新方法进行人类检测和行为控制。
Everyday Robots项目于2019年在Google办公楼部署了自主工作的机器人,执行清洁咖啡桌和分类垃圾等杂务。他们很快了解到真实世界对机器人来说有多么“混乱”和困难。这一经验不仅为他们的AI系统架构和部署提供了信息,还收集了可以与模拟数据结合、用于训练和改进模型的宝贵真实世界数据。
这种专注于创建满足特定客户需求的产品,并在真实世界环境中反复部署测试的做法,是为近期实用性构建AI工具和基础设施的唯一途径,也是通往长期更广泛能力和通用性的必经之路。不会有“顿悟”时刻,没有一劳永逸的灵丹妙药算法,也没有足够的数据量可以在缺乏广泛真实世界经验的情况下,直接催生出通用机器人。
Q&A
Q1:为什么YouTube上的机器人视频不能代表真实的机器人能力?
A:机器人领域内部有句行话:“永远不要相信YouTube机器人视频”。这些视频中的表演通常是精心编排和剪辑的,一切动作都经过提前规划。虽然视觉效果令人印象深刻,但它们使用的AI大多仅用于维持平衡等低级运动控制。这与能够在非结构化人类环境中自主执行真实、多样化任务的机器人能力相比,仍有显著差距。
Q2:机器人AI为什么不能像ChatGPT那样实现单一突破?
A:赋予AI一个物理身体,使其能在复杂多变的物理世界中安全、可靠地与人互动,是一个远未解决的难题。机器人AI模型必须同时协调处理多个相互冲突的物理、几何和时间约束,并且需要在包含无限现实变量(如光线、纹理、力反馈)的高维配置空间中进行训练,而这类高质量数据源极为稀缺。训练每一项新技能都需要海量数据,因此,期待一个单一的、碘伏性的“ChatGPT时刻”来解决所有机器人问题是不现实的。
Q3:智能体AI在机器人技术中扮演什么角色?
A:智能体AI可以被看作机器人的“高级指挥官”或“决策大脑”。它是一个能够进行推理、规划、调用工具(如下层控制模块、视觉系统)并从执行结果中学习的高级协调模型。在机器人上,智能体AI模型会根据任务类型,灵活调度不同的专用子系统。未来,多个机器人甚至可以通过各自的机载智能体AI进行协作。这种架构被认为是实现通用机器人下一个重大突破的关键路径,它通过分层协调而非单一模型,来应对物理世界的极端复杂性。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
超自动化如何提升企业核心竞争力与长期价值
超自动化(Hyperautomation)早已不是科技媒体上的概念热词,它正实实在在地成为驱动企业变革的核心引擎。简单来说,它不是一个单一工具,而是一套将RPA(机器人流程自动化)、AI、OCR乃至大语言模型等前沿技术深度融合的业务框架。那么,这套框架究竟能为企业带来哪些难以被复制的长期价值?今天,
智谱AI与清华联合推出下一代大模型推理架构ZCube
在大模型推理集群的部署中,网络架构常常成为那个“看不见的瓶颈”。尤其是当计算与存储分离(PD分离)成为主流选择后,跨节点传输KV Cache所产生的动态、不对称流量,很容易在传统的Clos网络结构中形成局部热点,引发拥塞和性能抖动。有没有一种方法,能从网络拓扑的根源上解决这个问题?最近,由智谱AI、
谷歌核心业务面临哪些关键挑战
2026年的Google I O大会,舆论场上的叙事出奇一致:“量大管饱”、“Agent帝国”、“操作系统级胜利”。 但如果你愿意多追问一句:当一家公司把什么都做成“系统”的时候,它的命门是不是也同时藏在了这套系统里? 那么,我们不妨顺着这个思路往下看。 速度换时间,却换不来护城河 这场发布会最抢眼
前端频繁改版致自动化失效?智能体架构实现前后端彻底解耦
在RPA开发和自动化测试的日常工作中,有一个令人头疼的高频问题:原本顺畅运行的业务流程突然中断报错。检查日志后,我们常常会发现类似下面的典型错误信息: [Error] ElementNotFoundException: Message: no such element: Unable to loca
乐聚机器人冲刺上市 打折策略跻身行业前四
短短两天,两家头部具身智能公司接连公开招股书。上市热潮涌动之下,这个行业最真实的一面,也前所未有地清晰呈现在市场面前。 5月19日,深交所受理了乐聚(深圳)智能股份有限公司的创业板IPO申请。值得注意的是,这是首家选择使用创业板第四套上市标准的企业。这套标准对市值和营收增长有明确要求,乐聚的入场,本
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

