伯克利罗剑岚谈机器人革命：真实世界中的范式突破

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

伯克利罗剑岚谈机器人革命：真实世界中的范式突破

热心网友时间：2026-05-16

转载

近日，伯克利大学Sergey Levine团队的一项强化学习新工作，在具身智能圈子里激起了不小的波澜。这项名为HIL-SERL的研究，似乎正在打破一个长久以来的成见：强化学习（RL）只能活在仿真环境里。

根据公布的实验结果，基于这套框架，研究者可以直接在现实世界中，训练出基于视觉的通用机器人操作策略。更令人印象深刻的是效率：机器人仅需经过1到2.5小时的训练，就能娴熟地完成主板组装、仪表盘操作乃至正时皮带安装这类精密任务。成功率？清一色的100%。

从组装家具、颠勺煎蛋，到鞭打积木、插入U盘，这些任务对机器人而言已不在话下。即便过程中施加人为干扰，机器人依然能稳定、灵活地调整并最终完成任务。这无疑给“强化学习难以落地现实世界”的论调，来了一次有力的回应。

过去，强化学习常因样本效率低、仿真与现实差距大而被诟病，许多研究者认为它无法解决真机上的复杂问题。但SERL系列的工作证明，真机RL并非空中楼阁。它不仅能在现实世界中应用，而且在灵巧操作任务上表现卓越，其性能甚至大幅超越了模仿学习方法，平均节拍快了1.8倍。可以说，这是真机RL机器人领域一个具有标志性意义的进展。而推动这一进展的核心人物，是中国青年科学家、伯克利在读博士后罗剑岚。

今年年初，罗剑岚团队提出的高效机器人强化学习套件SERL，已经能让机器人在20分钟内学会装配电路板，成功率同样达到100%。最新的HIL-SERL是其升级版，关键区别在于引入了人类的“纠正”机制。SERL仅依赖人类示范，而HIL-SERL则结合了人类的示范和实时纠正来训练策略。这一看似微小的调整，对于让智能体从错误中学习、提升在陌生任务上的性能至关重要。HIL-SERL更是瞄准了双臂协调、动态操作等相对更困难的任务范畴。

成果的效果超出了罗剑岚与其导师Sergey Levine的预期。看到实验结果后，Sergey对罗剑岚说的第一句话是：“You really made RL work.”（你真的让强化学习跑起来了。）

回溯罗剑岚的科研路径，他在机器人真机RL方向上的坚持已近十年。2015年，他进入伯克利机械工程系攻读机器人控制博士学位，同时开始在Pieter Abbeel指导下探索Robotics与AI的结合。从博士二年级的第一个强化学习项目起，他的目标就非常明确：让强化学习在真实世界中落地。

这期间，强化学习领域经历了从AlphaGo带来的热潮到逐渐遇冷，甚至被部分行业声音唱衰的过程。但罗剑岚始终相信，攻克机器人的真机RL是一个长期命题，一旦突破，将对机器人学习产生范式级的变革。2020年博士毕业后，他加入谷歌，在DeepMind、Everyday Robot等多个部门工作，系统学习了从底层动力学到上层控制的机器人全栈知识，并持续探索与强化学习的结合。

2022年，随着参与的项目孵化为工业机器人公司Intrinsic，罗剑岚选择重返伯克利，加入Sergey Levine团队从事博士后研究。SERL系列成果，正是他多年来在真机RL道路上探索所结出的最具突破性的果实。

重返学术

在伯克利机械系读博期间，罗剑岚是如何切入深度强化学习领域的？他回忆道，机械系的控制方向与强化学习存在天然的对偶关系，例如控制论中的HJB方程与强化学习中的Bellman备份，原理都是动态规划。这种跨领域的视角，反而让他能更全面地看待问题。

真正的转折点发生在2017年暑假。当时他在西门子伯克利分部参与了一个项目，尝试将深度强化学习应用于工业生产，解决传统机器人难以完成的高精度装配任务。具体任务是操作3D打印的齿轮，将其安装到一个可活动的机械装置上。这要求算法不仅能规划，还需实时响应外部变化。这个项目成为他在强化学习领域的起点，也开启了他与Pieter Abbeel、Sergey Levine的合作。

博士毕业后在谷歌的两年工业界经历，为何又促使他重返学术界？罗剑岚坦言这有一定偶然性。在谷歌期间，他积累了扎实的机器人系统知识，参与的项目专注于将AI应用于提升工业生产力。当项目孵化为Intrinsic后，他萌生了回国寻找教职的想法，计划先做一段兼职博士后作为过渡，于是联系了当时也在谷歌兼职的Sergey Levine。

当时的合作非常高效。Sergey团队训练机器人完成简单操作需要数十小时，而罗剑岚的工作在插拔等精密工业任务上达到了100%成功率，且耗时极短。这让他们意识到，团队需要既懂机器人系统又精通学习算法的人才。Sergey热情邀请他全职加入团队进行两年博士后研究，双方能力互补且合作愉快，罗剑岚便接受了邀请。

回到伯克利后，罗剑岚还深度参与了Open X-Embodiment数据集的创建。这个最初不足10人的探索项目，由伯克利、斯坦福与谷歌合作发起。罗剑岚负责其中主要的线缆任务（Cable Routing）。在验证可行性后，团队决定扩大规模，联合学术界与产业界的力量，最终汇集了超过200位合作者，旨在改变以往机器人数据集分散的局面。

在发布HIL-SERL之前，团队于今年2月率先推出了SERL。这个想法的诞生，源于一个清晰的痛点：强化学习虽然潜力巨大，但门槛高、流程易出错且不稳定，导致许多人放弃了在真实世界训练策略的尝试。因此，罗剑岚萌生了一个想法：为社区提供一个开源、端到端的解决方案，包含强化学习环境和机器人控制器，让研究者能像使用仿真器训练机器狗一样，便捷地应用于真机训练。

此前在谷歌的工作，以及2022年与Sergey的合作，为SERL奠定了基础。2023年6月，罗剑岚带领团队，联合斯坦福、华盛顿大学、谷歌等机构，正式推进SERL项目，并进一步完善了先前的工作。SERL首次实现了仅通过真实世界视觉信息，在20分钟内完成精密装配策略的学习。在PCB板组装、电缆布线等复杂任务中，每个策略平均训练25到50分钟，成功率接近完美，且在受干扰时表现出优异的鲁棒性和自校正能力。

整个研究过程充满探索性。团队在实验中发现了几个关键设计点，使得整个系统性能出现飞跃，连他们自己都感到惊讶。SERL发布后，迅速被北京大学、波士顿动力AI研究院、谷歌等海内外机构采纳使用。

现实世界的拥护者

罗剑岚无疑是现实世界与真实数据的坚定拥护者。早在2017年，当大多数强化学习研究还集中在MuJoCo等仿真环境中刷榜时，他就察觉到这些算法性能榜单与现实机器人控制问题存在脱节。采样效率低下一直是强化学习的软肋，阻碍了其在真机上的广泛应用。

仿真对于移动控制这类问题确实有效，但这并非魔法。仿真是基于物理模型构建的，本质上是基于模型的控制，只是提供了更好的计算工具。移动控制模型相对简单，不确定性有限，传统的模型预测控制（MPC）和鲁棒控制也能很好解决，例如现代客机的控制器设计。

然而，操作任务的挑战截然不同。机械臂本体的模型是确定的，真正的难点在于外部环境无限的变化和复杂的物理交互，如接触力学和柔性物体变形，其复杂度近乎无穷。因此，在真实环境中训练变得必要。尽管存在一些成功的仿真学习系统，但从中学到的策略无法超越仿真器本身的能力上限。仿真器最终会成为策略学习的瓶颈。

不能因为用仿真解决了一个相对简单的问题，就认为它能解决另一个困难得多的问题。如果因此不去直面困难问题的本质，反而被困在“鞍点”，绕着圈子去构建困难问题的近似替代品来求解，从长远看，将失去找到全局最优解的能力。仿真环境与现实世界，尤其在涉及视觉输入时，存在显著差异。因此，罗剑岚的研究重点始终放在设计高样本效率的算法，并确保其与硬件、控制器无缝对接。例如，在视觉输入条件下，能在20分钟内在现实世界学会一个复杂策略，而其他方法对此无能为力。

他的导师Sergey Levine同样是真实数据的支持者。罗剑岚回忆，一次徒步聊天中，他们讨论：如果有100亿美元，是建造最顶尖的仿真器，还是收集最大的数据集？两人的答案完全一致：数据集。

这条研究主线始于更早。在与西门子的合作项目中尝试应用强化学习失败后，罗剑岚就决心要弄明白它为何行不通。从2017年起，他便沿着这条主线持续探索。这个过程花费了很长时间，但似乎也鲜有人比他更快取得突破，因为许多人在尝试一两次失败后便放弃了。

过去的主流观点认为，在现实世界应用强化学习并非良策，因为它要求算法与硬件、控制器达到极佳的配合，整个系统才能良好运行。而HIL-SERL证明，系统能在1-2小时内，利用视觉输入，在一系列工业生产和灵巧操作任务上取得100%的成功率。

当前依赖仿真的一个主要论点是真实机器人数据难以获取，仿真可以瞬间生成海量数据。但没有人会否认，如果有真实数据，最有价值的依然是真实数据。问题的本质或许在于时间尺度。想象十年后，当数以千万计的机器人部署在真实世界中，持续分享着物理交互数据，今天的许多困局和争论或许将不复存在。

现有的数据规模和机器人部署量，尚不足以让我们得出确切的科学结论，因此才呈现百家争鸣的局面。可以预见，谁率先将上千台人形机器人部署到工厂中，这些24小时不间断传回的数据，就足以催生新的范式和科学结论。从这些半封闭空间的问题入手，一旦对问题有了更深理解，其方法论才能进一步延伸到无约束的开放空间。作为科学家，需要关注五年或十年后的技术图景，解决那些当前无法实现但未来影响深远的基础科学问题。

强化学习之于具身智能

随着大模型的兴起，强化学习在机器人学习领域的热度似乎有所冷却。罗剑岚观察到了这一趋势的转变：如果说2016-2021年的主线是以伯克利为代表的强化学习，那么2021年后，收集数据与大模型结合成为了新潮流，例如谷歌的RT系列。而当前的趋势是大模型持续火热，强化学习正在强势复苏，二者走向结合——大模型实现初步50-60%成功率的策略，再由强化学习算法逐步优化至100%。

尽管他也从事大模型研究，但他认为自己的代表作和研究重心仍是强化学习。因为HIL-SERL目前实现的是100%的成功率，且周期更短。如果局限于大模型，无论收集多少数据，人与机器人的观察视角始终存在差异。人类拥有记忆、思维和意识，机器人模仿人类行为难免存在缺陷。理论上，机器人的行为无法100%完美复刻人类。那么如何逼近极限？这就需要强化学习。就像人类学骑自行车，观看教学或听从指导固然有用，但要真正掌握，必须亲自尝试、经历失败。

一个合理的预测是：当前大规模采用模仿学习的创业公司，在经历实践、摸清痛点之后，明年起很可能转向利用强化学习来优化成功率、节拍数和系统鲁棒性。

那么，强化学习在机器人学习或具身智能中究竟扮演何种角色？从根本上说，机器人学习必须与环境互动，从环境中获得反馈，并据此调整策略以提升成功率——这是一个无法绕开的逻辑闭环。与大模型不同，物理世界的机器人学习是一个复杂系统，涉及多维、高维数据，实现难度大，可一旦成功，便能超越人类，成为超级系统。例如，人类需要10秒完成的任务，机器人通过多步推理优化，可能只需5秒。这是一个非常强大的工具，我们仍在探索如何有效运用它，但可以肯定，它将是具身智能不可或缺的一部分。

有趣的是，在与机器人领域专家交流时发现，他们更关注基础模型完成现实操作任务的成功率。50-60%的成功率可能让他们兴趣索然，但得知能达到100%时，便会强烈好奇其中的奥秘。正如Rich Sutton的“苦涩教训”所言，历史表明，学习和搜索是两种可以无限扩展的方法。模仿学习可以告诉我们如何从数据中提取特征，但若没有搜索或优化（即强化学习），它便无法突破数据本身的局限，从而以新方式解决新问题。

中国优势：高质量、低价格

面对当前日益火热的具身智能趋势，罗剑岚坦言此前并未预料到，甚至开玩笑说机器人学习曾是个“自嗨”的小圈子，如今第一次感觉自己站到了主流之中。

他非常认可中国在供应链方面的优势。实际上，许多机器人的瓶颈在于硬件。当硬件做好后，软件开发会轻松很多。硬件与软件必须协同迭代，而非在较差的硬件上艰难开发算法。

提到“性价比”，人们常下意识联想到“平替”和质量妥协。但如今，中国在全球产业链中的作用远不止降低成本。例如，波士顿动力的机器狗定价高达5万美元，长期以来无人打破，而中国的宇树科技做到了，并且不是以降低质量为代价。中国作为拥有完整产业链的工业国家，正在重新定义产品价值和定价体系。目标不是制造廉价商品，而是凭借全产业链优势，重新教育和定义市场，掌握定价权。

谈及未来计划，罗剑岚表示，出国之初便想着回国，从未打算长期留在海外。在他看来，在学校从事从0到1的开创性科研，即使需要坐长时间的“冷板凳”，其长远价值是巨大的。人生短暂，实现重大突破的机会寥寥无几，即便错过，至少也曾全力尝试过。

他认为，突破性的原创研究若能转化为实际应用，将创造巨大的社会价值。伯克利和斯坦福的成功，离不开硅谷周边的创业生态。机器人是一门与产业紧密结合的实用科学，能够将科研成果从1扩展到100，实现产业化。在这方面，他非常钦佩李泽湘老师。李老师参与创立的大疆，不仅是一家价值数百亿美元的公司，更重要的是在09-10年那个时间点，证明了源自中国的硬科技创新能够成功，这彻底改变了中国科技的历史轨迹，其意义远超经济价值本身。

Khosla Ventures创始人Vinod Khosla有句名言：“创新从不发生在一个系统的核心，它永远发生在系统的边缘。”系统的核心部分有其既得利益，缺乏碘伏自我进行创新的动力。而在系统边缘，一个好的想法被尝试，经历失败后再不断尝试，不确定性逐渐降低，成功概率随之增大。如果这个想法足够重要，就会催生碘伏性创新。

历次科技革命，很少由市值万亿的大公司引领；重大的科学发现，也罕有是科学家临近退休时做出的。汪滔创业时挤在深圳十几平米的小屋里，按今天的标准可谓“没有资源”。但大疆的成功，激励着中国的年轻人去创造下一个、下百个大疆。

接下来，罗剑岚的关注点将放在通用高性能机器人，尤其是在工业生产领域。尽管现代汽车工厂的自动化水平很高，但仍有大量工作需要人工完成，因为当前的机器人还无法灵活处理多变的任务。强化学习等技术将很快应用于这些领域，改变&现有生产模式。例如，特斯拉和富士康等公司已开始使用机械臂进行柔性生产，以适应不断变化的需求。这种生产模式的变革正在全球发生，不仅能提升效率，也能解放人类的创造力。

全球制造业产值巨大，但自动化比例仍然偏低。如果通过机器人技术提升自动化水平，不仅可以优化人力成本，更能释放人类生产力，让人类有更多机会去探索和创新。这种变革已在一些先进工厂中体现，例如现代汽车在新加坡的新工厂，采用更灵活的生产单元模型取代传统流水线，使生产更加灵活高效。

来源:https://www.leiphone.com/category/ai/w5ybJ9rvLSroaVbl.html

上一篇：专访阿里云贺勇 AI发现16万种新RNA病毒成果登上Cell

下一篇：李开复刘知远知乎AI对谈学术酒吧探讨人工智能未来