伯克利罗剑岚谈机器人革命:真实世界中的范式突破
近日,伯克利大学Sergey Levine团队的一项强化学习新工作,在具身智能圈子里激起了不小的波澜。这项名为HIL-SERL的研究,似乎正在打破一个长久以来的成见:强化学习(RL)只能活在仿真环境里。
根据公布的实验结果,基于这套框架,研究者可以直接在现实世界中,训练出基于视觉的通用机器人操作策略。更令人印象深刻的是效率:机器人仅需经过1到2.5小时的训练,就能娴熟地完成主板组装、仪表盘操作乃至正时皮带安装这类精密任务。成功率?清一色的100%。
从组装家具、颠勺煎蛋,到鞭打积木、插入U盘,这些任务对机器人而言已不在话下。即便过程中施加人为干扰,机器人依然能稳定、灵活地调整并最终完成任务。这无疑给“强化学习难以落地现实世界”的论调,来了一次有力的回应。
过去,强化学习常因样本效率低、仿真与现实差距大而被诟病,许多研究者认为它无法解决真机上的复杂问题。但SERL系列的工作证明,真机RL并非空中楼阁。它不仅能在现实世界中应用,而且在灵巧操作任务上表现卓越,其性能甚至大幅超越了模仿学习方法,平均节拍快了1.8倍。可以说,这是真机RL机器人领域一个具有标志性意义的进展。而推动这一进展的核心人物,是中国青年科学家、伯克利在读博士后罗剑岚。
今年年初,罗剑岚团队提出的高效机器人强化学习套件SERL,已经能让机器人在20分钟内学会装配电路板,成功率同样达到100%。最新的HIL-SERL是其升级版,关键区别在于引入了人类的“纠正”机制。SERL仅依赖人类示范,而HIL-SERL则结合了人类的示范和实时纠正来训练策略。这一看似微小的调整,对于让智能体从错误中学习、提升在陌生任务上的性能至关重要。HIL-SERL更是瞄准了双臂协调、动态操作等相对更困难的任务范畴。
成果的效果超出了罗剑岚与其导师Sergey Levine的预期。看到实验结果后,Sergey对罗剑岚说的第一句话是:“You really made RL work.”(你真的让强化学习跑起来了。)
回溯罗剑岚的科研路径,他在机器人真机RL方向上的坚持已近十年。2015年,他进入伯克利机械工程系攻读机器人控制博士学位,同时开始在Pieter Abbeel指导下探索Robotics与AI的结合。从博士二年级的第一个强化学习项目起,他的目标就非常明确:让强化学习在真实世界中落地。
这期间,强化学习领域经历了从AlphaGo带来的热潮到逐渐遇冷,甚至被部分行业声音唱衰的过程。但罗剑岚始终相信,攻克机器人的真机RL是一个长期命题,一旦突破,将对机器人学习产生范式级的变革。2020年博士毕业后,他加入谷歌,在DeepMind、Everyday Robot等多个部门工作,系统学习了从底层动力学到上层控制的机器人全栈知识,并持续探索与强化学习的结合。
2022年,随着参与的项目孵化为工业机器人公司Intrinsic,罗剑岚选择重返伯克利,加入Sergey Levine团队从事博士后研究。SERL系列成果,正是他多年来在真机RL道路上探索所结出的最具突破性的果实。
重返学术
在伯克利机械系读博期间,罗剑岚是如何切入深度强化学习领域的?他回忆道,机械系的控制方向与强化学习存在天然的对偶关系,例如控制论中的HJB方程与强化学习中的Bellman备份,原理都是动态规划。这种跨领域的视角,反而让他能更全面地看待问题。
真正的转折点发生在2017年暑假。当时他在西门子伯克利分部参与了一个项目,尝试将深度强化学习应用于工业生产,解决传统机器人难以完成的高精度装配任务。具体任务是操作3D打印的齿轮,将其安装到一个可活动的机械装置上。这要求算法不仅能规划,还需实时响应外部变化。这个项目成为他在强化学习领域的起点,也开启了他与Pieter Abbeel、Sergey Levine的合作。
博士毕业后在谷歌的两年工业界经历,为何又促使他重返学术界?罗剑岚坦言这有一定偶然性。在谷歌期间,他积累了扎实的机器人系统知识,参与的项目专注于将AI应用于提升工业生产力。当项目孵化为Intrinsic后,他萌生了回国寻找教职的想法,计划先做一段兼职博士后作为过渡,于是联系了当时也在谷歌兼职的Sergey Levine。
当时的合作非常高效。Sergey团队训练机器人完成简单操作需要数十小时,而罗剑岚的工作在插拔等精密工业任务上达到了100%成功率,且耗时极短。这让他们意识到,团队需要既懂机器人系统又精通学习算法的人才。Sergey热情邀请他全职加入团队进行两年博士后研究,双方能力互补且合作愉快,罗剑岚便接受了邀请。
回到伯克利后,罗剑岚还深度参与了Open X-Embodiment数据集的创建。这个最初不足10人的探索项目,由伯克利、斯坦福与谷歌合作发起。罗剑岚负责其中主要的线缆任务(Cable Routing)。在验证可行性后,团队决定扩大规模,联合学术界与产业界的力量,最终汇集了超过200位合作者,旨在改变以往机器人数据集分散的局面。
在发布HIL-SERL之前,团队于今年2月率先推出了SERL。这个想法的诞生,源于一个清晰的痛点:强化学习虽然潜力巨大,但门槛高、流程易出错且不稳定,导致许多人放弃了在真实世界训练策略的尝试。因此,罗剑岚萌生了一个想法:为社区提供一个开源、端到端的解决方案,包含强化学习环境和机器人控制器,让研究者能像使用仿真器训练机器狗一样,便捷地应用于真机训练。
此前在谷歌的工作,以及2022年与Sergey的合作,为SERL奠定了基础。2023年6月,罗剑岚带领团队,联合斯坦福、华盛顿大学、谷歌等机构,正式推进SERL项目,并进一步完善了先前的工作。SERL首次实现了仅通过真实世界视觉信息,在20分钟内完成精密装配策略的学习。在PCB板组装、电缆布线等复杂任务中,每个策略平均训练25到50分钟,成功率接近完美,且在受干扰时表现出优异的鲁棒性和自校正能力。
整个研究过程充满探索性。团队在实验中发现了几个关键设计点,使得整个系统性能出现飞跃,连他们自己都感到惊讶。SERL发布后,迅速被北京大学、波士顿动力AI研究院、谷歌等海内外机构采纳使用。
现实世界的拥护者
罗剑岚无疑是现实世界与真实数据的坚定拥护者。早在2017年,当大多数强化学习研究还集中在MuJoCo等仿真环境中刷榜时,他就察觉到这些算法性能榜单与现实机器人控制问题存在脱节。采样效率低下一直是强化学习的软肋,阻碍了其在真机上的广泛应用。
仿真对于移动控制这类问题确实有效,但这并非魔法。仿真是基于物理模型构建的,本质上是基于模型的控制,只是提供了更好的计算工具。移动控制模型相对简单,不确定性有限,传统的模型预测控制(MPC)和鲁棒控制也能很好解决,例如现代客机的控制器设计。
然而,操作任务的挑战截然不同。机械臂本体的模型是确定的,真正的难点在于外部环境无限的变化和复杂的物理交互,如接触力学和柔性物体变形,其复杂度近乎无穷。因此,在真实环境中训练变得必要。尽管存在一些成功的仿真学习系统,但从中学到的策略无法超越仿真器本身的能力上限。仿真器最终会成为策略学习的瓶颈。
不能因为用仿真解决了一个相对简单的问题,就认为它能解决另一个困难得多的问题。如果因此不去直面困难问题的本质,反而被困在“鞍点”,绕着圈子去构建困难问题的近似替代品来求解,从长远看,将失去找到全局最优解的能力。仿真环境与现实世界,尤其在涉及视觉输入时,存在显著差异。因此,罗剑岚的研究重点始终放在设计高样本效率的算法,并确保其与硬件、控制器无缝对接。例如,在视觉输入条件下,能在20分钟内在现实世界学会一个复杂策略,而其他方法对此无能为力。
他的导师Sergey Levine同样是真实数据的支持者。罗剑岚回忆,一次徒步聊天中,他们讨论:如果有100亿美元,是建造最顶尖的仿真器,还是收集最大的数据集?两人的答案完全一致:数据集。
这条研究主线始于更早。在与西门子的合作项目中尝试应用强化学习失败后,罗剑岚就决心要弄明白它为何行不通。从2017年起,他便沿着这条主线持续探索。这个过程花费了很长时间,但似乎也鲜有人比他更快取得突破,因为许多人在尝试一两次失败后便放弃了。
过去的主流观点认为,在现实世界应用强化学习并非良策,因为它要求算法与硬件、控制器达到极佳的配合,整个系统才能良好运行。而HIL-SERL证明,系统能在1-2小时内,利用视觉输入,在一系列工业生产和灵巧操作任务上取得100%的成功率。
当前依赖仿真的一个主要论点是真实机器人数据难以获取,仿真可以瞬间生成海量数据。但没有人会否认,如果有真实数据,最有价值的依然是真实数据。问题的本质或许在于时间尺度。想象十年后,当数以千万计的机器人部署在真实世界中,持续分享着物理交互数据,今天的许多困局和争论或许将不复存在。
现有的数据规模和机器人部署量,尚不足以让我们得出确切的科学结论,因此才呈现百家争鸣的局面。可以预见,谁率先将上千台人形机器人部署到工厂中,这些24小时不间断传回的数据,就足以催生新的范式和科学结论。从这些半封闭空间的问题入手,一旦对问题有了更深理解,其方法论才能进一步延伸到无约束的开放空间。作为科学家,需要关注五年或十年后的技术图景,解决那些当前无法实现但未来影响深远的基础科学问题。
强化学习之于具身智能
随着大模型的兴起,强化学习在机器人学习领域的热度似乎有所冷却。罗剑岚观察到了这一趋势的转变:如果说2016-2021年的主线是以伯克利为代表的强化学习,那么2021年后,收集数据与大模型结合成为了新潮流,例如谷歌的RT系列。而当前的趋势是大模型持续火热,强化学习正在强势复苏,二者走向结合——大模型实现初步50-60%成功率的策略,再由强化学习算法逐步优化至100%。
尽管他也从事大模型研究,但他认为自己的代表作和研究重心仍是强化学习。因为HIL-SERL目前实现的是100%的成功率,且周期更短。如果局限于大模型,无论收集多少数据,人与机器人的观察视角始终存在差异。人类拥有记忆、思维和意识,机器人模仿人类行为难免存在缺陷。理论上,机器人的行为无法100%完美复刻人类。那么如何逼近极限?这就需要强化学习。就像人类学骑自行车,观看教学或听从指导固然有用,但要真正掌握,必须亲自尝试、经历失败。
一个合理的预测是:当前大规模采用模仿学习的创业公司,在经历实践、摸清痛点之后,明年起很可能转向利用强化学习来优化成功率、节拍数和系统鲁棒性。
那么,强化学习在机器人学习或具身智能中究竟扮演何种角色?从根本上说,机器人学习必须与环境互动,从环境中获得反馈,并据此调整策略以提升成功率——这是一个无法绕开的逻辑闭环。与大模型不同,物理世界的机器人学习是一个复杂系统,涉及多维、高维数据,实现难度大,可一旦成功,便能超越人类,成为超级系统。例如,人类需要10秒完成的任务,机器人通过多步推理优化,可能只需5秒。这是一个非常强大的工具,我们仍在探索如何有效运用它,但可以肯定,它将是具身智能不可或缺的一部分。
有趣的是,在与机器人领域专家交流时发现,他们更关注基础模型完成现实操作任务的成功率。50-60%的成功率可能让他们兴趣索然,但得知能达到100%时,便会强烈好奇其中的奥秘。正如Rich Sutton的“苦涩教训”所言,历史表明,学习和搜索是两种可以无限扩展的方法。模仿学习可以告诉我们如何从数据中提取特征,但若没有搜索或优化(即强化学习),它便无法突破数据本身的局限,从而以新方式解决新问题。
中国优势:高质量、低价格
面对当前日益火热的具身智能趋势,罗剑岚坦言此前并未预料到,甚至开玩笑说机器人学习曾是个“自嗨”的小圈子,如今第一次感觉自己站到了主流之中。
他非常认可中国在供应链方面的优势。实际上,许多机器人的瓶颈在于硬件。当硬件做好后,软件开发会轻松很多。硬件与软件必须协同迭代,而非在较差的硬件上艰难开发算法。
提到“性价比”,人们常下意识联想到“平替”和质量妥协。但如今,中国在全球产业链中的作用远不止降低成本。例如,波士顿动力的机器狗定价高达5万美元,长期以来无人打破,而中国的宇树科技做到了,并且不是以降低质量为代价。中国作为拥有完整产业链的工业国家,正在重新定义产品价值和定价体系。目标不是制造廉价商品,而是凭借全产业链优势,重新教育和定义市场,掌握定价权。
谈及未来计划,罗剑岚表示,出国之初便想着回国,从未打算长期留在海外。在他看来,在学校从事从0到1的开创性科研,即使需要坐长时间的“冷板凳”,其长远价值是巨大的。人生短暂,实现重大突破的机会寥寥无几,即便错过,至少也曾全力尝试过。
他认为,突破性的原创研究若能转化为实际应用,将创造巨大的社会价值。伯克利和斯坦福的成功,离不开硅谷周边的创业生态。机器人是一门与产业紧密结合的实用科学,能够将科研成果从1扩展到100,实现产业化。在这方面,他非常钦佩李泽湘老师。李老师参与创立的大疆,不仅是一家价值数百亿美元的公司,更重要的是在09-10年那个时间点,证明了源自中国的硬科技创新能够成功,这彻底改变了中国科技的历史轨迹,其意义远超经济价值本身。
Khosla Ventures创始人Vinod Khosla有句名言:“创新从不发生在一个系统的核心,它永远发生在系统的边缘。”系统的核心部分有其既得利益,缺乏碘伏自我进行创新的动力。而在系统边缘,一个好的想法被尝试,经历失败后再不断尝试,不确定性逐渐降低,成功概率随之增大。如果这个想法足够重要,就会催生碘伏性创新。
历次科技革命,很少由市值万亿的大公司引领;重大的科学发现,也罕有是科学家临近退休时做出的。汪滔创业时挤在深圳十几平米的小屋里,按今天的标准可谓“没有资源”。但大疆的成功,激励着中国的年轻人去创造下一个、下百个大疆。
接下来,罗剑岚的关注点将放在通用高性能机器人,尤其是在工业生产领域。尽管现代汽车工厂的自动化水平很高,但仍有大量工作需要人工完成,因为当前的机器人还无法灵活处理多变的任务。强化学习等技术将很快应用于这些领域,改变&现有生产模式。例如,特斯拉和富士康等公司已开始使用机械臂进行柔性生产,以适应不断变化的需求。这种生产模式的变革正在全球发生,不仅能提升效率,也能解放人类的创造力。
全球制造业产值巨大,但自动化比例仍然偏低。如果通过机器人技术提升自动化水平,不仅可以优化人力成本,更能释放人类生产力,让人类有更多机会去探索和创新。这种变革已在一些先进工厂中体现,例如现代汽车在新加坡的新工厂,采用更灵活的生产单元模型取代传统流水线,使生产更加灵活高效。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
可视化建站工具快站:零代码轻松创建专业网站
在众多可视化建站平台中,搜狐快站以其一站式的解决方案,成为企业搭建官网和移动端应用的优选工具。它提供直观的拖拽式页面编辑器、功能完善的内容管理后台、海量行业模板库,并确保所有页面完美适配手机、平板等不同屏幕。更值得一提的是,其额外集成了App快速生成、微信公众号管理以及微信小程序开发等核心能力,全面
智合同智慧应用平台助力企业高效签约
智合同是一款深度融合人工智能技术与法律服务的创新平台,由天津滨海高新技术产业开发区内一家具备独角兽潜力的科技企业自主研发。目前,品牌已在武汉、深圳、南京等核心城市设立分支机构,形成覆盖全国的服务网络,专注于提供基于人工智能、大数据与互联网的综合解决方案。 自2016年成立以来,智合同在知识产权与技术
iH5互动大师专业H5制作工具2000多家知名企业选择
在数字内容创作领域,一款高效且专业的工具往往是品牌与用户建立深度连接的关键。无论是国际巨头如Google、Uber,还是国内领先企业如京东、澎湃新闻,其背后频繁出现的动态、交互式内容,常离不开一类核心技术的支持——H5。目前,已有超过2000家知名品牌借助专业的H5工具进行创意表达,而一个汇聚了十万
高级面试辅导助你成功通过求职面试
面试教练(JobInterviewCoach)是一家致力于提供专业级面试辅导服务的在线平台,其核心使命在于系统化赋能求职者,全面提升面试准备效率与成功率。无论您是即将踏入社会的应届毕业生,还是寻求职业突破的资深职场人,该平台均能通过体系化的工具与个性化服务,助您从容应对求职过程中的关键挑战。 平台官
Huru人工智能视频面试平台助你高效准备求职
在当今竞争激烈的求职市场中,视频面试已成为企业招聘的常见环节。如何系统、高效地准备面试,成为众多求职者关注的焦点。Huru ai 作为一款人工智能驱动的面试准备平台,正通过智能模拟与实时反馈,为求职者提供专业、个性化的面试提升方案。 简而言之,Huru ai 是一个基于 AI 技术的视频面试模拟与辅
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

