当前位置: 首页
AI
上海AI实验室庞江淼谈具身智能开放平台与ChatGPT时刻

上海AI实验室庞江淼谈具身智能开放平台与ChatGPT时刻

热心网友 时间:2026-05-16
转载

在机器人这个备受瞩目的赛道,明星研究员总是吸引着无数目光。

然而,关于庞江淼,网络上能找到的信息却不多。仅有的资料显示,他专注于计算机视觉,拥有浙江大学博士学位和香港中文大学MMLab的研究经历,随后便来到了现在的岗位——上海AI实验室青年科学家,并担任具身智能团队负责人。三十出头的年纪,在业内堪称年轻。

在当前的具身智能领域,计算机视觉出身的研究者占据了相当大的比例,庞江淼可以说是其中既典型又颇具碘伏性的一位。

说典型,是因为他早期的成果完全集中在传统计算机视觉范畴。他曾连续两年获得MS COCO目标检测挑战赛冠军,是MMLab视觉感知系列开源平台MMDetection、MMTracking、MMDetection3D的作者,其工作还获得了CVPR 2023最有影响力论文和ECCV 2024最佳论文提名。

而说碘伏,则在于他并未像大多数CV背景的研究者那样,停留在感知层面并逐步向机器人领域过渡,而是在转型之初就直接切入了底层的运动控制。

由他主导开发的人形机器人多姿势站起控制算法便是一个例证,这项成果获得了机器人学习顶级会议RSS 2025的最佳系统论文提名奖。这也是庞江淼首次向RSS投稿,此后,他共有6篇文章被RSS接收,中稿率达75%,主要研究方向为人形机器人与机械臂的运动控制。

用他自己的话说,“我的转型很直接。决定投身具身智能后,就不再仅仅用视觉去解决问题。所以,尽管我是CV出身,但我现在的思维方式其实不那么‘CV’了。科研最关键的是定义问题和解决问题的思维逻辑。只要找准问题,聚焦并追求极致,总会有好的结果。”

这次跨越式的转型大约发生在2021年前后。

据他回忆,当时,自己的“老本行”目标检测遇到了瓶颈,技术难以继续突破。同时,视觉技术本身很难形成完整的价值闭环,业界开始热议“感知与行为的闭环”,视觉的独立性被重新评估,成为机器人感知系统中的一个模块。只有驱动机器人行动,才能产生实际价值。

而在此前一年,Marco Hutter团队采用强化学习在仿真环境中训练,再将策略迁移到真实的四足机器人ANYmal上,使其实现了高动态运动。这标志着机器人领域终于出现了数据驱动的解决方案,也逐渐碘伏了传统的认知。

“旧的领域遇到瓶颈,新的方向已经出现,转型也就成了自然而然的事。”

在对谈中,当讲述这段经历时,庞江淼向后靠向椅背,姿态略显放松,但语速依然极快——这也是整个交流过程中他最鲜明的特点:思维敏捷,问答之间几乎没有停顿。

在刚刚过去的WAIC(世界人工智能大会)期间,他带领上海AI实验室具身智能团队发布了“书生”具身全栈引擎Intern-Robotics。发布会后,我们与他进行了一场对话。

以Intern-Robotics为观察锚点,你会发现,他们的目标并非某个单一的技术点,而是旨在构建一套开放共享的基础设施,推动具身智能领域迎来自己的“ChatGPT时刻”,从而让整个行业的飞轮转得更快。这也是庞江淼在对话中数次希望传达的雄心。

大小脑融合可能是大趋势

问:最近与行业人士交流,有一种观点认为具身智能的研究正收敛到三个方向:具身大脑、全身控制、大小脑协调。您认同吗?

庞江淼:我个人不完全认同。所谓“大小脑”是一种更偏宏观的划分方式。

目前,具身智能还很难实现任务层面的泛化。任务可能包括空间感知、导航、操作、人形运动控制等;理论上,所有任务都可以由“大脑”负责推理规划,同时由“小脑”负责具体执行,只是不同任务侧重点不同。正因为目前无法融合,才会存在“大脑”和“小脑”的区分,或许再过几年,就是一个统一的模型了。

问:所以大小脑融合是未来的大趋势?

庞江淼:可以这么说。目前两者无法快速融合,与端侧算力水平有关。端侧芯片还难以承载大模型的计算量,这意味着需要将低频的思考和高频的行动分开,即双系统架构。前者相当于大脑,后者相当于小脑,这种架构本质上也符合人类的行为模式。

问:你们在研究具身大模型时,会受到算力限制吗?

庞江淼:算力分为云端和终端。模型训练肯定在云端,但推理必须在端侧进行,目前主要是端侧算力受限。当然,在科研阶段可以用各种方法绕过这个限制,但如果走向商业化落地,这个问题就无法回避了。

问:在大脑层面,视觉-语言-动作模型是目前公认的技术路线了吗?

庞江淼:VLA是一条重要的技术路线,有助于提升泛化能力,但仅有VLA可能还不够。我们也很关注一些传统的控制理论,以期共同提升模型能力。其实在VLA领域,目前标准也并不统一,我们常开玩笑说现在市面上有三种VLA。

谷歌在2023年发布的RT-2算是第一个具身智能VLA。当时谷歌在视觉-语言大模型中加入了动作模态,将机器人动作映射为文本标记,与互联网规模的视觉-语言数据共同训练,既保留了大模型的识别与交互能力,又能让机器人动起来。这是最狭义的VLA。

但后来大家逐渐发现,这种路线并非最优,因为机器人动作数据本身很少,加入后难以泛化。于是出现了基于多模态大模型微调出的、只具备执行能力而缺乏复杂思考能力的模型,我们一般称之为“动作式VLA”。

第三种定义则过于宽泛,只要模型包含了视觉、文本、行为的编码器,就被称为VLA。

问:您刚才提到了任务划分,具身智能领域目前主流的核心任务有哪些?

庞江淼:主要是四个核心方向:感知、操作、导航、人形运动控制。

这几个任务目前是平行的,未来或许会融合,但现阶段还没有。例如,巡检机器人公司可能只关心导航能力,工业机器人公司关心机械臂的操作能力,而人形机器人公司则聚焦于人形运动控制……

对于不同的任务,VLA大模型的技术方案和表现也会不同。与真实世界交互越深,真机数据的价值就越大。因此,在导航以及“抓取放置”等简单任务中,合成数据可以占据较大比重。但如果任务复杂度进一步提升,仿真算法本身就会带来新的挑战,这也催生了许多有价值的研究课题。

问:看来具身智能领域仍然存在很多路线之争。

庞江淼:是的,我认为主要有两个原因。

首先,问题的复杂性太高。以计算机视觉为例,这个领域在上世纪就已形成了清晰的任务定义和数据集,如目标检测、分割、跟踪等高层次视觉任务,以及去模糊、超分辨率等低层次视觉任务。而具身智能的复杂度更高,其子任务的拆分和定义目前仍是模糊的。

其次,领域高度复合。这意味着来自不同背景的人都可以进入这个领域,自然语言处理、计算机视觉、机器人学、模仿学习、自动驾驶等领域的研究者都会从自己最熟悉的视角切入,选择离自己最近的路线。

做平台和卖芯片逻辑相通

问:在技术路线仍存争议的背景下,团队在WAIC期间发布的Intern-Robotics,其亮点主要体现在哪里?

庞江淼:可以从两个维度看。一方面,在科研层面,它肯定具备先进性,我们后续还会公开最新的工作;另一方面,它的定位非常清晰——作为一个平台和基础工具链,旨在与更多伙伴合作,为领域内的其他团队创造价值。

通过这次发布,实验室将过去几年的积累以一种体系化的方式“给”了出去。我们也会以它为载体,与业界进行交流和合作。希望未来平台的用户量能越来越大,大家能聚集起来共同推进一些事情,并随着数据积累形成公开数据集。

问:但实验室离实际应用场景有一定距离,在提升“大脑”能力方面会否受到局限?

庞江淼:正因如此,才需要与企业合作。对方提供数据和场景,我们提供模型能力,双向赋能。

问:具体的合作模式是怎样的?

庞江淼:以今年我们与国地中心的合作为例。国地中心拥有具体的场景和机器人本体,我们协助他们进行任务定义和数据采集规则的制定。我们内部有一条合成数据管线,在获得场景数据后,会生成一些合成数据,再将两者整合用于模型训练。训练好的模型会部署到“青龙”机器人上。在机器人落地应用的过程中,又会产生新的交互数据,我们可以利用这些数据迭代模型能力,并优化数据管线。

慢慢地,这个领域可能会出现“基模型”,搭配上一系列工具链,任何机器人公司都可以“开箱即用”,行业的飞轮也就转起来了。

问:所以实验室在具身智能方向的定位是打造平台?最终希望实现怎样的愿景?

庞江淼:我们一直希望做平台,但不仅仅是平台。

最终目的是推动整个领域建立更统一的基准,例如在任务划分、数据标准等方面,让大家的努力能够汇聚到一处,从而加速整个领域的迭代速度。

问:这种定位与团队的发展历程和优势基础有关吗?

庞江淼:实验室在具身智能领域的积淀时间算是比较长的。我们的团队在2022年初就已存在,早期偏向前沿探索,最初主要研究足式机器人,但同期也开展了操作相关的研究。到2024年年中,具身智能团队更加完善,方向也更加聚焦。

此外,我们团队的构成足够多元化,拥有来自NLP、AIGC、自动驾驶等不同领域的人才,内部还有一个AIGC团队,能够进行“真实到仿真”的数据生成。

总之,认知积累早、技术储备全,加上公立研发机构的身份有助于开展广泛的合作,使我们有希望率先去解决领域内在任务定义、数据集等基础性问题上的挑战。

问:如何吸引企业加入合作生态?

庞江淼:其实做平台和卖芯片的逻辑有相似之处,本质都是把生态做好,依靠模型算法本身的能力取胜。同时,要把用户体验做好,比如提供一套易用性很高的框架。

问:平台希望吸引更多用户、沉淀更多数据,对于用户或数据的量级是否有初步的规划或预期?

庞江淼:无论是用户数还是数据量,目前都很难判断具体的量级,因为缺乏可参照的对象。打个或许不太恰当的比方:大模型有点像互联网,而具身智能则更像制造业。制造业的本质在于其价值闭环的流程更长,例如,一家车企年销量过百万已属很高,但一家互联网企业用户上亿可能也不足为奇。因此,单纯讨论用户数量的量级意义不大。

再者,数据量本身并不直接产生价值,数据集的多样性亦然。真正决定价值的是,利用这些数据能够训练出什么样的模型。

接下来的目标是实现“三个泛化”

问:那么接下来,平台还有哪些重点发展方向?

庞江淼:当前具身智能的主要问题在于泛化能力不足。包括今年以来很火的机器人跳舞,本质上也是用模型去拟合一条运动轨迹。实验室未来的目标是,在保证具身智能作业接近100%可靠性的前提下,实现本体泛化、场景泛化和任务泛化,这是总体的技术逻辑。

具身智能与大模型有一个非常明显的不同,那就是对作业成功率的苛刻要求。大模型可以有“幻觉”,可以“再想一想”,但人形机器人摔倒了就是摔倒了。

目前我们正在研发人形运动控制的基模型。当然,它目前还只是一个概念上的“基模型”,参数量上仍属于小模型。我们一直在寻找更具挑战性的场景来展示模型能力,例如高动态场景下的交互。后续我们可能会推出一个演示,让异构机器人从不同速度转动的轮盘上精准抓取物体,再进行协作,这就能同时体现上述三种泛化能力。

当然,短期内我们会先聚焦于特定场景下的局部泛化,先解决最基础、最关键的问题,再逐步拓宽。在“三种泛化、四种任务”的大框架下,我们会寻找一些具体场景,纵向深入,做几条比较“窄”但扎实的技术线。

问:所以Intern-Robotics强调的“一脑多形”,也呼应了其中的“本体泛化”?

庞江淼:是的。具身智能要面向应用需求,不应受限于特定的场景或任务。要实现高成功率,本质上需要一个强大的后训练技术。那么,只要有一条通用的技术管线,基于前期预训练的基模型,就可以在较短时间内微调出适用于具体行业或场景的机器人。

如果基模型本身支持“多形”,就意味着技术管线是相通的。在迭代过程中,我们可以逐渐压缩甚至省去后训练过程,这样或许就有可能出现一个能够零样本泛化的“ChatGPT”式模型。

问:这也是业内一直在追问的:具身智能领域的“ChatGPT时刻”何时到来?你们正在做的就是这件事,对吗?

庞江淼:可以理解为“沿途下蛋”。“ChatGPT”是终极目标,但并非一蹴而就。这是一个边迭代、边落地,逐步将后续微调工作压缩甚至消除的过程。

问:除了本体泛化,还有场景泛化。您之前主导的“可泛化地形人形机器人自主站立控制技术”研发了多久?

庞江淼:这项工作的周期并不长,大约3到6个月。

技术突破其实是跟随整个领域的迭代节奏的。如果你觉得某项工作做得很好,它本质上可能只是领先了整个领域3到6个月,并不会超脱领域发展的客观规律。

问:当时这个项目的想法是如何产生的?

庞江淼:我们当时在做机器人运动控制,第一阶段是“盲走”。在没有视觉的情况下,机器人的行走动作非常稳定,包括现在机器人打拳,其决策过程也没有用到视觉。

接下来要让机器人上台阶,这时就必须引入视觉了。但视觉会给系统带来噪声,导致机器人经常摔倒,而每次摔倒都需要重新调试。于是我们想,如果机器人能够自主站起来,整个系统的鲁棒性会大大增强。这个项目就这样诞生了。

其实从这个项目也能看出,我们的风格还是以解决具体问题为导向的。

问:如何应对视觉引入的噪声问题?

庞江淼:我们当时有一篇名为PIM的论文,利用了传统机器人领域的建图技术,尽可能精准地构建机器人周围的环境地图。在仿真训练中,可以直接获取障碍物位置的真实值,然后尽力对齐仿真环境与真实世界。

问:这套算法实际上还解决了机器人在高难度地形上的动作稳定性问题,比如梅花桩这类稀疏落足点,甚至在机器人运动过程中突然加入障碍物。

庞江淼:梅花桩地形相对简单,只要在仿真环境中加入这类地形,并进行定向微调即可。在通用框架下,机器人就能完成相关动作。

动态地形的问题则比较困难。目前,AI处理动态事物都非常具有挑战性。坦白说,我们近期还没有找到完美的解决方案。动态性意味着多样性的增加,而AI的逻辑很简单:输入数据的多样性越小,模型表现越好;多样性越大,模型表现就会下降。

应对数据匮乏:Real-Sim-Real路线

问:从多样性的维度看,机器人的动作目前是否更像一种“背诵”而非“自学习”的过程?

庞江淼:你可以暂时这样理解。但当数据量足够庞大时,智能的“涌现”就可能发生。

这也是ChatGPT最厉害的地方,它证明了AI的本质很可能就是一种极致的“过拟合”。它目前已在语言模态下做到了这一点,而语言是一维的、结构化的,并且有海量的互联网数据支撑,所以可以堆叠出效果。

但在具身智能领域,数据量级与之不可同日而语,数据量小是最本质的瓶颈。

问:具身智能领域最匮乏的是哪一类数据?

庞江淼:主要是精准的行为数据。

问:团队在训练模型时,数据来源有哪些?

庞江淼:目前我们采用一种“数据金字塔”的思路。金字塔最顶层是真机数据,它最精准,但数量也最少;中间层是仿真数据;底层是网络视频数据,这类数据离机器人控制最远,但数量最大。纯粹依赖真机数据不行,因为数据不足且采集成本高昂;纯粹依赖合成数据也不行,它无法完全精准地模拟复杂交互场景。

因此,关键在于如何搭建这个金字塔,并利用它训练出足够鲁棒和泛化的模型。我们会使用所有类型的数据,核心在于如何融合。我个人比较看好“真实-仿真-真实”这套技术路线,再辅以一些真实世界的强化学习。

问:你们会使用网络视频数据吗?

庞江淼:视频数据更多用于预训练,但很难用于后训练。两者的区别在于:预训练的数据量非常大,蕴含了更广泛领域的知识;而后训练必须有非常精准的行为标签。

问:在“真实-仿真-真实”的循环中,如何消除仿真与真实之间的差距?

庞江淼:仿真与真实之间的差距主要来自两点。

第一点是关节运动本身带来的误差,但这相对可控,因为电机是已知的,机器人在运动过程中的所有真实值都可以获取。

第二点是视觉带来的误差。引入视觉意味着需要在仿真器中模拟相机,而相机仿真本身与真实世界就存在差距。再加上机器人“看到”的事物多样性是无限的,这是最大的挑战点,也是接下来需要重点研究的方向。

问:大模型的“缩放定律”会遇到瓶颈,具身智能也会面临类似问题吗?

庞江淼:先解决从无到有,再解决从有到优。大模型已经利用互联网数据提升到了很高水平,面对接下来的瓶颈,需要更高质量的数据进行调优。但具身智能还停留在前一个阶段,即如何把数据规模堆叠上去,现在谈论缩放定律的瓶颈还为时过早。

我对缩放定律还有一个思考:它并不只是一条简单的线性增长曲线。我们可以在很多维度上找到这种数量与性能的线性关系。它的关键其实在于提供了一个可以让你放心投入资源进行规模扩展的“支点”,这也是我们正在探索的。

问:之前元宇宙未能成功,部分原因在于3D内容生态不足。现在也有人担心具身智能会不会成为下一个元宇宙。您怎么看?

庞江淼:不会。具身智能的能力确实远未达到成熟落地的水平,但它与元宇宙最大的区别在于,其行业需求是客观存在且持续增长的。只要技术能做出来,下游有大量原本就存在的产业在等待。我对这个领域的感受是,虽然当前技术的“绝对值”还不够高,但其发展的“动量”非常大。

需求是明确的,只是当前技术尚不成熟。那么技术就可以持续向前迭代,在接下来的周期里,技术会不断进步,并逐步落地,就像刚才说的“沿途下蛋”。

来源:https://www.leiphone.com/category/ai/WEA5fSomPcyMRse9.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
可视化建站工具快站:零代码轻松创建专业网站

可视化建站工具快站:零代码轻松创建专业网站

在众多可视化建站平台中,搜狐快站以其一站式的解决方案,成为企业搭建官网和移动端应用的优选工具。它提供直观的拖拽式页面编辑器、功能完善的内容管理后台、海量行业模板库,并确保所有页面完美适配手机、平板等不同屏幕。更值得一提的是,其额外集成了App快速生成、微信公众号管理以及微信小程序开发等核心能力,全面

时间:2026-05-16 11:06
智合同智慧应用平台助力企业高效签约

智合同智慧应用平台助力企业高效签约

智合同是一款深度融合人工智能技术与法律服务的创新平台,由天津滨海高新技术产业开发区内一家具备独角兽潜力的科技企业自主研发。目前,品牌已在武汉、深圳、南京等核心城市设立分支机构,形成覆盖全国的服务网络,专注于提供基于人工智能、大数据与互联网的综合解决方案。 自2016年成立以来,智合同在知识产权与技术

时间:2026-05-16 11:05
iH5互动大师专业H5制作工具2000多家知名企业选择

iH5互动大师专业H5制作工具2000多家知名企业选择

在数字内容创作领域,一款高效且专业的工具往往是品牌与用户建立深度连接的关键。无论是国际巨头如Google、Uber,还是国内领先企业如京东、澎湃新闻,其背后频繁出现的动态、交互式内容,常离不开一类核心技术的支持——H5。目前,已有超过2000家知名品牌借助专业的H5工具进行创意表达,而一个汇聚了十万

时间:2026-05-16 11:05
高级面试辅导助你成功通过求职面试

高级面试辅导助你成功通过求职面试

面试教练(JobInterviewCoach)是一家致力于提供专业级面试辅导服务的在线平台,其核心使命在于系统化赋能求职者,全面提升面试准备效率与成功率。无论您是即将踏入社会的应届毕业生,还是寻求职业突破的资深职场人,该平台均能通过体系化的工具与个性化服务,助您从容应对求职过程中的关键挑战。 平台官

时间:2026-05-16 11:05
Huru人工智能视频面试平台助你高效准备求职

Huru人工智能视频面试平台助你高效准备求职

在当今竞争激烈的求职市场中,视频面试已成为企业招聘的常见环节。如何系统、高效地准备面试,成为众多求职者关注的焦点。Huru ai 作为一款人工智能驱动的面试准备平台,正通过智能模拟与实时反馈,为求职者提供专业、个性化的面试提升方案。 简而言之,Huru ai 是一个基于 AI 技术的视频面试模拟与辅

时间:2026-05-16 11:05
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程