π0.7发布开启VLA新阶段机器人迎来GPT-3时刻
今天凌晨,机器人领域传来一声惊雷。由Physical Intelligence公司发布的全新VLA模型π0.7,以一种意想不到的方式,为“世界模型”的叙事敲下了一记重锤。
它的突破点在于,首次在机器人领域实证了组合泛化能力。简单来说,当面对一个全新任务时,这个模型能够像搭积木一样,组合运用过去学过的原子技能,自己“琢磨”出解决方案。
这好比一位篮球运动员,只学过跳投和后仰,但在实战中面对新的防守姿态时,却能自发地组合出“后仰跳投”这一招。没人专门教过,但他就是会了。
演示视频中最令人印象深刻的有两点:
任务泛化:机器人从未见过空气炸锅,却能根据指令,组合机械臂动作,成功烤出红薯。
本体泛化:将从一台机械臂上学到的抓取策略,直接部署到另一台结构不同的机械臂上。
更有趣的是,连Physical Intelligence的研究员自己也坦言,他们尚未完全摸清π0.7的能力边界。模型展现出的潜力仍在探索中,效果相当令人惊喜——切黄瓜、削皮、倒垃圾、烤红薯,样样都能上手。
研究员Ashwin Balakrishna感慨道:“过去我总能根据训练数据猜出模型能做什么。但这一次,我猜不到了。”
π0.7:具有涌现能力的可控模型
π0.7的核心洞见可以浓缩为一句话:多样化的数据需要多样化的指令描述。 但这句话带来的连锁反应,远比字面意义深远。
用多样化的指令,消化多样化的数据
传统的VLA训练方式相对粗放。例如,只给模型一句“清理冰箱”的指令,模型接收到的信号是单一且模糊的。π0.7则把指令展开为四个层次:
包括总任务指令(如“清理厨房”)、子任务指令(如“打开冰箱”)、子目标图像(展示下一秒的理想画面),以及数据元信息(标记这条数据的质量、有无错误、执行速度等)。
有了这些丰富的上下文信息,模型就能分辨训练数据中的优劣、快慢、对错。于是,以往难以利用的数据——失败的尝试、低质量的演示、其他机器人的片段,甚至人类的第一视角视频——都变成了有价值的训练信号。
问题的关键从来不是数据本身是否杂乱,而在于模型是否“理解”它正在学习什么。π0.7增加的这层指令,正是为了让模型明确知道“这段数据质量如何,采用了什么策略”。
正是这一改变,催生了具身智能领域一个历史性时刻:通才模型首次追平了专才模型。
通才追平专才
Physical Intelligence联合创始人Chelsea Finn提到了一个有趣的对比。在大语言模型领域,“后训练”通常指针对下游任务进行微调。机器人领域也长期卡在这一步:想要极致性能,就必须为特定任务进行精细微调。
π0.7打破了这一范式:它开箱即用,并且在某些任务上超越了经过微调的专家模型。
数据是最有力的证明。未经任何专项训练的π0.7,在制作咖啡、叠衣服、物品装箱这三个复杂任务上,其表现已经追平了经过微调的π0.6专家模型。
这里的专家模型分为两种:一种是基于π0.6、使用RECAP方法针对特定任务(咖啡、装箱、叠衣服)单独训练的强化学习专家;另一种是基于π0.6、针对每个任务单独进行监督微调的专家。
更令人惊讶的是,在叠衣服和装箱这两个公认的高难度任务上,π0.7在单位时间内完成任务的次数甚至超过了强化学习专家。这意味着,一个未经专门训练的通才,在某些维度上战胜了为特定任务而生的专才。这正是PI团队一直坚信并努力的方向。
组合泛化开始涌现
π0.7展现的涌现能力主要体现在四个方面:
开箱即用的灵巧操作:制作咖啡、叠衣服、剥蔬菜、削西葫芦、更换垃圾袋等任务,均无需额外专项训练。
指令泛化:在4个未见过的厨房和2个未见过的卧室环境中,能够遵循3到6步的开放式指令工作。它甚至能理解“拿起那个最大盘子里的水果”、“拿起我用来喝汤的那个东西”这类涉及复杂空间和语义指代的指令。
跨本体泛化:以叠T恤任务为例,训练数据中完全没有UR5e机械臂叠衣服的样本。然而π0.7不仅做到了,其任务完成度达到85.6%,与10位平均拥有375小时遥操作经验的顶级人类操作员90.9%的完成度基本持平。
更有意思的是,π0.7自己琢磨出了一套与源机器人完全不同的抓取策略。人类操作员在源机器人上采用倾斜夹爪贴住桌面抓取,而π0.7在UR5e上则采用了垂直抓取,因为这更适合UR5e更长的手臂运动学结构。
组合任务泛化:这是最核心的突破。诸如用空气炸锅烤红薯和贝果、按下特定按钮、用抹布擦拭耳机和尺子、拧动旋钮和桌面风扇等任务,在训练数据中一条都没有出现过。
这不再是简单增加任务数量的量变,而是标志着机器人首次像大语言模型那样,从训练数据中涌现出全新的、未经教授的能力。 正如Sergey Levine所言:一旦模型越过那个临界阈值,从“只能做收集过数据的事”转变为“开始重组出新事”,其能力将随数据量超线性增长。
数据过滤可能是个伪问题
论文中隐藏着一个极具碘伏性的实验。
研究团队将叠衣服的数据按质量分为四档:前30%、前50%、前80%以及全部数据。然后分别训练两个版本的π0.7:一个版本为每条数据添加元信息标签(标明质量分数、有无错误、完成速度),另一个版本则不添加。
结果耐人寻味。
对于不添加元信息的版本,数据越多,性能反而越差——因为低质量数据混入后干扰了模型学习。
对于添加了元信息的版本,数据越多,性能越好——即使数据的平均质量在下降。
这一发现暗示,整个具身智能领域过去几年投入巨大精力的“数据清洗”工作,可能正在变成一个伪命题。
关键在于让模型“知情”。只要模型知道每条数据的质量标签,它就能自主决定学习什么、忽略什么。 所谓的“垃圾数据”不再是垃圾,而是带着“质量=1/5”标签的有用信号;失败数据也不再是需要丢弃的废料,而是告诉模型“此路不通”的反面教材。
过去,研究者们小心翼翼地筛选演示、删除失败、清洗数据。π0.7的思路则是:别洗了,直接告诉模型哪些是“脏”的就行。
π0.7是怎么做到的?
π0.7是一个拥有50亿参数的三模块模型。
- 视觉语言模型骨干:采用40亿参数的Gemma3,负责理解视觉和语言信息。
- 动作专家模块:8.6亿参数的Transformer,使用流匹配技术生成连续的动作块,实现50Hz的高频控制。
- 世界模型模块:从140亿参数的BAGEL图像生成模型初始化,负责为π0.7描绘未来几秒的理想画面应该是什么样子。
在推理时,模型输入包括:4路摄像头画面(前视+两个腕部+可选后视)、每路6帧历史图像、机器人关节状态,再加上任务指令、子任务指令、元数据,以及世界模型实时生成的子目标图像。
输出则是一段50步的动作块,实际执行15到25步后,模型会重新推理生成下一段动作。
说到这里,或许会产生一个疑问:π0.7内置了一个世界模型,这是否意味着它与“世界模型”流派融合了?
答案是:半是,半不是。
世界模型流派的核心是让模型学会模拟物理演化:给定一个动作,预测世界状态将如何变化。策略网络基于这个预测来做决策。
π0.7中的世界模型不干这件事。它只负责一项任务:将任务指令“翻译”成成功那一刻应该呈现的画面。 它不预测动作后果,不模拟物理规律,也不参与决策链路。它本质上是一个“消歧器”,而非“规划器”。它借用了世界模型派的工具,却干了一件并非该流派初衷的事。
此外,π0.7还站在前人的肩膀上,继承了π0.6的架构基础,以及MEM模型的多尺度记忆编码器(结合短期视频记忆与长期语义记忆)。
在训练方法上,它采用了知识隔离技术——视觉语言模型骨干使用FAST token进行下一个token预测训练,而动作专家模块的梯度不会回传到视觉语言模型。这样,视觉语言模型从互联网海量数据中学到的语义知识得到了保护,不会被机器人动作数据所污染。
但必须指出,架构并非π0.7最重要的贡献。正如论文中所强调的:“我们的贡献不在于提出新的架构或模型设计,而在于提出了一套能让VLA模型利用更多样化数据源的方法论。”
VLM可以直接控制机器人,不需要先学会想象世界
在π0.7之前,具身智能领域最受瞩目的无疑是英伟达去年凭借Cosmos模型掀起的世界模型风潮。其核心理念是:让机器人先学会想象未来,再去操作现在。
这条路线看起来非常符合直觉,人类不正是这样规划行动的吗?闭上眼睛想象一下要做什么,然后再动手。
从2025年至今,这条路线吸引了最多的关注和资源投入。
然而今天,风向似乎又要变了——VLA路线强势回归!
而说到VLA,恐怕没人比Physical Intelligence的团队更懂。早在2023年,PI的联合创始人Karol Hausman、Sergey Levine和Chelsea Finn在谷歌研发RT-2时,就押注了一个判断:视觉语言模型可以直接控制机器人,无需先学会想象世界。
这意味着,你不需要让模型先学会预测下一帧画面、脑补物理规律、或建立一个内部的世界模拟器。你只需要将一个已经见识过互联网的视觉语言模型,连接上一个动作输出头,进行端到端训练,就足够了。
从RT-2到π0.7,VLA架构其实只演进了两代。
第一代是RT-2,它将机器人动作离散化为token,塞进视觉语言模型的下一个token预测框架中。这种方法能让机器人动起来,但控制精度不高,且自回归预测生成速度慢,难以满足50Hz的高频连续控制需求。
第二代则由π0系列开启,它为视觉语言模型连接了一个专门的“动作专家”模块,使用流匹配技术直接生成连续的动作块。
此后的诸多模型改进——π0.5的开放世界泛化、π0.6的强化学习自我练习、MEM的多尺度记忆——都未曾改动这个基础架构。它们都是在“视觉语言模型 + 动作专家 + 流匹配”这个核心结构上叠加新的能力。
π0.7也是如此。在架构层面,它与π0.6并无本质区别。它真正的增量在于“指令的多样性”。这也呼应了论文的观点:贡献不在于架构。
然而,这个故事里还有一个更耐人寻味的角色。
Lucy Shi,斯坦福大学在读博士生,师从Chelsea Finn,也是π0.7的核心作者之一。
她在社交媒体上分享了一个非常坦诚的故事。
此前,她曾跟随朱玉可、Jim Fan在英伟达从事世界模型的研究。
当时她押注的方向与Karol等人相反——她坚信世界模型才是关键钥匙,将在任务泛化上显著超越标准的VLA方法。
起初,实验结果似乎支持这个假设。她获得了令人惊艳的组合泛化效果,机器人能够遵循未见过的指令,完成训练数据中不存在的任务,并能从其他机器人和人类视频中迁移技能。
但一件奇怪的事情发生了。他们用作对比的VLA基线模型,性能一直在持续增强。
随着收集的数据越来越多,VLA基线变得越来越强,直到某一天,这个基线模型也开始展现出组合泛化的迹象。而且,VLA的方法要简单得多。
面对这一情况,Lucy感到一种无奈的幽默:“当你的基线模型‘吞噬’了你的研究假设时,你该怎么办?你只能写一篇论文,去搞清楚这个基线为什么这么强。”
那篇论文,就是π0.7。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
智元机器人GO2具身智能基座大模型详解
在机器人技术领域,一个长期存在的核心挑战是“语义-运动鸿沟”:机器能“看懂”指令,却难以“稳定执行”。传统的模型往往将理解与执行压缩在同一个瞬间,导致规划与动作脱节,在复杂多变的环境中表现不佳。而智元机器人最新推出的GO-2(Genie Operator-2),作为第二代具身智能基座大模型,正是为解
π0.7发布开启VLA新阶段机器人迎来GPT-3时刻
今天凌晨,机器人领域传来一声惊雷。由Physical Intelligence公司发布的全新VLA模型π0 7,以一种意想不到的方式,为“世界模型”的叙事敲下了一记重锤。 它的突破点在于,首次在机器人领域实证了组合泛化能力。简单来说,当面对一个全新任务时,这个模型能够像搭积木一样,组合运用过去学过的
北电数智星火AI云2.0发布 AI系统工程如何重塑产城发展新范式
2026年5月13日至14日,备受瞩目的Create 2026百度AI开发者大会将在北京隆重举行。本届大会以“万物一体”为核心主题,并实现了一项重要升级:首次将“Create百度AI开发者大会”与“云智大会”全面合并。此次整合旨在为参会者提供一站式、全景式的洞察体验,无论是关注AI基础设施的企业决策
中国人工智能学会联合人大高瓴AI学院与英博数科推出高校算力支持计划
4月9日,一场旨在加速人工智能产学研融合的战略合作签约仪式在中国人民大学成功举办。在中国人工智能学会(CAAI)的积极推动下,中国人民大学高瓴人工智能学院与英博数科正式达成协议,共同启动“高校学院算力支持计划”。这一举措,是对国家“人工智能+”行动战略的积极响应,其核心目标在于:强化高校智能算力基础
高瓴红杉联手投资具身大脑 中国创4.55亿美元融资纪录
近日,中国具身智能领域诞生了一项新的纪录——史上最高单轮融资。 4月16日,成立仅一年的它石智航宣布完成Pre-A轮融资,金额高达4 55亿美金。 一年前,这家公司曾以行业最大天使轮融资引发关注;一年后,其Pre-A轮融资再次刷新了中国具身智能的单轮融资纪录。 更引人瞩目的,是此次堪称顶配的投资方阵
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2015-03-10 11:25
2015-03-10 11:05
2021-08-04 13:30
2015-03-10 11:22
2015-03-10 12:39
2022-05-16 18:57
2025-05-23 13:43
2025-05-23 14:01
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

