物理AGI双金字塔体系解析数据与算法如何驱动具身智能规模化

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

物理AGI双金字塔体系解析数据与算法如何驱动具身智能规模化

热心网友时间：2026-05-23

转载

过去两年，具身智能领域最受关注的两大技术路线，分别是「世界模型」与「VLA/动作模型」。

前者以英伟达Cosmos、谷歌Genie为代表，致力于通过生成式世界模型来扩展训练数据供给；后者则以Physical Intelligence的π系列、Diffusion Policy等为典型，主张依靠大规模真机采集数据来获得通用动作能力。

两条路径均取得了显著进展，但始终未能彻底解答一个核心问题：当我们以「物理通用人工智能（物理AGI）」为终极目标时，究竟需要构建怎样的算法体系与数据体系，才能真正验证并跑通Scaling Law（规模定律）？

5月20日，在武汉光谷举行的「家庭场景子品牌发布会暨物理通用智能技术发布会」上，极佳视界（GigaAI）给出了一套相对完整的解决方案。

极佳视界5.20发布会现场

本次发布会重磅发布了五项关键信息：全球首个针对物理AGI的「双金字塔」体系；正式推出面向家庭场景的子品牌「拾光SeeLight」及其首款家庭通用人形机器人「拾光S1」；宣布国内首个真实家庭场景百台机器人部署已在武汉落地，将于第三季度启动规模化运营；预告下一代产品「拾光S2」将于三季度发布，并同步开启真实家庭创始版预定；最后，公布了一份为期12个月的清晰路线图——计划连续发布GigaBrain-1、GigaBrain-2、GigaBrain-3三代基础模型，目标直指物理AGI的「GPT-3时刻」。

信息量极为密集，而我们最为关注的，是其中关于物理AGI「双金字塔」体系的阐述。

从Scaling的瓶颈谈起

为何具身智能至今未能成功验证Scaling Law？极佳视界合伙人、研发副总裁叶云在发布会上将瓶颈归结为两大方面。

首先是数据侧。真机数据精度最高，但受制于高昂成本与采集规模；互联网视频数据规模庞大，却缺乏动作执行的监督信号；仿真数据可无限生成，但存在难以逾越的仿真到现实鸿沟（sim-to-real gap）。任何单一数据来源，都无法同时满足Scaling Law对数据规模、信息密度与真实性的三重苛刻要求。

其次是算法侧。当前以语言模型为主导的视觉-语言-动作（VLA）范式，本质是将视觉与动作信息“token化”后输入语言模型，其架构天生不擅长编码三维空间信息、物理因果关系以及连续动作序列。换言之，即使堆砌了足够数据，现有主流模型架构也未必能高效消化并转化为智能。

极佳视界合伙人、研发副总裁叶云

针对这两大卡点，极佳视界提出的解决方案是，将数据与算法分别按照层次结构进行系统性构建，形成一座「数据金字塔」和一座「算法金字塔」，二者紧密耦合，缺一不可。这便是「双金字塔」体系的核心理念。

全球首个物理AGI「双金字塔」体系

从底层逻辑看，这是物理AGI赛道首次有公司将规模化（Scaling）的可行路径进行系统化拆解与呈现。

五层数据金字塔

数据金字塔自底向上依次为：互联网视频数据、真人示范数据、世界模型模拟器数据、仿真合成数据、真机数据。

这一划分本身呼应了学术界对具身数据源的普遍讨论：塔尖的真机数据精度最高但覆盖最窄；塔基的互联网视频规模最大但监督最弱；中间三层（真人示范、仿真、世界模型生成）则是工程化潜力最大、也最易被低估的部分。

真正值得关注的是，极佳视界为每一层都配备了对应的工程化产品与采集方案：

真机数据由家庭版轮臂机器人「拾光S1」及低成本真机数据采集硬件「Maker M01」协同采集；仿真合成数据与世界模型模拟器数据由自研的具身世界模型平台「GigaWorld-0」系统化生成；真人示范数据通过低成本手持采集设备「U-01」与低成本第一视角（Ego）采集设备「E-01」进行大规模采集；互联网视频数据则复用YouTube、Panda-70M等公开数据集。

极佳视界「数据金字塔」

U-01、E-01这类「低成本、非本体绑定」的数据采集硬件，其思路与斯坦福团队UMI及EgoMimic的研究一脉相承，被学术界公认为突破真机数据瓶颈的可行方向之一。

不同之处在于，极佳视界将其与自研机器人本体（S1）、世界模型平台（GigaWorld-0）整合，构建了一套完整的全栈数据采集体系。单一技术点创新并不罕见，但能全栈打通且每一层都有自研硬件作为支撑，这在国内具身智能公司中尚属前列。

三层算法金字塔

算法金字塔自底向上分为：世界模拟层、动作对齐层、经验强化层。

极佳视界将这三层能力具体落地到相应的模型上。

世界模拟层的代表是具身世界模型GigaWorld-1。该模型在世界模型领域权威评测平台WorldArena上，以综合得分62.34击败Wan、CogVideoX、Veo 3.1、Cosmos-Predict等强劲对手，荣登全球第一，也是该榜单中首个综合得分突破60分的具身世界模型。

动作对齐层包括GigaBrain-0系列与GigaWorld-Policy。前者是VLA路线的具身基础模型，在全球规模最大的真机操作评测RoboChallenge中，以51.67%的任务成功率位列全球榜首，领先Physical Intelligence的π0.5近10个百分点；后者是世界动作模型，在面向家庭场景的全球权威评测平台RoboCasa365上，击败英伟达GR00T N1.5与π0.5获得全球第一，成为该榜单首个登顶的世界动作模型。

经验强化层则是GigaBrain-0.5M*，通过「世界模型+强化学习」的框架，实现具身基础模型的自我进化与能力提升。

极佳视界「算法金字塔」

在具身智能赛道，单一榜单夺冠并不稀奇。但能够同时在「世界模型」、「模仿学习」、「强化学习」这三个核心方向上，于全球权威评测中均取得第一，并将三层算法之间的数据流转与协同关系打通，目前在国内仅有极佳视界一家实现。WorldArena、RoboChallenge、RoboCasa365三大评测结果，分别证明了其在感知与生成、真机操作、家庭场景泛化三大领域的顶尖能力。这三个「全球第一」也强有力地佐证了「双金字塔」体系背后坚实的技术底蕴。

技术体系跑通后，下一站：家庭场景

技术体系初步验证后，下一个问题便是：选择哪个场景来真正验证Scaling Law是否成立？极佳视界的答案是：真实的家庭环境。

发布会上，极佳视界联合创始人、首席科学家朱政博士正式发布了公司面向家庭场景的全新子品牌——「拾光SeeLight」，定位为「国内首个家庭通用机器人品牌」，并由朱政博士亲自担任品牌CEO。

极佳视界联合创始人 & 首席科学家、拾光品牌CEO 朱政

朱政在发布会上表示：「AGI不应只停留在屏幕与代码中。我们不是在讲述一个遥远的未来故事，而是致力于将骨子里对物理AGI的信念，转化为真实可用的产品，让物理AGI服务于每一个家庭与个人。」

伴随品牌发布，首代产品「拾光S1」同步亮相，被定义为「全球首个进入真实家庭场景的通用人形机器人」。S1采用为家庭环境优化的轮臂式构型，搭载极佳视界自研的具身基础模型，具备从环境感知、语义理解到任务执行的完整闭环能力。

选择家庭而非工业或物流作为物理AGI的首发落地场景，从技术角度看是一个颇具挑战的决策。家庭场景的开放性、任务的长尾性、人机交互的复杂度，都远超结构化工业场景。正因如此，它成为验证机器人「通用性」最为严苛的试金石。极佳视界这种「先难后易」的场景选择策略，与其在算法侧追求通用能力的技术演进路径一脉相承。

百台部署：首笔可被验证的规模化订单

过去一年，具身智能赛道最受诟病的问题之一，便是「发布会演示效果与真实场景可用性之间存在巨大鸿沟」。多数公司会展示样机的华丽能力，却鲜少能证明其在实际家庭中如何持续、稳定地工作。对此，极佳视界在本次发布会上给出的回应是一笔已经落地的规模化订单。

极佳视界宣布，拾光S1已获得真实家庭场景的百台订单，将率先部署于武汉光谷之寓社区（一个真实的居住社区），并于第三季度起开启规模化运营。这是公开信息中，家庭通用机器人规模化部署的首个案例。此前，Figure、1X等海外厂商披露的家庭试用，多停留在个位数订单或员工内部体验阶段。

「100台+真实社区+Q3规模化运营」的组合，意味着一项关键资产即将开始积累：来自真实家庭的长期、多维度使用数据。

机器人进入武汉光谷之寓真实场景

这正是Scaling Law在物理智能领域能否成立的核心。极佳视界在发布会上透露，拾光S1的家庭场景展示体验空间将于2026年5月31日起正式对外开放参观。

拾光S2：机器人本体的系统性升级

发布会还预告了第二代产品「拾光S2」将于2026年第三季度正式发布。从已披露的本体参数来看，这将是一次系统性重构，而非简单迭代：

底盘体积缩减60%，更适配家庭狭窄空间；电池续航提升70%，并支持热插拔更换，这直接决定了机器人在真实服务中的连续工作能力；操作范围扩大40，可支持2.2米高度内的任务执行。朱政博士在发布会上强调：「S2的核心升级，不在于某个参数的单纯优化，而在于整机设计开始全面贴近真实家庭对机器人『可用性』的本质需求。」

拾光S2全新设计构型，定价、发售政策将于三季度全面揭晓

从产业视角看，机器人本体侧的关键瓶颈在于「能否在真实家庭环境中长期、稳定、可靠地工作」——涉及续航、热管理、关节寿命、安全冗余、维护成本等工程细节。S2的三项核心升级均直指这些痛点，体现了务实克制的工程取向。同时，真实家庭创始版预定通道已于发布会当日正式开启。

12个月，三代基础模型，剑指「GPT-3时刻」

发布会的压轴部分，是极佳视界首次公开其物理AGI基础模型的12个月研发路线图——计划连续推出GigaBrain-1、GigaBrain-2、GigaBrain-3三代模型。

GigaBrain-1将于2026年第三季度发布，是全球首个基于「双金字塔」体系构建的物理AGI基础模型，目标是在物理智能的泛化能力上达到新高度。随后的GigaBrain-2与GigaBrain-3将加速规模扩展，其中GigaBrain-3计划基于1000万小时视频数据与100万小时世界-动作联合数据进行训练，剑指物理AGI的「GPT-3时刻」。

GigaBrain-3剑指物理AGI的「GPT-3时刻」

GPT-3在数字AGI历史上的里程碑意义，不在于模型本身，而在于它首次清晰地展现了Scaling Law的「涌现」能力——当模型与数据规模跨越某个临界阈值后，能力发生从量变到质变的跃迁。物理AGI的「GPT-3时刻」在理论上应是同构的：当数据规模（千万小时级）与算法范式（双金字塔体系）达到某个临界点后，物理智能体将表现出真正意义上的通用能力。

这是一个可被检验的技术假设。未来12个月，行业将见证这个临界点是否真实存在，以及极佳视界设定的数据与模型规模目标是否恰好落于该临界点之上。在具身智能赛道当前阶段，这种「用明确技术节点回应根本问题」的坦诚姿态并不常见——同行的回答往往停留在「即将到来」、「未来可期」、「五年内」等时间模糊的表述。

极佳视界将「物理AGI何时到来」这一宏大命题，拆解为「需要构建怎样的体系」与「何时达到关键节点」两个具体的技术问题，这正是本次发布会区别于其他同类发布的核心所在。