中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

热心网友时间：2026-05-19

转载

具身智能领域，最近被一群年轻人“刷新”了认知。

当行业还在仿真与现实迁移的课题中探索时，一支由00后主导的团队——灵初智能，选择了一条更直接的路径：用近十万小时的人类真实操作数据，为机器人“喂食”。这个数据量级，即便放在全球视野下，也堪称领先。

目前，业界常用的人类操作数据集多在几千至几万小时，即便是英伟达推出的EgoScale数据集，其第一视角视频数据也约为两万小时。灵初此次将基准提升到了“十万小时+”的新高度，并率先开源了其中的1000小时。

更引人注目的是其发布形式：一场技术直播，由AI博主弗兰克与灵初智能的00后联合创始人陈源培共同拆解。整场直播的核心，可以概括为两个关键问题：具身智能应该“吃什么数据”，以及应该构建“什么样的智能架构”。

简而言之，灵初提供的是一条务实的差异化路线：直接对齐人类高质量数据，并通过Psi-R2与Psi-W0双系统架构，将能力平稳落地到具体场景。

成果立竿见影。其核心模型Psi-R2迅速登顶由美国艾伦人工智能研究所发起的全球具身智能权威基准评测平台MolmoSpace。在该榜单中，Psi-R2的表现超越了PI、DreamZero等国际知名模型，稳居行业第一梯队。在任务成功率指标上，更是比同类视觉语言动作模型高出近十倍。

这意味着，具身智能领域迎来了首个可直接用于预训练的大规模人类手部操作全模态数据集。下面，我们来深入拆解这场直播透露的技术细节。

十万小时数据：为具身智能提供“顶级养分”

一个根本性问题首先被抛出：为何具身智能会陷入“数据荒”？

关键在于数据源的差异。自动驾驶、大语言模型等领域，得益于现实场景与互联网的海量存量数据，能够通过算力 Scaling Law 实现性能提升。然而，物理世界的极端复杂性使得具身智能几乎无法依赖现成的成熟数据集，也难以像互联网产品那样轻松地边用边积累。

数据，已成为制约具身智能发展的关键瓶颈之一。于是，行业目光纷纷投向人类数据——这本就是最优秀的参考对象，质量高且潜力巨大。但直接复用面临一个核心障碍：“本体差异”。机器人与人类在运动结构、动力学特性上截然不同，直接套用必然“水土不服”。

此外，现有的人类数据要么规模太小，要么是网络上粗糙的第一人称视频，难以直接用于模型预训练。然而，综合权衡之下，人类数据仍是目前最优的路径。灵初团队给出了一个明确的判断：要实现面向真实商业场景的落地，基于纯人类数据的训练是不可或缺的。

具身智能要想面向真实商业化场景落地，纯人类数据训练是必要的。

这背后有双重考量。其一，人类数据封装了经过商业验证的标准作业流程，机器人能直接学习这些高效、成熟的“经验”，实现与真实场景的无缝衔接，大幅降低数据成本。例如，采集人类触觉数据的成本，可能不到机器人采集的十分之一。

其二，人类标准作业流程所要求的速度，往往更接近机械臂的物理极限（例如1200单位），远超传统遥操作能达到的速度（例如800单位），从而更能满足商业化工厂对高节拍的需求。

因此，灵初最终构建了首个可用于预训练的大规模人类操作数据集。在处理人机数据融合时，他们遵循“原生数据进，原生数据出”的简化原则：舍弃复杂的人工设计，直接进行运动学对齐，让模型在海量数据中自主探索规律。同时，利用自动标注技术进行数据质检，再辅以人工审核。

最终用于预训练的数据集包含真机数据5417小时与人类数据95472小时，总量超过十万小时。目前已有1000小时开源，预计到年底，数据集将扩展至百万小时量级。这些人类数据通过自研外骨骼手套及裸手采集，覆盖了294种场景、4821项任务与1382种物体。

为何特别强调触觉数据？核心在于弥合“本体差异”。尽管人与机器人在形态上迥异，但在接触物体时的信号反馈却高度一致。触觉信息能有效补偿动力学差异，显著提升世界模型的能力，并更好地预测机器人与物体的交互结果。

经过如此高质量数据的预训练，机器人在泛化能力、长流程操作和操作精度上都将获得突破，后续仅需不到100条真机轨迹数据即可完成场景微调。

在此过程中，灵初团队还揭示了一个关键洞见：

数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。低信噪比的数据甚至还会起到反作用。

如何判断数据信噪比？主要看两点：

一是数据集分布：操作任务的多样性大于物体多样性，二者又远大于场景多样性。泛化能力是模型习得的难点，若在预训练阶段接触更多任务和对象，模型适应新任务的速度自然更快。

二是感知模态：精准的3D手部位姿追踪信息，其价值高于触觉模态，更远高于2D图像特征。在全模态信息中，精准的3D位姿是实现从2D到3D模型转化的关键，也与机器人的动力学特性匹配度最高。

简言之，高精度可复现的数据与侧重泛化的粗糙数据，二者缺一不可。它们相互补充，共同保障模型既精准又泛用。

双系统架构：为机器人构建“新大脑”

基于上述认知，灵初发布了全新的Psi双系统架构：Psi-R2与Psi-W0。

首先看Psi-R2，这是一个让机器人学习人类精细操作的模型，其核心能力源于十万小时的海量数据。它以图像和语言指令为输入，输出预测的未来操作视频及可执行动作，因此可被称为“世界行动模型”。

其训练骨干网络采用Wan2.2-IT2V-5B-480P，预训练阶段同步使用真机与人类数据，并构建了完整的数据处理流水线。通过外骨骼手套等技术，手部动作捕捉误差可控制在亚毫米级，确保人类操作的微妙细节能被机器人精准模仿。

但这类世界行动模型普遍存在响应延迟的问题，单次推理可能耗时2.2秒，导致机器人动作卡顿。灵初通过DiT缓存、Torch编译、模型量化等技术优化，将响应时间压缩到了100毫秒以内。

再看Psi-W0，其基础架构与Psi-R2相似，但职能不同。如果说Psi-R2负责“学习如何做”，那么Psi-W0则负责“协助做得更好”。它是一个动作条件型世界模型，以机器人动作为输入，输出对未来场景的预测。

那么，既然Psi-R2也能预测，为何还需要Psi-W0？答案在于“反事实推理”。Psi-R2学习的是成功操作样本，例如“成功抓起苹果”，但无法预演“苹果抓不稳”等失败情况。而失败经验对于机器人规避错误、优化动作至关重要。Psi-W0正是为了填补这部分空白而生，其训练数据中特意包含了30%的失败样本。

两者并非孤立，而是协同工作。当Psi-R2学习完毕后，Psi-W0会模拟操作场景让其“演练”，进行策略评估，检查学习效果。更重要的是，Psi-W0能通过强化学习，将人类数据转化为机器人数据。传统方法依赖复杂的仿真环境调整，而Psi-W0直接模拟机器人视角与动作模式，通过试错调优，实现动作的精准转换。

更关键的是，这个过程能持续生成新的优质数据，反哺给Psi-R2和Psi-W0学习，从而形成一个不断自我增强的“数据飞轮”。通过对Psi-W0施加随机扰动，还能模拟特殊场景，生成针对性的训练数据。

最终，这套系统能够实现长程任务自主规划、任务失败自主恢复，并适配多场景复杂任务。