当前位置: 首页
AI
中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

中国具身智能模型登顶全球榜首开启机器人数据驱动新纪元

热心网友 时间:2026-05-19
转载

具身智能领域,最近被一群年轻人“刷新”了认知。

当行业还在仿真与现实迁移的课题中探索时,一支由00后主导的团队——灵初智能,选择了一条更直接的路径:用近十万小时的人类真实操作数据,为机器人“喂食”。这个数据量级,即便放在全球视野下,也堪称领先。

目前,业界常用的人类操作数据集多在几千至几万小时,即便是英伟达推出的EgoScale数据集,其第一视角视频数据也约为两万小时。灵初此次将基准提升到了“十万小时+”的新高度,并率先开源了其中的1000小时。

更引人注目的是其发布形式:一场技术直播,由AI博主弗兰克与灵初智能的00后联合创始人陈源培共同拆解。整场直播的核心,可以概括为两个关键问题:具身智能应该“吃什么数据”,以及应该构建“什么样的智能架构”。

简而言之,灵初提供的是一条务实的差异化路线:直接对齐人类高质量数据,并通过Psi-R2与Psi-W0双系统架构,将能力平稳落地到具体场景。

成果立竿见影。其核心模型Psi-R2迅速登顶由美国艾伦人工智能研究所发起的全球具身智能权威基准评测平台MolmoSpace。在该榜单中,Psi-R2的表现超越了PI、DreamZero等国际知名模型,稳居行业第一梯队。在任务成功率指标上,更是比同类视觉语言动作模型高出近十倍。

这意味着,具身智能领域迎来了首个可直接用于预训练的大规模人类手部操作全模态数据集。下面,我们来深入拆解这场直播透露的技术细节。

十万小时数据:为具身智能提供“顶级养分”

一个根本性问题首先被抛出:为何具身智能会陷入“数据荒”?

关键在于数据源的差异。自动驾驶、大语言模型等领域,得益于现实场景与互联网的海量存量数据,能够通过算力 Scaling Law 实现性能提升。然而,物理世界的极端复杂性使得具身智能几乎无法依赖现成的成熟数据集,也难以像互联网产品那样轻松地边用边积累。

数据,已成为制约具身智能发展的关键瓶颈之一。于是,行业目光纷纷投向人类数据——这本就是最优秀的参考对象,质量高且潜力巨大。但直接复用面临一个核心障碍:“本体差异”。机器人与人类在运动结构、动力学特性上截然不同,直接套用必然“水土不服”。

此外,现有的人类数据要么规模太小,要么是网络上粗糙的第一人称视频,难以直接用于模型预训练。然而,综合权衡之下,人类数据仍是目前最优的路径。灵初团队给出了一个明确的判断:要实现面向真实商业场景的落地,基于纯人类数据的训练是不可或缺的。

具身智能要想面向真实商业化场景落地,纯人类数据训练是必要的。

这背后有双重考量。其一,人类数据封装了经过商业验证的标准作业流程,机器人能直接学习这些高效、成熟的“经验”,实现与真实场景的无缝衔接,大幅降低数据成本。例如,采集人类触觉数据的成本,可能不到机器人采集的十分之一。

其二,人类标准作业流程所要求的速度,往往更接近机械臂的物理极限(例如1200单位),远超传统遥操作能达到的速度(例如800单位),从而更能满足商业化工厂对高节拍的需求。

因此,灵初最终构建了首个可用于预训练的大规模人类操作数据集。在处理人机数据融合时,他们遵循“原生数据进,原生数据出”的简化原则:舍弃复杂的人工设计,直接进行运动学对齐,让模型在海量数据中自主探索规律。同时,利用自动标注技术进行数据质检,再辅以人工审核。

最终用于预训练的数据集包含真机数据5417小时与人类数据95472小时,总量超过十万小时。目前已有1000小时开源,预计到年底,数据集将扩展至百万小时量级。这些人类数据通过自研外骨骼手套及裸手采集,覆盖了294种场景、4821项任务与1382种物体。

为何特别强调触觉数据?核心在于弥合“本体差异”。尽管人与机器人在形态上迥异,但在接触物体时的信号反馈却高度一致。触觉信息能有效补偿动力学差异,显著提升世界模型的能力,并更好地预测机器人与物体的交互结果。

经过如此高质量数据的预训练,机器人在泛化能力、长流程操作和操作精度上都将获得突破,后续仅需不到100条真机轨迹数据即可完成场景微调。

在此过程中,灵初团队还揭示了一个关键洞见:

数据信噪比才是决定人类数据能否有效支撑预训练的核心因素。低信噪比的数据甚至还会起到反作用。

如何判断数据信噪比?主要看两点:

一是数据集分布:操作任务的多样性大于物体多样性,二者又远大于场景多样性。泛化能力是模型习得的难点,若在预训练阶段接触更多任务和对象,模型适应新任务的速度自然更快。

二是感知模态:精准的3D手部位姿追踪信息,其价值高于触觉模态,更远高于2D图像特征。在全模态信息中,精准的3D位姿是实现从2D到3D模型转化的关键,也与机器人的动力学特性匹配度最高。

简言之,高精度可复现的数据与侧重泛化的粗糙数据,二者缺一不可。它们相互补充,共同保障模型既精准又泛用。

双系统架构:为机器人构建“新大脑”

基于上述认知,灵初发布了全新的Psi双系统架构:Psi-R2与Psi-W0。

首先看Psi-R2,这是一个让机器人学习人类精细操作的模型,其核心能力源于十万小时的海量数据。它以图像和语言指令为输入,输出预测的未来操作视频及可执行动作,因此可被称为“世界行动模型”。

其训练骨干网络采用Wan2.2-IT2V-5B-480P,预训练阶段同步使用真机与人类数据,并构建了完整的数据处理流水线。通过外骨骼手套等技术,手部动作捕捉误差可控制在亚毫米级,确保人类操作的微妙细节能被机器人精准模仿。

但这类世界行动模型普遍存在响应延迟的问题,单次推理可能耗时2.2秒,导致机器人动作卡顿。灵初通过DiT缓存、Torch编译、模型量化等技术优化,将响应时间压缩到了100毫秒以内。

再看Psi-W0,其基础架构与Psi-R2相似,但职能不同。如果说Psi-R2负责“学习如何做”,那么Psi-W0则负责“协助做得更好”。它是一个动作条件型世界模型,以机器人动作为输入,输出对未来场景的预测。

那么,既然Psi-R2也能预测,为何还需要Psi-W0?答案在于“反事实推理”。Psi-R2学习的是成功操作样本,例如“成功抓起苹果”,但无法预演“苹果抓不稳”等失败情况。而失败经验对于机器人规避错误、优化动作至关重要。Psi-W0正是为了填补这部分空白而生,其训练数据中特意包含了30%的失败样本。

两者并非孤立,而是协同工作。当Psi-R2学习完毕后,Psi-W0会模拟操作场景让其“演练”,进行策略评估,检查学习效果。更重要的是,Psi-W0能通过强化学习,将人类数据转化为机器人数据。传统方法依赖复杂的仿真环境调整,而Psi-W0直接模拟机器人视角与动作模式,通过试错调优,实现动作的精准转换。

更关键的是,这个过程能持续生成新的优质数据,反哺给Psi-R2和Psi-W0学习,从而形成一个不断自我增强的“数据飞轮”。通过对Psi-W0施加随机扰动,还能模拟特殊场景,生成针对性的训练数据。

最终,这套系统能够实现长程任务自主规划、任务失败自主恢复,并适配多场景复杂任务。

开源:撬动高效落地的关键杠杆

纵观整场直播,无论是弗兰克的提问还是陈源培的解答,“落地”始终是贯穿技术讨论的核心关键词。

从技术端看,从大规模人类数据采集到具身模型构建,每一步都从实际落地场景出发。在应用端,灵初智能宣布与北京石景山区共建数采厂,并与腾讯云、抖音、觅蜂、智域基石等达成生态合作。

可以看出,这家公司自诞生起,其基因便是聚焦技术落地与提供通用全栈方案。它的每一步都在印证一个行业共识:具身智能的终极考场不在实验室,而在每一个具体、复杂的真实场景中。

在通往落地的道路上,灵初也率先意识到,开源并非可选,而是必由之路。对其自身而言,开源能吸引全行业共同贡献数据,补全数据飞轮的关键一环。在AI时代,时间与数据是最稀缺的资源,越早入场、积累越多,就越能占据长尾优势。

对行业而言,开源是打破技术孤岛、建立广泛开发者生态的钥匙。通过标准化的数据管线与预训练底座,能让具身智能技术不再局限于少数厂商。全行业开源共建,反而能助推像灵初这样的硬核玩家,集中精力攻克尖端难题。汇聚众人之智,或许是具身智能跟上商业节奏、实现大规模落地的唯一捷径。

目前看来,灵初无疑是这条赛道上步伐既快且稳的明星选手之一。用一句话来概括:既有仰望星空的远见,也有脚踏实地的耕耘。具身智能的格局,正因这样的实践而悄然改变。

来源:https://www.163.com/dy/article/KQ7OQQ800511DSSR.html

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
可灵AI制作陶艺拉坯动画教程:从零到一的详细步骤

可灵AI制作陶艺拉坯动画教程:从零到一的详细步骤

你是否曾尝试使用可灵AI生成陶艺拉坯过程的演示视频,却常常发现生成的动作不够自然,手部与泥坯的形变也缺乏连贯的物理逻辑?这主要是因为通用的视频生成模型,并未针对陶瓷制作这类需要精细、专业动作序列的领域进行专门训练。但无需担忧,通过一系列针对性的优化策略,我们完全可以引导AI输出更符合物理规律与行业标

时间:2026-05-19 22:33
CodeBuddy代码重构实战指南:方法与步骤详解

CodeBuddy代码重构实战指南:方法与步骤详解

面对代码结构混乱、逻辑耦合严重、命名不规范的技术债务,团队常因资源紧张、时间有限而难以启动重构。传统人工重构不仅成本高、风险大,后续的验证工作也令人望而生畏。 如今,有了更高效的解决方案。CodeBuddy 提供多种灵活的重构路径,能针对不同场景,系统化地帮助你清理代码债务。无论是单文件的局部优化,

时间:2026-05-19 22:32
优化Figma大文件加载慢问题:清理隐藏图层释放内存

优化Figma大文件加载慢问题:清理隐藏图层释放内存

处理大型Figma设计文件时,如果遇到加载缓慢、页面空白或操作卡顿,问题往往不在于你的电脑配置,而在于文件内部那些“看不见的负担”——堆积的隐藏图层、未释放的内存引用以及冗余的资源占用。别担心,这并非无解。通过一套系统性的内存管理和图层清理流程,完全可以让臃肿的文件重新变得轻盈流畅。下面,我们就来一

时间:2026-05-19 22:32
SSH密钥配置与访问权限安全设置最佳实践

SSH密钥配置与访问权限安全设置最佳实践

如果您的QoderWake服务器环境仍然依赖传统密码进行远程登录,这相当于在服务器入口仅安装了一把简易挂锁,安全防护极为薄弱。暴力破解攻击、会话劫持风险、凭证意外泄露……这些安全隐患时刻威胁着系统安全。将认证机制全面升级为SSH密钥登录,并结合系统性的安全加固策略,是构建企业级服务器访问安全防线的行

时间:2026-05-19 22:32
车企集体布局机器人技术如何推动汽车工业智能化变革

车企集体布局机器人技术如何推动汽车工业智能化变革

全球主流车企正跨界布局具身智能机器人,借助技术复用、制造协同与场景闭环等优势,破解硬件成本高、量产不足与盈利模式模糊等产业瓶颈。此举旨在推动人形机器人实现万台级规模化应用,完成向“具身智能解决方案提供商”的战略转型,重塑智能制造与人工智能的未来格局。

时间:2026-05-19 22:32
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程