对话灵初智能CEO王启斌：具身智能从硬件到数据的浪潮演进

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

对话灵初智能CEO王启斌：具身智能从硬件到数据的浪潮演进

热心网友时间：2026-05-21

转载

近期，全球领先的开源AI社区HuggingFace的Trending榜单迎来了一位瞩目的新星：由灵初智能（Lingchu AI）开源发布的SynData数据集，强势登顶全球榜首。

这一数据集的独特价值在于其背后超过10万小时的人类真实操作记录，广泛覆盖工业装配、生活操作、物体抓取等多元化场景。目前，其中1000小时的高质量数据已面向全球开发者开放。截至2026年5月13日，其下载量已迅速攀升至近1.5万次，显示出业界对高质量具身智能数据的迫切需求。

公开资料显示，灵初智能创立于2024年。公司创始人兼CEO王启斌，曾先后任职于云迹科技与京东机器人，在消费电子与商用机器人（涵盖酒店配送、物流仓储等领域）的研发、产品交付与商业化落地方面积累了深厚经验。联合创始人陈源培，其技术成就包括在全球范围内首次实现利用强化学习算法，在真实物理环境中同时控制双臂双手完成多项灵巧操作任务。

与众多聚焦于机器人本体运动控制的公司不同，灵初智能选择了一条差异化的技术路线：专注于人类行为数据。他们致力于通过采集人类在真实世界中的操作数据，来训练下一代具身智能模型，从而显著提升机器人在复杂任务中的泛化与适应能力。

在数据采集方法论上，团队摒弃了传统的遥操作与纯仿真方案，转而采用自主研发的多模态数据手套系统。该设备能够在真实操作场景中，同步高精度记录操作者的视觉信息、触觉反馈、关节角度等多维度传感数据，旨在获取信噪比更高、细节更丰富的精细操作数据集。

目前，灵初智能已成功部署上百套自研数据手套设备，完成了万小时级别的真实世界数据采集与验证。公司的目标是，在2026年内将数据采集规模提升至百万小时量级。

今年4月，灵初智能正式发布了Psi-R2与Psi-W0模型，共同构成了其创新的“双系统大模型架构”。简而言之，Psi-R2是一个“世界动作模型”（World Action Model），其核心职能是理解自然语言指令、规划动作序列，并直接驱动机器人执行。而Psi-W0则是一个“动作条件世界模型”（Action-Conditioned World Model），它不直接控制机器人，而是在后台模拟物理世界的运行规律，专门用于评估、优化和提升Psi-R2的动作策略。

正如灵初智能CEO王启斌所言：“当前，具身智能正从‘硬件驱动’阶段迈向‘数据驱动’的新阶段。灵初智能的目标，是在这波数据浪潮中成为行业‘数据标准的定义者’。”

他将公司的技术演进路径清晰地概括为三步走战略：

第一步，大幅降低采集成本。通过自研的外骨骼数据手套，将高质量人类操作数据的采集成本降至传统真机示教方案的十分之一，同时实现亚毫米级的动作捕捉精度，为大规模数据采集扫清障碍。

第二步，用数据训练出领先的模型。Psi-R2是全球首个基于10万小时量级人类真实数据进行预训练的世界动作模型，在权威的MolmoSpaces榜单上位列第一。据验证，该模型仅需少于100条针对新任务的真机演示轨迹，即可实现高效的任务泛化。

第三步，通过开源推动行业标准形成。公司已开源首批1000小时的人类手部全模态操作数据集。后续计划联合产业伙伴共同推动Benchmark（基准测试）体系建设，同步促进数据格式与评测指标形成行业共识。

对话灵初智能CEO王启斌：数据飞轮、行业误区与未来胜负手

以下为经编辑整理的对话实录：

关于客户与场景：聚焦高频、可量化的半结构化任务

Q：灵初智能的核心客户画像是什么？除了制造业精密装配、物流柔性打包，下一个重点拓展的落地场景是哪个？

王启斌：目前我们的核心客户主要分为两类：首先是制造业客户，核心解决其精密装配环节的自动化难题，例如消费电子产品的组装、汽车零部件的检测与装配；其次是物流行业客户，重点聚焦于服装仓储场景下的拣选、分拨与打包。服装物流的SKU（库存量单位）极其丰富，一个大型仓库可能管理数万个品类，这种天然的多样性对于训练我们模型的泛化能力具有极高价值。

关于下一个重点场景，我们正在深入评估零售门店的自动补货与货架整理，以及电商物流中心的多品混合订单拣选。这些场景具备几个共同的关键特征：任务执行频率高、效果易于量化评估、客户降本增效需求迫切，并且环境属于“半结构化”——既不像家庭等全开放环境那样复杂多变，也不像固定流水线工位那样完全结构化，这正好处于我们当前模型能力优势的“最佳区间”。同时，我们与明确的海外物流客户合作也在积极推进中。

关于数据路径：为何人类原生数据更具潜力？

Q：在您看来，直接从人类操作中采集数据，为何比通过遥操作或仿真生成数据更具潜力？当前行业在数据认知上是否存在一些普遍误区？

王启斌：人类在工厂、仓库或家庭环境中进行的灵巧操作，其数据天然蕴含了三重宝贵价值：真实的任务分解与执行逻辑、高度协调的手眼触觉精细反馈，以及面对突发状况时的自适应调整策略。这些深层信息是遥操作和仿真技术都难以完整复现的。

遥操作的主要问题在于节奏慢、成本高，且其性能天花板受限于操作者在屏幕前的远程操控能力——这远低于人在现场进行自然、沉浸式操作的水平。仿真的挑战则在于众所周知的“Sim2Real Gap”（仿真到现实的鸿沟）：在毫米级精度的灵巧操作中，一两毫米的偏差就可能导致任务失败，而仿真环境的物理模型无论如何精确，都与真实世界存在难以消除的差异。

目前行业存在几个比较明显的认知误区：第一，简单地将数据规模等同于模型能力。实际上，任务类型的多样性比物体种类的多样性更重要，而物体多样性又比单纯场景的多样性更重要，盲目堆砌数据量无法直接带来泛化能力的提升。第二，将遥操作数据视为“黄金标准”。我们的对比实验表明，在相同时长下，人类原生数据在精细操作任务上的迁移效果显著优于遥操作数据。第三，对数据模态完整性的重视不足。包含视觉、语言、关节角度、触觉信号的全模态数据，与仅有视频流的数据相比，其训练价值存在量级上的差异。

关于数据管线：如何让机器人学会新技能？

Q：能否详细描述一下，从通过数据手套采集一条人类动作数据，到机器人最终学会并优化一项新技能，这中间完整的处理管线是怎样的？有哪些具体证据表明你们的数据飞轮正在加速运转？

王启斌：完整的端到端数据管线大致如下：操作员佩戴我们的外骨骼手套执行特定任务，手套以亚毫米级精度同步采集手部关节运动轨迹、触觉压力信号以及第一视角视觉流，并关联语言指令标注。

数据回传至云端后，首先由Psi-W0世界模型进行自动化质量检测与评分——其核心是判断“该动作序列在物理上是否合理可行”。低分数据被自动过滤，高质量数据则进入标注池。绝大部分的数据标注工作由AutoLabeling（自动标注）系统完成，仅少数边界模糊的样本需要人工介入审核。最终，经过清洗的优质数据汇入Psi-R2的预训练数据池。

当需要将模型能力迁移到一个全新任务时，流程是：向Psi-R2输入少于100条该任务的真机演示轨迹进行快速微调 → 利用Psi-W0世界模型进行大规模强化学习，生成海量合成数据以覆盖各种长尾和边界情况 → 筛选出高质量的合成数据回流至预训练池 → 下一代模型的性能因此得到增强。这个闭环迭代的周期正在不断缩短。

数据飞轮加速最直观的证据，体现在新任务的上手效率上。半年前，教会模型一个全新任务可能需要数百条真机演示数据才能达到稳定性能；而现在，对于装配手机、工业品包装、折叠纸盒这类需要长程、精细规划的操作，不到100条演示轨迹就能实现可靠泛化。这清晰地表明，我们预训练模型的基础能力正在呈指数级提升，而非简单的线性增长。

关于数据金字塔：仿真数据的价值与真机数据的内部层级

Q：在机器人学习中，真机数据与仿真数据是否存在一个理想的“黄金比例”？此外，真机数据内部是否也存在着一个价值“金字塔”结构？

王启斌：仿真技术声量的相对下降，本质上是行业认识到Sim2Real Gap在灵巧操作领域是一个结构性问题，无法单纯通过调整仿真参数彻底解决。但仿真并未失去价值，其作用主要体现在三个方面：一是进行探索性训练，为那些尚无真实数据的长尾任务做前期算法预热；二是支撑大规模强化学习，在世界模型中高效生成反事实样本；三是进行安全边界测试，模拟各种极端和危险工况。我们的Psi-W0模型，本质上就是一种“基于真实物理感知的仿真”，它与完全虚拟的仿真有根本不同。

关于黄金比例，行业并无统一答案，我们内部也没有固定的配方——这完全取决于具体的任务类型。对于精密装配、柔性抓取等精细操作任务，真实人类数据的权重必须占主导；而对于搬运、推车等粗力矩任务，仿真数据的覆盖比例可以更高。追求一个固定的数据比例反而可能产生误导。

你提到的真机数据内部的“小金字塔”概念非常敏锐。确实，在我们看来，顶层的真实操作数据内部也存在清晰的价值层级：最高质量的是通过外骨骼手套采集的人类原生数据（具备高精度、全模态、天然携带任务意图）；其次是传统的遥操作数据（产生于真实物理环境，但节奏慢且存在操纵者偏差）；再次是机器人自主作业过程中回流的在线数据（这是最终理想状态，但当前质量参差不齐，需要严格筛选）。

灵初智能的策略是绕开传统的遥操作中间层，直接使用最高质量的人类原生数据进行模型预训练，再辅以极少量真机演示进行快速微调，本质上是将这个数据金字塔的中间层“压扁”，从而构建更高效的学习路径。

关于百万小时：量级共识与临界点预判

Q：行业似乎形成了一个共识，即需要百万小时级别的数据量。这个共识是如何形成的？您如何预判达到这个临界点后的效果？

王启斌：100万小时这个量级目标并非随意设定。可以类比大语言模型（LLM）的发展历程：从GPT-2到GPT-3，训练数据量的跃升带来了模型能力的“涌现”现象。我们坚信机器人领域同样存在一个类似的临界点，一旦跨越，模型对未见任务的Zero-Shot（零样本）泛化能力将发生质变，而不仅仅是性能的线性提升。目前，业界普遍将这个能力涌现的临界点预估在百万小时量级。

我们内部预判这个节点大约在2026年底前后出现。在实现路径上，我们正在多线并行推进：包括与大型制造工厂合作进行集中采集、建设专用的数据采集工厂，以及设计基于分布式微支付的众包采集网络。

从我们内部的预演结果来看，已经观察到一些积极的早期信号。当训练数据从1万小时扩展到10万小时时，模型在完全未见过的场景上的任务迁移成功率出现了非线性的显著提升——这给了我们极大的信心。按照这个趋势外推，达到百万小时量级后，我们预期新任务的冷启动所需数据量可以从现在的不到100条进一步大幅压缩，无限趋近于真正的Few-Shot（少样本）甚至Zero-Shot部署。

关于未来胜负手：三个周期的交错与取舍

Q：您曾将2026年具身智能的发展概括为硬件、数据、场景三个交错推进的小周期。您认为未来两年最关键的胜负手将落在哪个周期？

王启斌：硬件、数据、场景这三个周期确实同时存在，但它们的演进时间轴是错位的。硬件周期是整个行业都在参与的赛道，技术门槛正在降低，机器人整机成本快速下降，这带来了市场机会，但也意味着单纯依靠硬件已很难构建长期壁垒。场景周期则刚刚启动，目前大多数真实的商业订单还处于小批量验证（POC）阶段，其大规模爆发需要等待数据和模型能力率先成熟到位。

因此，未来两年最关键的胜负手，无疑落在数据周期。我们的核心判断是：谁能率先建立起高质量、可持续、高效率的数据飞轮，谁就能在场景需求爆发时，以最快的速度完成能力迁移与落地。这里的数据飞轮，不仅仅指数据量的积累，更是指“采集-质检-标注-训练-部署-数据回流”这一完整链路的整体效率与闭环质量。

为此，我们做出了明确的战略取舍：第一，将核心资源聚焦于模型算法、数据管线与灵巧操作技术本身。机器人整机制造属于重资产、慢迭代的领域，而我们需要的是快速的技术迭代能力。第二，在场景选择上极度聚焦，宁愿将物流仓储这一个场景做深做透，也不同时分散精力铺开多个场景。第三，在短期内，我们愿意牺牲一部分商业收入的增长速度，以确保数据飞轮能够真正稳固地运转起来，而不是为了追求短期交付而损害数据质量和长期技术优势。

关于商业化节奏：在资本预期与经营现实之间

Q：当前行业存在“融资热、落地难”的普遍矛盾。灵初智能的估值在一年内增长了数倍，同时您也提出了2026年底达到数亿级别销售额的目标。您如何管理这种高预期与经营现实之间的张力？

王启斌：我的态度是：不过度刻意地去管理资本市场的预期，而是专注于管理好公司自身的经营节奏，然后保持坦诚、透明的沟通。

公司估值的上涨，其背后反映的是资本市场对整个具身智能赛道长期价值的认可，并不完全是对我们当下收入规模的定价。我们不会因为估值高了，就去做出超出自身实际能力的商业承诺。2026年底数亿销售额的目标，是基于我们现有的产品交付管线、客户进展和商业转化路径认真核算后提出的，并非为了配合融资故事而设定的数字。

张力确实存在。资本天然希望看到快速的商业化验证，而具身智能在真实工业场景中的落地周期远比纯软件产品长——一个大型仓库的自动化项目，从初步接洽到系统稳定运行，通常需要6到9个月甚至更长时间。我们的做法是，对投资人清晰地区分“技术里程碑”和“商业里程碑”。技术里程碑（如模型性能突破、数据集发布）可以较快地展示进展；而商业里程碑（如大规模订单、稳定复购）则需要更长的周期。不混淆这两者，才能与投资人建立基于事实的长期信任。

我亲身经历过2018年前后服务机器人和自动驾驶的那一轮行业周期，见证过一些公司因过度承诺商业节奏而最终失去市场信誉。因此，在这一轮热潮中，我的原则是：宁可让外界的资本预期稍微保守一点，也绝不承诺我们没有十足把握做到的事情。

关于热潮与风险：底层变化与集体盲点

Q：您亲历了多轮技术产业周期。对比过往，您认为这一次具身智能热潮中，哪些底层条件发生了真正的、根本性的变化？同时，行业又普遍忽视了哪些潜在风险？

王启斌：真正发生根本性变化的底层条件主要有三点：第一，算法范式的转移。2018年左右的机器人技术，本质仍是基于规则编程和有限感知，而如今VLA（视觉-语言-动作）端到端大模型的出现，使得“从海量数据中直接学习复杂操作技能”第一次具备了工程上的可行性。第二，中国供应链的成熟度。灵巧手、高精度传感器、关节执行器等核心硬件的成本与供应稳定性，相比2018年提升了一个数量级，这极大地降低了机器人创业的硬件门槛。第三，大模型浪潮带来的基础设施红利。无论是训练算力还是边缘推理芯片，其成本曲线都在快速下降，使得部署强大的“具身大脑”变得更加经济可行。

而被行业集体忽视或低估的风险，我认为主要有两个：第一，对数据质量的忽视。行业里存在一种错觉，认为只要不断堆砌数据量，模型能力就会自然涌现。但如果数据的精度不足、模态残缺、任务多样性不够，庞大的数据量只会放大噪声，导致模型学习到错误的模式。第二，对商业化时间线的过度乐观。业界普遍将今明两年称为“商业化爆发元年”，但真实的工厂和仓库客户，其决策链条长、验证周期严谨。一个项目从概念验证到小批量采购，再到大规模复制，可能需要2到3年时间。过度承诺和炒作商业节奏，短期内可能吸引关注，长期却会损害整个行业的信誉，最终伤害所有赛道参与者。

来源:https://www.163.com/dy/article/KTF4VKQQ05118O92.html

上一篇： Creative Sound Blaster AE-X内置声卡发布 130dB高信噪比音频体验

下一篇：机械革命携手狼队永劫无间分部正式开启职业征程