前苹果AI负责人回国加入具身大模型赛道

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

科技数码

前苹果AI负责人回国加入具身大模型赛道

热心网友时间：2026-07-01

转载

具身智能赛道上的技术路线之争，最近又添了一个新变量。

6月底，一家名叫RoboScience机器科学的公司，发布了一个通用具身大模型Visics，以及背后的技术架构VLOA（Vision-Language-Object-Action）。发布会上，他们现场演示了机器人完成家具拼装——这可以说是目前具身操作里最复杂的任务之一了。顺带一提，这家公司去年底才成立，创始人是前苹果AI平台技术负责人田野和新加坡国立大学助理教授邵林。成立不到半年，融资已经拿到手软：今年5月刚完成10亿元A轮，累计融资数十亿，投资方包括零一创投、京东、招商局创投等一长串名单。

目前具身智能领域的主流技术路线有两条。一条是VLA（视觉-语言-动作），核心思路是让机器人通过大量人类示教数据模仿学习动作。好处很明显——能直接理解自然语言，训练流程也相对成熟。但代价是高度依赖跟具体硬件绑定的真机，换个物体基本就得重新训练。另一条是世界模型：先让机器人学会预测环境里物体在物理世界中将怎么变化，再根据预测推导动作。相当于动手之前，先在脑子里预演一遍后果。这条路泛化能力理论上更强，但训练成本更高，工程难度也大不少。

RoboScience机器科学提出的VLOA架构，说白了就是在视觉-语言和动作之间加了一个“O”——物体轨迹（Object Trajectory）。

田野在采访中解释过，具身智能的复杂性在于要同时覆盖三个维度的多样性：任务类型、物体属性、机器人构型。没有一个统一的格式把这三者都装进来，模型很难真正通用——就像大语言模型里的Token一样。在他看来，物体的动态轨迹就是具身智能领域的“Token”：它描述的是被操作物体在三维空间中的位置和形态变化。和VLA天生跟硬件绑定不同，这条路线从训练一开始就跟硬件解耦，只关注物体本身怎么变，不受机器人本体、任务类型、环境的限制，泛化能力天然更强。

Visics大模型由两部分组成：一个是具身世界模型，输入视觉画面和语言指令后，先推演物体移动的路线；另一个是通用操作模型，把推演结果翻译成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹连接起来。逻辑很简单：数据决定了模型能力的上限，而架构设计，决定了模型到底能学到什么。

在具身智能真正大规模落地之前，几乎所有厂商都被同一个问题卡住：训练数据从哪来。

RoboScience机器科学执行总裁汪涛算过一笔账：具身智能所需的数据量不会低于语言大模型，但全球机器人真机数据积累量，比大语言模型训练数据量少了10的6次方到8次方倍。很多厂商认为只有靠海量的真实物理交互数据，才能训出可落地的机器人。所以过去几年，大家都在重金投入真机数据采集——素材工厂、动作捕捉设备，能上的都上了。

但问题在于，现有真机数据采集方式，每条数据成本大概几块钱，一个人一天最多采几百条，全行业月产能也就万条级别。尤其是到了后训练阶段，单任务复杂操作演示需要上万条人工标注数据，人力与时间成本随任务数量线性累加。更要命的是，数据工厂里采集的数据跟真实应用场景之间存在分布差异，模型到了实际环境里很难稳定泛化。

RoboScience机器科学选了条截然不同的路。

既然预训练阶段需要的数据必须既多样又海量，真实环境里根本拿不到，那干脆就在预训练环节靠互联网视频和自研仿真引擎RoboMirage生成数据。先达到优秀水平，再进入真实场景。真机数据反倒更多用在具体场景的后训练上，用来补足预训练阶段覆盖不了的高难度失败案例。

据汪涛测算，这套数据生产流程只跟算力挂钩，不依赖人力，单条数据成本可以降到几分钱——传统方案的1/20到1/200。而且理论上加GPU就能扩大产能，没有上限。目前，RoboScience机器科学积累的视频数据已经到数百万小时，仿真操作轨迹数据达十亿到百亿次级别。今年的目标是视频数据超千万小时、仿真数据达到万亿次级别。

发布会上有个让人印象深刻的演示：机器人自己读宜家说明书，完成家具拼装。过程中哪怕人为拆掉已经装好的部件，机器人也能自动恢复并接续完成。此外还能打领带、立硬币、开信封、抓薯片和蛋壳。值得一提的是，打领带这个任务就是完全基于仿真数据训练出来的。

行业里现在有一种共识：2026年不会是具身智能的“ChatGPT时刻”。越来越多厂商不再追求全场景泛化，而是聚焦特定场景，先跑通商业模式，再逐步扩展边界。某种程度上，RoboScience机器科学选择了相反的方向——先做相对通用的基座模型，再用场景去验证和反哺。

田野觉得，基座模型迭代和场景落地这两件事不完全冲突，但场景选择会决定未来的技术路线。选狭窄场景容易导向小数据、小模型的过拟合方案；而选泛化要求高的场景，反而会倒逼基座模型持续迭代。所以RoboScience机器科学从一开始就由场景牵引训练模型，让模型具备相对通用的泛化能力。同时，他们也在自研机器人本体，让本体跟场景深度耦合。

基座模型再怎么迭代，最终还是要回到商业化落地上。目前RoboScience机器科学主要有三条商业化路径：一是以License形式对外授权纯软件能力，已经产生一定收入，客户主要是机器人本体公司和已有机器人的场景方或集成商；二是提供搭载自研大模型的域控制器，服务工业机械臂或协作臂；三是自有机器人本体，目的是把商业和数据链条彻底闭环。汪涛表示，具体落地上会从物流、商超、零售这类行业切入——这些场景最能体现公司技术相对传统非标自动化方案的优势，也能较早实现商业化。至于什么时候盈利，他认为需要从模型和硬件两个层面一起降本，规模做大后才更有机会。

下一个考验是8月即将发布的自研机器人本体。到时候，VLOA架构能不能在真实场景中跑出预期中的泛化能力，将是检验这套技术路线成色的第一块试金石。

来源:https://www.jiemian.com/article/14672678.html

上一篇：继天涯重启后，老牌论坛西祠胡同也将回归

下一篇：字节跳动一季度辞退80人，超半数涉信息安全违规