前苹果AI负责人回国加入具身大模型赛道
具身智能赛道上的技术路线之争,最近又添了一个新变量。
6月底,一家名叫RoboScience机器科学的公司,发布了一个通用具身大模型Visics,以及背后的技术架构VLOA(Vision-Language-Object-Action)。发布会上,他们现场演示了机器人完成家具拼装——这可以说是目前具身操作里最复杂的任务之一了。顺带一提,这家公司去年底才成立,创始人是前苹果AI平台技术负责人田野和新加坡国立大学助理教授邵林。成立不到半年,融资已经拿到手软:今年5月刚完成10亿元A轮,累计融资数十亿,投资方包括零一创投、京东、招商局创投等一长串名单。
目前具身智能领域的主流技术路线有两条。一条是VLA(视觉-语言-动作),核心思路是让机器人通过大量人类示教数据模仿学习动作。好处很明显——能直接理解自然语言,训练流程也相对成熟。但代价是高度依赖跟具体硬件绑定的真机,换个物体基本就得重新训练。另一条是世界模型:先让机器人学会预测环境里物体在物理世界中将怎么变化,再根据预测推导动作。相当于动手之前,先在脑子里预演一遍后果。这条路泛化能力理论上更强,但训练成本更高,工程难度也大不少。

RoboScience机器科学提出的VLOA架构,说白了就是在视觉-语言和动作之间加了一个“O”——物体轨迹(Object Trajectory)。
田野在采访中解释过,具身智能的复杂性在于要同时覆盖三个维度的多样性:任务类型、物体属性、机器人构型。没有一个统一的格式把这三者都装进来,模型很难真正通用——就像大语言模型里的Token一样。在他看来,物体的动态轨迹就是具身智能领域的“Token”:它描述的是被操作物体在三维空间中的位置和形态变化。和VLA天生跟硬件绑定不同,这条路线从训练一开始就跟硬件解耦,只关注物体本身怎么变,不受机器人本体、任务类型、环境的限制,泛化能力天然更强。
Visics大模型由两部分组成:一个是具身世界模型,输入视觉画面和语言指令后,先推演物体移动的路线;另一个是通用操作模型,把推演结果翻译成不同机器人能听懂的具体指令。两者之间用物体的连续3D点云轨迹连接起来。逻辑很简单:数据决定了模型能力的上限,而架构设计,决定了模型到底能学到什么。
在具身智能真正大规模落地之前,几乎所有厂商都被同一个问题卡住:训练数据从哪来。
RoboScience机器科学执行总裁汪涛算过一笔账:具身智能所需的数据量不会低于语言大模型,但全球机器人真机数据积累量,比大语言模型训练数据量少了10的6次方到8次方倍。很多厂商认为只有靠海量的真实物理交互数据,才能训出可落地的机器人。所以过去几年,大家都在重金投入真机数据采集——素材工厂、动作捕捉设备,能上的都上了。
但问题在于,现有真机数据采集方式,每条数据成本大概几块钱,一个人一天最多采几百条,全行业月产能也就万条级别。尤其是到了后训练阶段,单任务复杂操作演示需要上万条人工标注数据,人力与时间成本随任务数量线性累加。更要命的是,数据工厂里采集的数据跟真实应用场景之间存在分布差异,模型到了实际环境里很难稳定泛化。
RoboScience机器科学选了条截然不同的路。
既然预训练阶段需要的数据必须既多样又海量,真实环境里根本拿不到,那干脆就在预训练环节靠互联网视频和自研仿真引擎RoboMirage生成数据。先达到优秀水平,再进入真实场景。真机数据反倒更多用在具体场景的后训练上,用来补足预训练阶段覆盖不了的高难度失败案例。
据汪涛测算,这套数据生产流程只跟算力挂钩,不依赖人力,单条数据成本可以降到几分钱——传统方案的1/20到1/200。而且理论上加GPU就能扩大产能,没有上限。目前,RoboScience机器科学积累的视频数据已经到数百万小时,仿真操作轨迹数据达十亿到百亿次级别。今年的目标是视频数据超千万小时、仿真数据达到万亿次级别。
发布会上有个让人印象深刻的演示:机器人自己读宜家说明书,完成家具拼装。过程中哪怕人为拆掉已经装好的部件,机器人也能自动恢复并接续完成。此外还能打领带、立硬币、开信封、抓薯片和蛋壳。值得一提的是,打领带这个任务就是完全基于仿真数据训练出来的。
行业里现在有一种共识:2026年不会是具身智能的“ChatGPT时刻”。越来越多厂商不再追求全场景泛化,而是聚焦特定场景,先跑通商业模式,再逐步扩展边界。某种程度上,RoboScience机器科学选择了相反的方向——先做相对通用的基座模型,再用场景去验证和反哺。
田野觉得,基座模型迭代和场景落地这两件事不完全冲突,但场景选择会决定未来的技术路线。选狭窄场景容易导向小数据、小模型的过拟合方案;而选泛化要求高的场景,反而会倒逼基座模型持续迭代。所以RoboScience机器科学从一开始就由场景牵引训练模型,让模型具备相对通用的泛化能力。同时,他们也在自研机器人本体,让本体跟场景深度耦合。
基座模型再怎么迭代,最终还是要回到商业化落地上。目前RoboScience机器科学主要有三条商业化路径:一是以License形式对外授权纯软件能力,已经产生一定收入,客户主要是机器人本体公司和已有机器人的场景方或集成商;二是提供搭载自研大模型的域控制器,服务工业机械臂或协作臂;三是自有机器人本体,目的是把商业和数据链条彻底闭环。汪涛表示,具体落地上会从物流、商超、零售这类行业切入——这些场景最能体现公司技术相对传统非标自动化方案的优势,也能较早实现商业化。至于什么时候盈利,他认为需要从模型和硬件两个层面一起降本,规模做大后才更有机会。
下一个考验是8月即将发布的自研机器人本体。到时候,VLOA架构能不能在真实场景中跑出预期中的泛化能力,将是检验这套技术路线成色的第一块试金石。
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
同类文章
理想新车布局预测:L9L与i9上半年发布
1月23日消息,综合权威公开信息与行业趋势研判,理想汽车2026年度新车布局规划正式曝光。此番产品线布局,不仅持续深耕SUV市场,同时加速补齐全场景覆盖的拼图。 理想L9旗舰SUV 在增程动力领域,理想L系列将迎来一位新成员——L9L,预计2026年上半年正式上市,预估售价区间为45万至55万元。与
三星消息应用7月停用 部分旧设备可继续使用
6月29日,多家海外媒体援引三星官方消息证实,三星消息(Samsung Messages)应用将于2026年7月正式终止服务。随着这个截止日期越来越近,依然在使用该应用的Galaxy用户需要尽快迁移到新的默认信息工具。其实过去两年里,三星一直在悄悄引导用户转向谷歌信息(Google Messages
吉利发布2030战略:年销650万辆全面迈向全球前五
1月22日,吉利控股集团在北京召开战略解析大会,正式发布“一个吉利,全面领先”的2030战略蓝图。战略目标清晰明确:到2030年,全球总销量(含乘用车与商用车)突破650万辆,稳居全球车企前五。其中,新能源车型占比预计达到75%左右,海外销量占比超过三分之一。尤为关键的是,依托全新全球化架构,单车型
OPPO Find X9系列旗舰手机累计销量突破250万部Ultra版超12万部
OPPO Find X9 Ultra 旗舰机型 回顾产品发布背景:Find X9系列于2025年10月正式登场,作为OPPO年度旗舰产品线,涵盖标准版、Pro版与Ultra版三大版本。该系列的核心竞争力十分明确——影像系统与综合性能的双重显著提升。上市以来,凭借芯片算力、屏幕显示素质、续航表现以及影
IntelliJ IDEA 2025.3.2 版本正式发布
IntelliJ IDEA 2025 3 2 版本现已正式发布。除了常规的漏洞修复与功能完善,本次更新有几个修复点值得格外关注——特别是如果你经常使用终端工具执行命令,或者正在采用远程开发工作流。终端工具窗口的闪烁问题终于得到彻底解决。此前在调用支持同步输出的命令行工具(例如 Claude Code
- 日榜
- 周榜
- 月榜
1
2
3
4
5
6
7
8
9
10
相关攻略
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:35
2026-07-04 12:34
2026-07-04 12:34
2026-07-04 12:34
2026-07-04 12:34
热门教程
- 游戏攻略
- 安卓教程
- 苹果教程
- 电脑教程
热门话题

