当前位置: 首页
业界动态
VLA技术瓶颈凸显WAM崛起能否引领机器人GPT时刻

VLA技术瓶颈凸显WAM崛起能否引领机器人GPT时刻

热心网友 时间:2026-05-20
转载

就在四月底,红杉资本AI Ascent 2026大会的舞台上,英伟达机器人方向负责人Jim Fan抛出了一个足够引爆圈子的论断:“视觉语言模型(VLA)已死,世界动作模型(WAM)当立。”他更进一步预测,未来一两年,机器人学习的主要“食粮”,将从昂贵的人类遥控操作数据,转向互联网上唾手可得的海量第一视角人类视频。

这番话,无异于在方兴未艾的具身智能领域投下了一颗深水冲击波。

有趣的是,在Jim Fan发言前,国内具身智能公司银河通用已联合英伟达、清华、北大发布了LDA-1B模型,旗帜鲜明地走向了“抛弃条件反射式模仿,拥抱世界模型”的路线。几乎同时,生数科技推出的通用世界行动模型Motubrain,在WorldArena与RoboTwin 2.0两项国际权威榜单上双双登顶。

一时间,业内众声喧哗。有人拍手称快,认为终于找到了通往通用机器人的正确路径;也有人冷眼旁观,觉得这不过是巨头为自身利益造势的又一轮叙事。支持者看到的是机器人从“模仿”走向“理解”的质变曙光;反对者则坚持,VLA在精细控制等领域的优势,短期内依然难以被取代。

那么,这场关乎机器人大脑未来的路线之争,核心矛盾究竟是什么?VLA真的就此沦为“昨日黄花”了吗?这场潜在的技术范式转移,又将如何重塑具身智能创业公司的生存逻辑?

01 WAM攻克了哪些难关?

要看清WAM的价值,不妨先看看VLA的“阿喀琉斯之踵”在哪里。

VLA的训练逻辑直观而有效:模仿人类遥控操作。你教它“拿起红色杯子”,它就记住了“红色杯子”这个视觉特征与“抓取”这个动作的对应关系。下次看到相似场景,便能依样画葫芦。

但现实世界从不按剧本演出。杯子的颜色、摆放的角度、环境的光线,任何细微变化都可能让这套基于固定映射的“条件反射”系统失灵。VLA学到的,是一种高度脆弱、依赖标准环境的技能,其泛化能力在复杂多变的真实场景中面临严峻挑战。

WAM则提供了一套截然不同的解题思路。它的核心不再是简单的“看到-执行”,而是“预测-理解”。WAM试图让机器人在动手之前,先在内部的“物理模拟器”中预演一番:这个动作下去,物体会如何运动?液体会如何流淌?整个场景将发生怎样的连锁变化?

这种内在的“物理想象力”,带来的第一个突破便是泛化能力的跃升。一个训练充分的WAM机器人,即便走进一间从未见过的厨房,也能基于对重力、摩擦力、惯性等物理规律的理解,做出合乎情理的判断。有研究(如HarmoWAM)表明,在背景、位置、物体语义全变的“零样本”场景中,WAM的表现比之前的顶尖VLA模型提升了33%。

除了泛化能力,WAM完成的另一项更具产业碘伏性的突破,在于对数据源的“结构性松绑”。

VLA长期被困在“遥操作数据”这座昂贵而狭小的孤岛上,每一帧训练数据都需真人遥控、真机采集,成本高昂。而WAM则可以像大语言模型吞噬互联网文本一样,去学习海量、免费、每日自然产生的人类第一视角视频(如各类生活分享、操作教程视频)。这意味着,机器人首次获得了从互联网视频中“自学”物理世界规律的潜力。智在无界的Being-H0.7模型,直接用20万小时人类视频进行预训练并取得优异效果,证明了这条路径的可行性。银河通用的LDA模型更进一步,将仿真数据、人类视频与机器人操作数据混合进行联合训练,打破了行业对“完美标注数据”的迷信。

不仅如此,WAM在另一个长期困扰机器人领域的难题——长程任务规划——上也取得了实质性进展。传统VLA通常只能处理两三个动作的短序列任务,步骤一多就容易“迷失”。而WAM的表现已开始脱离简单的演示阶段。例如,生数科技的Motubrain已能规划并执行包含十个原子动作的复杂任务链,这让机器人在真实场景中具备了更连续、更鲁棒的工作能力。

值得注意的是,国内团队在这条新赛道上的进展速度令人瞩目。银河通用的LDA-1B背靠清华、北大与英伟达的联合研发;生数科技的Motubrain登顶国际双榜;智在无界的Being-H0.7在综合排名中位列全球第一。

海外前沿实验室同样在快速推进。英伟达提出的DreamZero在真机实验中,对新任务和新环境的泛化能力较顶尖VLA模型提升超过2倍。

可以说,在这场通向物理理解的新竞赛中,国内与海外几乎站在同一起跑线上。然而,在一片喧嚣与期待之下,一个更根本的问题必须被回答:VLA真的到了该谢幕的时刻吗?

02 VLA被杀死了吗?

WAM的方向无疑是激动人心的,但“VLA已死”这个斩钉截铁的结论,需要更冷静的审视。

一方面,WAM展现的技术潜力确实诱人,它让机器人从机械模仿迈向物理理解,从依赖昂贵专用数据转向利用开放网络资源。智在无界用20万小时视频预训练的Being-H0.7能在6项国际评测中综合夺魁,这在VLA主导的时代难以想象。

另一方面,任何技术叙事的背后,都难免掺杂商业逻辑。理解这一点,关键看是谁在喊“VLA已死”。

英伟达,全球AI算力的头号供应商。无论VLA还是WAM,最终都跑在它的GPU上。但两者对算力的“胃口”天差地别。WAM需要对海量视频进行预训练,推理时还需进行复杂的物理模拟或扩散生成,其对GPU的消耗远非VLA可比。力推WAM,对英伟达而言,意味着更强劲的芯片需求与更高的客单价。一家芯片巨头,自然乐见市场转向更“吃”算力的技术路线。

因此,作为行业观察者,有必要区分哪些是客观的技术进步,哪些是被商业立场放大或引导的预期。撇开商业视角,WAM本身也面临诸多硬核挑战。

首先,在需要毫米级定位或精密力控的任务(如精密装配、手术辅助)中,WAM目前的表现仍弱于专精于动作优化的VLA模型。因为视频生成目标更关注像素一致性,而非关节级的精细控制。同时,其推理延迟虽经优化,仍普遍高于VLA。

其次,数据与算力门槛依然高企。联合训练视频与动作需要海量真机交互数据,以及高昂的扩散模型训练成本,非一般团队所能承受。

再者,当任务指令涉及抽象语言或复杂社交语境时,纯物理世界建模的WAM容易“看得懂画面,听不懂人话”。这说明,WAM在“理解物理”上迈出了一大步,但距离“融入现实”还有相当距离。而后者,恰恰是VLA目前更具优势的领域。

事实上,VLA在现阶段至少有三个维度的价值,是WAM难以简单替代的。

一是部署效率。在要求高精度、实时力反馈的场景中,VLA轻量化的“观察-动作”端到端架构,计算开销小、响应速度快,更容易在边缘设备上实现低成本实时部署。

二是工程成熟度。经过一年多快速发展,VLA的模型架构、训练流程、开源生态已相对成熟。创业团队能基于现有工具链,较快搭建出可用的原型系统。反观WAM,架构更复杂、训练不稳定、推理开销大,工程化落地的门槛明显更高。

三是与现有工业体系的兼容性。大量工业自动化场景不需要复杂的物理推理,只需稳定、精确、可重复地执行既定动作。VLA的模仿学习范式与这种需求高度契合,企业可通过少量示教快速让机器人掌握特定技能。

因此,更可能发生的演进路径,并非“WAM淘汰VLA”,而是两者的优势融合与场景分化。“VLA已死”更像一个极具传播力的行业警钟,而非最终的技术判决书。它提醒整个生态,不能安于VLA的舒适区,必须思考如何将物理理解能力融入现有框架。但就此断言VLA退出历史舞台,显然为时过早。

那么,当技术路线的争论甚嚣尘上,那些已经押注VLA的创业公司,此刻正面临着怎样的现实压力?

03 半年一变天,创业公司正在承压

从VLA被热捧到被质疑“已死”,中间不过半年多光景。机器人领域的技术迭代速度,已快到让产业参与者感到窒息。对财大气粗的科技巨头,这可能只是研究重心的微调;但对资源有限的初创企业而言,每一次“风向”变化,都可能是一次需要重新押上命运的赌局。

首当其冲的,是研发路线上巨大的沉没成本风险。

过去一年,大量初创公司围绕VLA构建了完整技术栈,投入重金购置遥操作设备,组建专业的数据采集团队。创始人们深信,积累高质量、高成本的遥操作数据,就是构筑未来的护城河。例如,自变量机器人在成立后累计融资超40亿元,其中相当部分用于数据工厂与真机数据团队建设;智平方一年内完成多轮融资,自建产线投产并实现月度百台级交付。这些数字背后,是一整套基于VLA范式建立的资产、团队与认知体系。

然而,当WAM浪潮袭来,这些巨额投入的价值面临重估。对于已完成大规模融资、团队达数百人的公司,技术路线的转向意味着惊人的沉没成本与组织阵痛。

技术风向的切换,迅速在人才市场引发连锁反应。

VLA时代,行业急需模仿学习、遥操作数据方面的专家;WAM时代,需求瞬间转向视频理解、物理仿真、世界模型构建。技能需求的快速变迁,迫使创业公司不得不重构刚刚搭建好的团队架构。

与此同时,人才市场的供需与价格体系随之剧烈波动。WAM方向成为热点,相关人才薪资水涨船高;而公司内部原有的高薪VLA团队,则面临技能过时或被动转型的压力。有报告显示,2026年春招季,具身智能岗位量暴增,平均月薪持续攀升,核心人才跳槽涨幅可达150%。创业公司不得不在新方向上高价抢人,同时消化旧方向上的团队惯性,两头承压的处境颇为艰难。

比人才问题更直接的,是产品价值可能面临的“瞬时贬值”。

一个残酷的现实是:当技术路线以“半年”为单位迭代,基于旧范式开发的产品,其市场价值可能迅速缩水。那些依赖昂贵遥操作数据训练出的专用机器人技能模型,在“互联网视频才是未来主食”的新叙事下,客户是否还愿意为其高昂成本买单?产品的核心竞争力是否需要重新定义?

所有这些问题,最终都会传导至资本市场,考验投资人的耐心与窗口期。

有行业报告指出,人形机器人投资正进入“去伪存真”的关键阶段,估值逻辑从概念炒作转向订单验证与供应链能力。报告明确提示,中游整机制造商面临“技术路线尚未收敛”的核心风险,其估值溢价将取决于模块化设计与软硬件协同优化的实际水平。

换言之,在技术路径快速演变的当下,投资人对于“故事”的容忍度正在降低。创业公司的融资,不再仅靠描绘一个性感的技术愿景,更需要在路线未明的环境中,同时证明自身的方向判断力、技术敏捷性与执行韧性。

回过头看,“VLA已死”或许并非既成事实,但它无疑是一记响亮的警钟。

在这个行业,选择比努力更重要,而做出选择的窗口期正在急剧缩短。对创业公司而言,这意味着必须在深度专注与快速灵活之间找到精妙的平衡;对投资人而言,则意味着需要以更审慎的眼光评估技术路线的长期生命力,避免被短期的叙事热潮裹挟。

机器人产业仍处早期洪荒,技术远未收敛。今天的主流,明天可能就成为历史注脚。WAM的崛起是真实的趋势,但VLA的价值也不会一夜消失。未来的答案,很可能不在非此即彼的取代,而在如何让“理解”与“执行”更好地协同,让机器真正学会在复杂现实中思考和行动。

来源:https://36kr.com/p/3816130162040579

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
三星Galaxy Z Fold8折叠手机机模曝光 宽屏设计抢先看

三星Galaxy Z Fold8折叠手机机模曝光 宽屏设计抢先看

折叠屏手机市场的竞争格局正迎来新一轮变革。近日,知名科技爆料人@SonnyDickson在社交平台曝光了一组三星新款折叠屏手机的机模照片,首次清晰揭示了Galaxy Z Fold8、Galaxy Z Flip8以及一款全新形态的Galaxy Z Fold8 Wide的设计轮廓,引发了科技爱好者的广泛

时间:2026-05-20 10:18
星迹互动获数千万元天使轮融资 AI赋能IP打造新路径

星迹互动获数千万元天使轮融资 AI赋能IP打造新路径

近日,AI内容行业迎来重要融资动态:数字科技文娱企业星迹互动成功完成数千万元天使轮融资。本轮投资方阵容强大,包括正大集团、北京大融文化传媒、禹牧智能、麦迈科技等多家知名机构。所融资金将重点投入团队扩建、产能升级与平台能力强化,为公司后续发展注入强劲动力。 星迹互动创立于2025年,是一家以人工智能技

时间:2026-05-20 10:17
尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元

尼克尔Z DX 24mm f/1.7镜头 适合C画幅人文扫街售1899元

对于使用尼康Z卡口APS-C画幅(DX格式)相机(如Z fc、Z30、Z50)的摄影爱好者而言,在套机镜头之外选择一支定焦镜头,是提升创作自由度和画面质量的关键一步。尼克尔 Z DX 24mm f 1 7正是这样一款专为轻量化与大光圈设计的定焦镜头,目前京东售价1899元,为追求便携与画质平衡的用户

时间:2026-05-20 10:16
彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构

彭军直言L3自动驾驶本质仍是L2,现有分级体系亟待重构

自动驾驶技术的分级标准正面临行业内部的深度反思与重构。在2026北京车展上,小马智行联合创始人兼CEO彭军发表的观点,将行业关注的焦点从技术参数转向了更为根本的责任归属议题。 彭军明确指出,当前广泛采用的L1至L5自动驾驶分级体系已显得“极其无厘头”。他认为,这些层级划分并非衡量自动驾驶商业化前景的

时间:2026-05-20 10:15
特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑

特斯拉FSD无法升级引车主不满 马斯克承诺遭质疑

4月28日,《商业内幕》发布的一篇深度报道,揭示了特斯拉自动驾驶承诺背后日益凸显的信任危机。多年来,“未来将实现完全自动驾驶”是特斯拉吸引消费者的核心卖点,但对于众多早期支持者而言,这一愿景正变得愈发渺茫。 图1:马斯克确认HW3车型无法升级至无监督版FSD 问题的根源在于硬件代际差异。在近期举行的

时间:2026-05-20 10:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程