VLA：有人喊“最强解法”，有人说“跑不动”

首页

科技

热心网友

135

转载

2025-09-11

来源:https://36kr.com/p/3461987845608841

L3 拐点将至，智能驾驶走向 VLA 分水岭。

原本统一的「智驾第一阵营」分化出两条道：

理想、小鹏、元戎是一队，高举 VLA 大旗，把 VLA 拼命推向前台；

华为、Momenta、博世、卓驭等玩家却站在对立面，给 VLA 毫不留情的泼冷水。

有人将 VLA 视为指路灯的同时，有人也在质疑 VLA 能否「发光」。

从以下三个问题，我们试图把关于 VLA 的争论点还原清晰：

VLA 能为智驾解决什么问题？

VLA 落地还面临什么挑战？

VLA 是否是智驾终局的最优解？

智能驾驶早已过了「抄作业」的时代。没有所谓的标准答案，大家都是在摸着石头过河。

智驾当下比拼的，已经不是单纯的技术路径分野，而是技术路径选择背后，一场对于资源分配的策略和定力，比的是技术价值观。

就像理想和元戎坚信，VLA 尽管进展慢，但上限一定会比端到端更高。

大家都在押注长期主义，但谁的长期主义会先显验，还要时间给出答案。

01 仅靠端到端，

智驾进度条只能到 90%

端到端固然是条捷径，它改写了底层逻辑，从传统规则驱动转变为数据驱动。

但当几乎所有玩家都上了端到端这艘大船后，才发现，大船还不一定靠得了岸。

端到端两大缺陷横亘眼前：

一是车为什么这样动，说不清楚。

传统端到端是一个黑箱，传感器信号如何转化为驾驶动作难以追溯，无法给出清晰的决策逻辑。例如车辆突然急刹，原因可能是探测到行人，也可能是把阴影误判为障碍物，但系统并不会告诉你「为什么」。

二是没见过的场景，就不会了。

端到端完全依赖数据驱动，没见过的场景往往就不会处理。尤其在动态突发情况下，如行人突然横穿马路，系统只能依赖过往类似案例被动应对，反应滞后。此外，模型只能识别像素级特征（如红灯形状），却无法理解语义级规则，比如红灯等于禁止通行。

端到端可以解决智驾 90% 的难题，但剩下的 10%，却怎么也跨不过去。

智驾安全显然不能停留在 90% 的基准线，要向前推进，业内普遍的共识是用规则兜底，在端到端网络之外写入规则代码，教会系统基本的交通法则，保证合理行驶。

但兜底更像是最后一道防线，面对错综复杂的极端情况，需要更加「治本」的方式。

于是，VLA （视觉-语言-动作大模型）跃入技术前台。

这项技术最早由谷歌旗下的 DeepMind 提出，其标志性成果为机器人领域的 RT-2 模型，通过整合视觉感知、语言推理和动作控制，首次实现了从图像观察和文本指令到物理动作的端到端控制。

理想、元戎启行将其引入智驾领域，目的也是借 VLA 能力突破端到端的瓶颈。

VLA 的关键点在于，在「VA（视觉-动作）模式」中间加入了「Language（语言）」这一关键桥梁。

理想智驾负责人郎咸朋强调，「L」指代语言学习能力，它并不是简单的用语言做显示的文字推理，而是用语言提供的数据学习做隐式的逻辑推理。

这就好比人与动物的区别，人的视觉能力、行动速度都不如动物，但凭借强大的认知和理解能力，能够比动物更高一等。

相当于，VLA 的核心任务，就是让系统具备长「思维链」，这落实到性能体验上，会带来三方面提升。

其一，更全维度的「路牌」理解。

这里的「路牌」不再局限于平面的交通标识，而是扩展到红绿灯变化、交警手势、施工锥桶等动态三维信息。比如，系统能够识别潮汐车道标志，在拥堵路段也能顺畅变道。

其二，更自然的语音交互。

用户可以直接通过语音控制跟车距离、车速等，还能告知系统驾驶偏好。理想的「司机 Agent」甚至能记忆用户习惯，用户曾提示某路段应以特定车速行驶，系统在下次经过时会主动沿用，不用再重复指令，以此实现人车共驾。

其三，更前瞻的风险预判。

系统不再是遇到风险才被动响应，而是能通过视觉识别、语言推理提前感知潜在危险。比如看到前方路面有积水痕迹，会预判「可能存在涉水风险」并主动减速等。

VLA 玩家们都相信，VLA 是端到端的 2.0 形态，一个形象比喻是：

端到端像猴子开车，会模仿人类动作，却缺乏对物理世界的理解；

VLA 则像司机，甚至教练开车，既能理解规则，又能推理和灵活决策，从「学行为」进化为「懂意图」。

只不过，现在的 VLA 优势还并不明显。

郎咸朋强调，当前智驾任务还比较简单，在 L3、L4 阶段，智驾作为 Agent 要独立完成复杂任务时，VLA 才会获得碾压性胜利。

但也正因如此，在「VLA 是否为行业终局答案」这一问题上，始终得打个问号。

02 VLA 可能还不在神坛上

当理想、元戎启行高举 VLA 大旗时，迎接它的并不是像「端到端」一般的技术光环，而是多重质疑。

这场由 VLA 引发的舆论漩涡，一共有三层。

第一层是真假 VLA 之辩。关键角色是小鹏，有意思的是，小鹏早期并未高调举起 VLA 大旗，它这张 VLA 玩家的身份牌还是元戎启行翻开的，此前元戎启行创始人周光表示，任何投入大算力、大参数模型研发的玩家，都大概率是 VLA 路线的潜在参与者。这就指向了小鹏。

直到小鹏 G7 Ultra 发布会上，小鹏才明确表态，基于 3 颗图灵芯片与双激光雷达，小鹏 G7 Ultra 支持全场景 VLA，包括复杂路口决策、无车位泊车等功能，并在人机共驾模式下可以实现协同控制。

然而，尽管隶属于 VLA 阵营，但小鹏把刀口对准的却是「队友」。

何小鹏声称，「只有我们做成了真正的 VLA，部分公司做成的是一个嫁接的 VLA。」

他对此解释为，VLA 的落地需要数十亿资金投入。相比端到端，VLA 要处理的是更高维度、非结构化的多模态信息，再将其转化为驾驶动作决策，复杂度指数级提升。用几个亿只能堆出一个「微型 VLA」，本质上仍停留在端到端逻辑。

一句话，VLA 玩家都必须是资源禀赋型选手，需要技术先进，更需要大量资金。

某种程度上，小鹏用「纯血 VLA」的角度，揭开了 VLA 水面之下的暗角。

这就来到第二层，VLA 的落地挑战。博世智能驾控中国区总裁吴永桥解释得很清楚，即 VLA 落地需面临三大障碍：

多模态大模型的特征对齐存在挑战；

多模态的数据获取和训练十分困难；

当前所有的智驾芯片实际都不支持 VLA 模型。

尤其是第三点，吴永桥举例，VLA 理想化部署需达到 7B-10B 参数规模，但现有智驾芯片带宽有限。即便是一个 3B 模型，部署在英伟达 Thor 芯片上，频率也难以稳定维持在 10Hz。

10Hz 意味着系统每秒仅能完成 10 次感知与决策，放在驾驶场景中，就像一个「时常卡帧的机器人」。即使决策逻辑正确，但因为带宽不足、反应滞后，行车过程中仍会频繁出现延迟和卡顿，无法带来流畅、可靠的驾驶体验。

吴永桥并不否认 VLA 是个好方向，包括卓驭副总裁马陆也认同VLA 可以走通，但难度很大。

马陆强调，VLA 中的「L」并不是简单的语言大模型，不可能直接套用类似「通义千问」这样饿现成模型，而是要从头开始，练成一个理解智能驾驶的司机大模型，它需要完整理解物理世界的真实尺度，这需要资源，也需要时间。

种种论断都构成一个基本事实：实现 VLA 并不容易。

而在此基础上，Momenta 与华为对这一技术路径的审视已经来到第三层，VLA 对于智驾的真伪性。

关于智驾是否有必要走 VLA 这条路，双方都予以否定。

在 Momenta 创始人曹旭东眼里，VLA 只能算是锦上添花，还不足以扛起 L4、L5 的大任。最直接一点，VLA 对于安全性的提升或许能达到 5-10 倍，但L4 规模化落地需要的是 100-1000 倍安全提升，显然杯水车薪。

华为则坚定认为，VLA 这一从机器人领域引入的技术路径，并不是为智驾而生。并且，由于 VLA 在空间感知与推理能力上存在天然短板，语言模型与动作决策本就难以对齐。

简单而言，VLA 更像是一个伪命题。

相较之下，华为已经找到了新解法，在华为乾崑 ADS 4 上，打造出 WEWA 世界模型架构，通过端云结合的系统训练，行为模型可以直接控制车辆，时延更低。

华为认为，世界模型才是通往智驾终局的正确路径。

某种程度上，从小鹏、博世、卓驭再到 Momenta、华为，关于 VLA 的争论，其实反应出各家差异化的技术逻辑，大多时候，技术路径无关对错，关乎选择和资源博弈。

03 把鸡蛋放进最近的篮子里

过去一年，端到端热潮无疑让智能驾驶的步子迈得更大，尤其是「车位到车位」的功能落地，不仅重新划分了「第一梯队」入场标准，也让用户清晰感知到智驾进步带来的先进体验。

然而，「车位到车位」之后，整个智驾行业进入了「功能停滞」的瓶颈期。

一方面，监管给激进的智驾宣传按下暂停键，四月份开始，工信部、市场监管总局出台《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》等系列新规，对「自动驾驶」、「高阶智驾」等用语予以禁止，把智驾安全提到绝对优先层面，并规定车企每一次 OTA 更新，都需经过备案才能上线。

另一方面，L3 级智能驾驶政策还未放开，相当于，各车企、供应商还是停留在智驾体验优化层面，给 L2 后缀继续添加「+」，用户能感知到的「利己效益」并不明显。

这也是 Momenta、卓驭等玩家目前并不看好 VLA 的主要原因，VLA 的确能在用户体验上「整花活」，比如语音控车、人机共驾，但大概率不能给智驾带来成倍级的体验革命。

站在 L2+的起点上，智驾行业每向前走一步，都会面临更棘手的难题。越是到攻坚期，选择哪条路就越发重要，毕竟，任何一条技术路线背后，都是对算力、数据的巨额消耗。

这也意味着，大家更愿意把鸡蛋放进最近的篮子里。

一是押注确定性，几乎所有玩家都坚定选择了强化学习、世界模型的技术路径，VLA 本质上与这两者也并不冲突，在理想关于 VLA 的规划版图中，第四阶段就是基于世界模型进行强化训练，将系统打造成职业司机。

二是降低不确定性。智能驾驶的下半场，将是一场拼资金、拼技术、拼成本的拉锯战。因此，从有图，到无图，再到端到端路线，大家都是稳扎稳打走向下一阶段，基于各自既定的技术价值观，或者说，复用已有的数据和算法积累，确定下一步落子位置。

目前位列智驾第一梯队的玩家们，可以看出打法各异：

理想、元戎启行、小鹏选择押注 VLA。强调高投入、算力密集型路线，追求 VLA 大模型的上限。

三家也的确通过资源配置为 VLA 铺路，像小鹏通过自研图灵芯片，算力超过 750TOPS，并打造出 72B 参数的基座大模型，为 VLA 大模型提供充裕算力支持；元戎启行早期就研究 GPT 大语言模型，探索 VLA 方向，并聚焦英伟达 Thor 芯片的上车应用；而理想在端到端时期就乘上了「端到端+VLM」的列车，朝向 VLA 的方向。

另外，理想、小鹏都有自研人形机器人计划，而 VLA 在具身智能与智能驾驶的通用性，也指向了二者对于 VLA 的长远战略布局。

而未选择 VLA 路线的玩家们也是基于自身技术价值观，锚定最优解。

华为、地平线强调结构性解法，走体系化路线。华为凭借云端算力和 AI 大模型基础，构建出 WEWA 世界模型，主打「无弱点」的原生架构；地平线基于自研高性能计算平台征程 6P，强调软硬一体优势，打造出「中国版 FSD」。