首页
科技
VLA:有人喊“最强解法”,有人说“跑不动”

VLA:有人喊“最强解法”,有人说“跑不动”

热心网友
135
转载
2025-09-11
来源:https://36kr.com/p/3461987845608841

L3 拐点将至,智能驾驶走向 VLA 分水岭。

原本统一的「智驾第一阵营」分化出两条道:

理想、小鹏、元戎是一队,高举 VLA 大旗,把 VLA 拼命推向前台;

华为、Momenta、博世、卓驭等玩家却站在对立面,给 VLA 毫不留情的泼冷水。

有人将 VLA 视为指路灯的同时,有人也在质疑 VLA 能否「发光」。

从以下三个问题,我们试图把关于 VLA 的争论点还原清晰:

VLA 能为智驾解决什么问题?

VLA 落地还面临什么挑战?

VLA 是否是智驾终局的最优解?

智能驾驶早已过了「抄作业」的时代。没有所谓的标准答案,大家都是在摸着石头过河。

智驾当下比拼的,已经不是单纯的技术路径分野,而是技术路径选择背后,一场对于资源分配的策略和定力,比的是技术价值观。

就像理想和元戎坚信,VLA 尽管进展慢,但上限一定会比端到端更高。

大家都在押注长期主义,但谁的长期主义会先显验,还要时间给出答案。

01

仅靠端到端,

智驾进度条只能到 90%

端到端固然是条捷径,它改写了底层逻辑,从传统规则驱动转变为数据驱动。

但当几乎所有玩家都上了端到端这艘大船后,才发现,大船还不一定靠得了岸。

端到端两大缺陷横亘眼前:

一是车为什么这样动,说不清楚。

传统端到端是一个黑箱,传感器信号如何转化为驾驶动作难以追溯,无法给出清晰的决策逻辑。例如车辆突然急刹,原因可能是探测到行人,也可能是把阴影误判为障碍物,但系统并不会告诉你「为什么」。

二是没见过的场景,就不会了。

端到端完全依赖数据驱动,没见过的场景往往就不会处理。尤其在动态突发情况下,如行人突然横穿马路,系统只能依赖过往类似案例被动应对,反应滞后。此外,模型只能识别像素级特征(如 红灯 形状),却无法理解语义级规则,比如红灯等于禁止通行。

端到端可以解决智驾 90% 的难题,但剩下的 10%,却怎么也跨不过去。

智驾安全显然不能停留在 90% 的基准线,要向前推进,业内普遍的共识是用规则兜底,在端到端网络之外写入规则代码,教会系统基本的交通法则,保证合理行驶。

但兜底更像是最后一道防线,面对错综复杂的极端情况,需要更加「治本」的方式。

于是,VLA (视觉-语言-动作大模型) 跃入技术前台。

这项技术最早由谷歌旗下的 DeepMind 提出,其标志性成果为机器人领域的 RT-2 模型,通过整合视觉感知、语言推理和动作控制,首次实现了从图像观察和文本指令到物理动作的端到端控制。

理想、元戎启行将其引入智驾领域,目的也是借 VLA 能力突破端到端的瓶颈。

VLA 的关键点在于,在「VA( 视觉-动作) 模式」中间加入了「Language(语言)」这一关键桥梁。

理想智驾负责人郎咸朋强调,「L」指代语言学习能力,它并不是简单的用语言做显示的文字推理,而是用语言提供的数据学习做隐式的逻辑推理。

这就好比人与动物的区别,人的视觉能力、行动速度都不如动物,但凭借强大的认知和理解能力,能够比动物更高一等。

相当于,VLA 的核心任务,就是让系统具备长「思维链」,这落实到性能体验上,会带来三方面提升。

其一,更全维度的「路牌」理解。

这里的「路牌」不再局限于平面的交通标识,而是扩展到红绿灯变化、交警手势、施工锥桶等动态三维信息。比如,系统能够识别潮汐车道标志,在拥堵路段也能顺畅变道。

其二,更自然的语音交互。

用户可以直接通过语音控制跟车距离、车速等,还能告知系统驾驶偏好。理想的「司机 Agent」甚至能记忆用户习惯,用户曾提示某路段应以特定车速行驶,系统在下次经过时会主动沿用,不用再重复指令,以此实现人车共驾。

其三,更前瞻的风险预判。

系统不再是遇到风险才被动响应,而是能通过视觉识别、语言推理提前感知潜在危险。比如看到前方路面有积水痕迹,会预判「可能存在涉水风险」并主动减速等。

VLA 玩家们都相信,VLA 是端到端的 2.0 形态,一个形象比喻是:

端到端像猴子开车,会模仿人类动作,却缺乏对物理世界的理解;

VLA 则像司机,甚至教练开车,既能理解规则,又能推理和灵活决策,从「学行为」进化为「懂意图」。

只不过,现在的 VLA 优势还并不明显。

郎咸朋强调,当前智驾任务还比较简单,在 L3、L4 阶段,智驾作为 Agent 要独立完成复杂任务时,VLA 才会获得碾压性胜利。

但也正因如此,在「VLA 是否为行业终局答案」这一问题上,始终得打个问号。

02

VLA 可能还不在神坛上

当理想、元戎启行高举 VLA 大旗时,迎接它的并不是像「端到端」一般的技术光环,而是多重质疑。

这场由 VLA 引发的舆论漩涡,一共有三层。

第一层是真假 VLA 之辩。关键角色是小鹏,有意思的是,小鹏早期并未高调举起 VLA 大旗,它这张 VLA 玩家的身份牌还是元戎启行翻开的,此前元戎启行创始人周光表示,任何投入大算力、大参数模型研发的玩家,都大概率是 VLA 路线的潜在参与者。这就指向了小鹏。

直到小鹏 G7 Ultra 发布会上,小鹏才明确表态,基于 3 颗图灵芯片与双激光雷达,小鹏 G7 Ultra 支持全场景 VLA,包括复杂路口决策、无车位泊车等功能,并在人机共驾模式下可以实现协同控制。

然而,尽管隶属于 VLA 阵营,但小鹏把刀口对准的却是「队友」。

何小鹏声称,「只有我们做成了真正的 VLA,部分公司做成的是一个嫁接的 VLA。」

他对此解释为,VLA 的落地需要数十亿资金投入。相比端到端,VLA 要处理的是更高维度、非结构化的多模态信息,再将其转化为驾驶动作决策,复杂度指数级提升。用几个亿只能堆出一个「微型 VLA」,本质上仍停留在端到端逻辑。

一句话,VLA 玩家都必须是资源禀赋型选手,需要技术先进,更需要大量资金。

某种程度上,小鹏用「纯血 VLA」的角度,揭开了 VLA 水面之下的暗角。

这就来到第二层,VLA 的落地挑战。博世智能驾控中国区总裁吴永桥解释得很清楚,即 VLA 落地需面临三大障碍:

多模态大模型的特征对齐存在挑战;

多模态的数据获取和训练十分困难;

当前所有的智驾芯片实际都不支持 VLA 模型。

尤其是第三点,吴永桥举例,VLA 理想化部署需达到 7B-10B 参数规模,但现有智驾芯片带宽有限。即便是一个 3B 模型,部署在英伟达 Thor 芯片上,频率也难以稳定维持在 10Hz。

10Hz 意味着系统每秒仅能完成 10 次感知与决策,放在驾驶场景中,就像一个「时常卡帧的机器人」。即使决策逻辑正确,但因为带宽不足、反应滞后,行车过程中仍会频繁出现延迟和卡顿,无法带来流畅、可靠的驾驶体验。

吴永桥并不否认 VLA 是个好方向,包括卓驭副总裁马陆也认同VLA 可以走通,但难度很大。

马陆强调,VLA 中的「L」并不是简单的语言大模型,不可能直接套用类似「通义千问」这样饿现成模型,而是要从头开始,练成一个理解智能驾驶的司机大模型,它需要完整理解物理世界的真实尺度,这需要资源,也需要时间。

种种论断都构成一个基本事实:实现 VLA 并不容易。

而在此基础上,Momenta 与华为对这一技术路径的审视已经来到第三层,VLA 对于智驾的真伪性。

关于智驾是否有必要走 VLA 这条路,双方都予以否定。

在 Momenta 创始人曹旭东眼里,VLA 只能算是锦上添花,还不足以扛起 L4、L5 的大任。最直接一点,VLA 对于安全性的提升或许能达到 5-10 倍,但L4 规模化落地需要的是 100-1000 倍安全提升,显然杯水车薪。

华为则坚定认为,VLA 这一从机器人领域引入的技术路径,并不是为智驾而生。并且,由于 VLA 在空间感知与推理能力上存在天然短板,语言模型与动作决策本就难以对齐。

简单而言,VLA 更像是一个伪命题。

相较之下,华为已经找到了新解法,在华为乾崑 ADS 4 上,打造出 WEWA 世界模型架构,通过端云结合的系统训练,行为模型可以直接控制车辆,时延更低。

华为认为,世界模型才是通往智驾终局的正确路径。

某种程度上,从小鹏、博世、卓驭再到 Momenta、华为,关于 VLA 的争论,其实反应出各家差异化的技术逻辑,大多时候,技术路径无关对错,关乎选择和资源博弈。

03

把鸡蛋放进最近的篮子里

过去一年,端到端热潮无疑让智能驾驶的步子迈得更大,尤其是「车位到车位」的功能落地,不仅重新划分了「第一梯队」入场标准,也让用户清晰感知到智驾进步带来的先进体验。

然而,「车位到车位」之后,整个智驾行业进入了「功能停滞」的瓶颈期。

一方面,监管给激进的智驾宣传按下暂停键,四月份开始,工信部、市场监管总局出台《关于进一步加强智能网联汽车产品准入、召回及软件在线升级管理的通知》等系列新规,对「自动驾驶」、「高阶智驾」等用语予以禁止,把智驾安全提到绝对优先层面,并规定车企每一次 OTA 更新,都需经过备案才能上线。

另一方面,L3 级智能驾驶政策还未放开,相当于,各车企、供应商还是停留在智驾体验优化层面,给 L2 后缀继续添加「+」,用户能感知到的「利己效益」并不明显。

这也是 Momenta、卓驭等玩家目前并不看好 VLA 的主要原因,VLA 的确能在用户体验上「整花活」,比如语音控车、人机共驾,但大概率不能给智驾带来成倍级的体验革命。

站在 L2+的起点上,智驾行业每向前走一步,都会面临更棘手的难题。越是到攻坚期,选择哪条路就越发重要,毕竟,任何一条技术路线背后,都是对算力、数据的巨额消耗。

这也意味着,大家更愿意把鸡蛋放进最近的篮子里。

一是押注确定性,几乎所有玩家都坚定选择了强化学习、世界模型的技术路径,VLA 本质上与这两者也并不冲突,在理想关于 VLA 的规划版图中,第四阶段就是基于世界模型进行强化训练,将系统打造成职业司机。

二是降低不确定性。智能驾驶的下半场,将是一场拼资金、拼技术、拼成本的拉锯战。因此,从有图,到无图,再到端到端路线,大家都是稳扎稳打走向下一阶段,基于各自既定的技术价值观,或者说,复用已有的数据和算法积累,确定下一步落子位置。

目前位列智驾第一梯队的玩家们,可以看出打法各异:

理想、元戎启行、小鹏选择押注 VLA。强调高投入、算力密集型路线,追求 VLA 大模型的上限。

三家也的确通过资源配置为 VLA 铺路,像小鹏通过自研图灵芯片,算力超过 750TOPS,并打造出 72B 参数的基座大模型,为 VLA 大模型提供充裕算力支持;元戎启行早期就研究 GPT 大语言模型,探索 VLA 方向,并聚焦英伟达 Thor 芯片的上车应用;而理想在端到端时期就乘上了「端到端+VLM」的列车,朝向 VLA 的方向。

另外,理想、小鹏都有自研人形机器人计划,而 VLA 在具身智能与智能驾驶的通用性,也指向了二者对于 VLA 的长远战略布局。

而未选择 VLA 路线的玩家们也是基于自身技术价值观,锚定最优解。

华为、地平线强调结构性解法,走体系化路线。华为凭借云端算力和 AI 大模型基础,构建出 WEWA 世界模型,主打「无弱点」的原生架构;地平线基于自研高性能计算平台征程 6P,强调软硬一体优势,打造出「中国版 FSD」。

博世主打工程化落地能力,依托全产业链协同与车规级品控经验,继续强化一段式端到端,强调快速量产能力;

卓驭则是「性价比」标签,聚焦主流车型需求,通过精简传感器配置与算法轻量化优化,打造高适配性的入门级方案。

Momenta 继续强调数据飞轮,强调商业可扩展性、成本可控。在「飞轮模式」驱动下,Momenta 将通过强化学习打造出新一代 R6 飞轮大模型。

在技术演进的道路上,每一项决策,都是取自于边际成本与边际效益的最优计算结果。

话说回来,智驾行业上一次这么热闹,还是为「纯视觉还是激光雷达路线」争论不休,而争论归于平静后,大家得到得共识是,纯视觉也好,激光雷达也罢,只要能保证丝滑、可靠的智能驾驶,都是可行路线。

VLA 之争同理,具体用哪种技术路径,本就不是行业该纠结的落脚点。用户在真实道路上能否感受到更平顺的行驶质感、更可靠的安全保障,远比选择哪种大模型更重要。

今天,能把智驾体验做到极致的玩家,才有机会在 L3 起跑时真正领先。

免责声明

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

最新文章

发布会的隐藏细节,和遐想中的 iPhone 未来

隐藏细节 遐想未来 麻 将 外号「科技春晚」的苹果秋季新品发布会昨天结束,相信这两天大家已经资讯过载了。 这也是爱范儿在下周的深度评测之前,最后一篇发布会相关文章。这次我们分享一些偏主观的

2025-09-11.
6459

索尼Xperia被骂翻,只因当初让用户“吃得太好”

“影像能力”无疑是过去几年手机厂商发力的重点,各头部厂商也都组建了自己的影像实验室,华为的红枫多光谱影像、OPPO的LUMO凝光影像是其中的代表。那么问题就来了,如今谁才是当下手机影像的顶点呢?索尼

2025-09-11.
4384

岚图推出旗舰六座SUV,搭载800V快充与华为智驾系统

近日,岚图汽车推出全新旗舰SUV车型,新车定位为全尺寸六座SUV,车身长度超过5米2,轴距超过3米1,整体尺寸在同类车型中处于领先地位。据最新介绍,新车外观设计融合了东方美学理念,具体表现为双色车身

2025-09-11.
5970

业内首份AI时代中小银行数据库报告发布,总结4大趋势

9月11日,在2025Inclusion·外滩大会上,中国银行保险报联合OceanBase海扬数据库,与19家银行机构编委单位发布业内首份《面向AI时代的中小银行数据库研究与展望》报告。报告首次明确

2025-09-11.
3981

国产首款全画幅2X变焦变宽电影镜头9月11日晚正式发布!

  国产首款全画幅2X变焦变宽电影镜头9月11日晚正式发布!老蛙新品【40-80mmT4 5&70-135mmT4 5】开启视觉革命!  划时代突破:老蛙全新推出国产首款全画幅2X变焦变宽电影镜头,

2025-09-11.
9930

热门教程

更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程

最新下载

更多
开局一只鲲
开局一只鲲 休闲益智 2025-09-11更新
查看
了不起的超人老爸
了不起的超人老爸 休闲益智 2025-09-11更新
查看
人类大战僵尸
人类大战僵尸 棋牌策略 2025-09-11更新
查看
火力全开2城市狂热虫虫汉化
火力全开2城市狂热虫虫汉化 角色扮演 2025-09-11更新
查看
霓虹空战
霓虹空战 飞行射击 2025-09-11更新
查看
斯洛莫格斗游戏
斯洛莫格斗游戏 休闲益智 2025-09-11更新
查看
脱单之王游戏
脱单之王游戏 休闲益智 2025-09-11更新
查看
寒刀侠客行手游
寒刀侠客行手游 角色扮演 2025-09-11更新
查看
我打僵尸贼猛游戏
我打僵尸贼猛游戏 飞行射击 2025-09-11更新
查看
拳击小子
拳击小子 飞行射击 2025-09-11更新
查看