AutoMoT双SOTA重新思考VLM与端到端驾驶结合
大模型进入自动驾驶后,最直接的价值体现在哪里?场景理解。它可以识别前车是否准备并线,行人有无可能突然横穿,施工区域到底占用了几条车道,复杂路口里谁应让行。这些,它都能准确解析。但问题在于,自动驾驶缺的不是“看懂”的能力。车辆真正要做的,是下一秒给出动作——要不要减速,轨迹偏不偏,继续跟车还是绕行。所
大模型进入自动驾驶后,最直接的价值体现在哪里?场景理解。它可以识别前车是否准备并线,行人有无可能突然横穿,施工区域到底占用了几条车道,复杂路口里谁应让行。这些,它都能准确解析。
但问题在于,自动驾驶缺的不是“看懂”的能力。车辆真正要做的,是下一秒给出动作——要不要减速,轨迹偏不偏,继续跟车还是绕行。所以核心就变成了:大模型的理解能力,究竟怎样才能实实在在地服务于驾驶决策和轨迹规划?
01 引言

上面这张图,总结了近年来该领域代表性工作的几种技术路径。
一种方案,是把VLM放在前端充当场景编码器。先解析图像,再把信息传递给planner。分工明确,但理解与规划仍然是两套独立系统。
另一种,是把VLM当作辅助模块,专门输出风险判断、驾驶意图、条件信号,真正的实时控制仍交给planner。这种方法对原有系统改动较小,但也有个问题:大模型经过复杂推理后,最终被压缩成少量提示信息,很难完整转化为实际动作。
还有更直接的方式,就是把推理和动作整合进同一个VLA模型里。理解与动作统一了,但实时性又成为新瓶颈。高层推理可以慢,轨迹规划必须快,如果两者始终同步运行,大模型推理的延迟就会卡住系统的响应速度。
针对这些挑战,来自南洋理工大学 AutoMan Lab、哈佛大学和小米汽车的研究团队提出了AutoMoT——一个面向端到端自动驾驶的统一Vision-Language-Action模型。它的核心思路,是将场景理解、轨迹规划和动作决策统一到同一个潜在空间,然后采用异步推理来解耦“低频理解、高频行动”。具体而言,理解模块负责高层语义建模,动作模块负责决策与轨迹规划,两者通过layer-wise shared attention在模型内部直接交互。
实验结果显示,AutoMoT在Bench2Drive和nuScenes两个基准上都取得了SOTA性能。在Bench2Drive闭环评测中,AutoMoT达到了87.34 DS / 70.00% SR,加入Action Refiner后的AutoMoT+进一步提升到89.42 DS / 74.09% SR;在nuScenes开环规划评测中,平均碰撞率仅为0.07%,平均L2为0.32。该研究已被ICML 2026正式接收。

02 模型架构

理解、决策与规划的统一
AutoMoT由两个专家模块组成:Understanding Expert(UE)和Action Expert(AE)。
如图所示,UE是一个4B级别的Qwen3-VL backbone,输入多帧RGB图像和导航提示,生成reasoning tokens;AE是约1.6B参数的动作专家,输入当前RGB、LiDAR BEV、decision queries、target points和planning queries,输出决策与规划tokens。
关键在于,UE和AE并非传统的串联式层级结构。AutoMoT在每一层引入了Layer-wise Shared Attention:UE提供高层场景理解,AE在生成动作时可以访问这些中间表示。这样一来,UE的场景理解不再只是一段文本解释,而是直接参与到动作生成过程中。
右侧图展示了AutoMoT的attention设计。Understanding、Decision、Planning三类任务通过cross-task causal mask建立起明确的信息流:Decision可以读取Understanding的场景理解信息,Planning则可以同时读取Understanding和Decision的信息;任务内部保持双向注意力。也就是说,Action Expert并非从零开始学习规划,而是在基座模型先验知识的基础上学习决策与轨迹生成。先理解场景,再基于理解形成决策,最后结合理解与决策生成规划,轨迹预测不再是简单的几何拟合,而是由场景语义和驾驶意图共同驱动。
异步推理,KV Cache复用场景理解
AutoMoT的异步推理,主要解决闭环驾驶中的实时性问题。动作规划需要高频刷新,因为自车状态和周围交通参与者都在不断变化;而高层场景理解具有一定的时间连续性——比如前方施工区域、慢速车辆或路口拓扑关系,并不会在相邻几个控制周期内突然改变。
因此,AutoMoT让UE周期性更新高层理解,AE则以更高频率生成动作。UE完成一次理解后,会保存对应的KV cache,AE在后续多个动作步中,可以直接基于这些cached states进行多步决策和轨迹规划,无需每一步都重新做一次完整的大模型推理。
这意味着,AutoMoT并非削弱大模型推理,而是重新定义它参与控制的方式:高层理解仍然影响着动作生成,但不再阻塞每一次轨迹刷新。
03 实验验证
闭环和开环结果
在CARLA Bench2Drive闭环评测中,AutoMoT取得了87.34 DS / 70.00% SR,超过了SimLingo的85.07 / 67.27。加入Action Refiner后,AutoMoT+进一步提升到89.42 DS / 74.09% SR,达到当前SOTA水平。这说明动作细化模块能进一步提升规划质量和任务成功率,也体现了AutoMoT在完整路线执行中的闭环驾驶能力。

在nuScenes开环规划中,AutoMoT的L2@1s / 2s / 3s分别为0.14 / 0.29 / 0.54,平均L2为0.32;碰撞率分别为0.01% / 0.06% / 0.15%,平均碰撞率仅为0.07%,在安全相关指标上达到了当前SOTA水平。这说明AutoMoT不仅保持了低轨迹误差,也生成了更安全的规划结果。

重新思考基座模型的通用能力到底要不要完全tailor到自动驾驶领域
AutoMoT还讨论了一个容易被忽略的问题:预训练基座模型进入自动驾驶后,是否需要整体微调成驾驶专用模型?
在AutoMoT中,保留Understanding Expert的预训练能力,并不仅仅出于节省算力的考虑。随着基座模型能力不断增强,它们已经具备了很强的通用场景理解、视觉语义建模和复杂关系推理能力,并且在自动驾驶场景理解任务中已经展现了SOTA水平。

第一组实验比较了AutoMoT在自动驾驶和通用任务上的reasoning能力。AutoMoT在LingoQA上达到67.00,接近ReCogDrive的67.20;在OmniDrive上达到0.89,高于ReCogDrive和Robotron-Drive的0.82;在CODA-LM上达到6.07。同时,在TallyQA和InfoVQA等通用任务上,分别达到81.40和89.30。这说明,在不完全专门化backbone的情况下,AutoMoT仍然保持了良好的驾驶场景理解和通用推理能力。

第二组实验说明得更直接:fine-tuning的收益并不均匀。在LingoQA这类场景理解任务上,微调几乎只带来边际提升,分数从67.00增至67.20;但在OmniDrive这种更接近规划和动作层的任务上,提升非常明显——从18.20一跃到67.80。这暗示了一个方向:自动驾驶中真正需要强领域适配的部分,更多集中在如何把场景理解转化为决策和动作,而不是基础视觉语言理解本身。
但整体微调backbone也有代价。微调后,TallyQA从81.40降到52.40,InfographicVQA从89.30降到50.20,VizWiz从75.60降到50.20。这说明,如果把整个基座模型深度改造成驾驶专用模型,其原本的通用理解和复杂推理能力可能会被削弱。
因此,AutoMoT采用了更明确的分工:UE保留预训练VLM的通用场景理解能力,AE则专门学习自动驾驶中的决策、规划和动作生成。这里要强调的是,这并不否定fine-tuning的价值,而是认为不同能力应当在更合适的模块中进行适配:高层理解能力由UE保留,action-level adaptation主要交给AE完成,从而避免整体微调带来的通用能力退化。
4. 结语
AutoMoT的核心思路并不是让VLM直接接管驾驶,而是在自动驾驶VLA系统中,重新组织“理解”和“行动”之间的关系。
由此,AutoMoT选择保留UE的通用理解能力,把自动驾驶中的动作学习主要交给AE。两者通过layer-wise shared attention连接,使得AE在生成决策和轨迹时,可以直接利用UE的中间表示,而不是只接收一段外部文本解释。同时,异步推理与KV cache把完整的VLM前向从每个动作周期中解耦出来,降低了实时控制中的计算压力。
AutoMoT提供了一个关于智能驾驶基座模型适配的新视角。把整个基座模型深度适配到驾驶领域固然有其优势,但往往也伴随着更高的标注、人力和算力成本。AutoMoT的SOTA性能展示了另一种更高效的可能:保留基座模型强大的通用场景理解能力,同时把驾驶相关的决策与规划能力交给专门的动作专家来学习,并通过紧凑的跨模块注意力机制实现二者之间的高效协同。这种设计在保持强性能的同时,也为面向真实部署的VLA系统提供了一条更具可扩展性的路径。
你是一名 AI 行业编辑,请围绕下面这条热点输出一份资讯解读:
热点:AutoMoT双SOTA重新思考VLM与端到端驾驶结合要求:
1. 先用一句话解释这条热点在讲什么
2. 再总结它为什么重要
3. 说明会影响哪些 AI 产品或内容方向
4. 最后给出 3 个适合资讯站使用的标题
游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。
相关热点高认知觉醒个体基于理性计算主动选择AI情感陪伴,因其具备去人格化、自主可控、情绪安全、低冲突等优势,有助于降低认知负荷并构建安全心理空间,是情感需求的精准满足而非替代。
```html 解锁AI对话四象限模型,提问效率提升90%!告别模糊指令,释放AI真实能力。 核心要点: 深度拆解AI对话四象限模型及其心理学理论根基 掌握“我会AI也会”象限的高效协作实操技巧 攻克“我不会AI会”象限的分层提问核心方法 绝大多数人根本不会跟AI有效沟通! 三年前刚接触AI时,我一
资料越来越多,找东西却越来越难。笔记、网盘、文件夹分类再细,到用的时候还是一团乱麻。AI知识库不是多一个工具,而是换一种方式——把资料交给AI处理,提问就能获取答案。 这个系列文章里,我们将一步步探讨如何搭建一个能“理解”和“回答”的知识系统,让知识真正为你所用,不再只是堆在角落。 01 什么是AI
企业AI智能体如何真正落地?8个实战案例告诉你从 "写标书 "到 "查回款 ",AI正在成为企业的 "数字员工 "。 核心内容: 1 8个企业AI智能体落地实战案例解析 2 AI智能体落地的关键原则:场景驱动、小步快跑 3 企业应用AI智能体的5条实用建议 这半年,AI智能体确实火得不行,也是企业级应用的
- 日榜
- 周榜
- 月榜
热点快看
