数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

热点详情

AutoMoT双SOTA重新思考VLM与端到端驾驶结合

AI热点日报时间：2026-05-31

热点解读

大模型进入自动驾驶后，最直接的价值体现在哪里？场景理解。它可以识别前车是否准备并线，行人有无可能突然横穿，施工区域到底占用了几条车道，复杂路口里谁应让行。这些，它都能准确解析。但问题在于，自动驾驶缺的不是“看懂”的能力。车辆真正要做的，是下一秒给出动作——要不要减速，轨迹偏不偏，继续跟车还是绕行。所

大模型进入自动驾驶后，最直接的价值体现在哪里？场景理解。它可以识别前车是否准备并线，行人有无可能突然横穿，施工区域到底占用了几条车道，复杂路口里谁应让行。这些，它都能准确解析。

但问题在于，自动驾驶缺的不是“看懂”的能力。车辆真正要做的，是下一秒给出动作——要不要减速，轨迹偏不偏，继续跟车还是绕行。所以核心就变成了：大模型的理解能力，究竟怎样才能实实在在地服务于驾驶决策和轨迹规划？

01 引言

上面这张图，总结了近年来该领域代表性工作的几种技术路径。

一种方案，是把VLM放在前端充当场景编码器。先解析图像，再把信息传递给planner。分工明确，但理解与规划仍然是两套独立系统。

另一种，是把VLM当作辅助模块，专门输出风险判断、驾驶意图、条件信号，真正的实时控制仍交给planner。这种方法对原有系统改动较小，但也有个问题：大模型经过复杂推理后，最终被压缩成少量提示信息，很难完整转化为实际动作。

还有更直接的方式，就是把推理和动作整合进同一个VLA模型里。理解与动作统一了，但实时性又成为新瓶颈。高层推理可以慢，轨迹规划必须快，如果两者始终同步运行，大模型推理的延迟就会卡住系统的响应速度。

针对这些挑战，来自南洋理工大学 AutoMan Lab、哈佛大学和小米汽车的研究团队提出了AutoMoT——一个面向端到端自动驾驶的统一Vision-Language-Action模型。它的核心思路，是将场景理解、轨迹规划和动作决策统一到同一个潜在空间，然后采用异步推理来解耦“低频理解、高频行动”。具体而言，理解模块负责高层语义建模，动作模块负责决策与轨迹规划，两者通过layer-wise shared attention在模型内部直接交互。

实验结果显示，AutoMoT在Bench2Drive和nuScenes两个基准上都取得了SOTA性能。在Bench2Drive闭环评测中，AutoMoT达到了87.34 DS / 70.00% SR，加入Action Refiner后的AutoMoT+进一步提升到89.42 DS / 74.09% SR；在nuScenes开环规划评测中，平均碰撞率仅为0.07%，平均L2为0.32。该研究已被ICML 2026正式接收。

02 模型架构

理解、决策与规划的统一

AutoMoT由两个专家模块组成：Understanding Expert（UE）和Action Expert（AE）。

如图所示，UE是一个4B级别的Qwen3-VL backbone，输入多帧RGB图像和导航提示，生成reasoning tokens；AE是约1.6B参数的动作专家，输入当前RGB、LiDAR BEV、decision queries、target points和planning queries，输出决策与规划tokens。

关键在于，UE和AE并非传统的串联式层级结构。AutoMoT在每一层引入了Layer-wise Shared Attention：UE提供高层场景理解，AE在生成动作时可以访问这些中间表示。这样一来，UE的场景理解不再只是一段文本解释，而是直接参与到动作生成过程中。

右侧图展示了AutoMoT的attention设计。Understanding、Decision、Planning三类任务通过cross-task causal mask建立起明确的信息流：Decision可以读取Understanding的场景理解信息，Planning则可以同时读取Understanding和Decision的信息；任务内部保持双向注意力。也就是说，Action Expert并非从零开始学习规划，而是在基座模型先验知识的基础上学习决策与轨迹生成。先理解场景，再基于理解形成决策，最后结合理解与决策生成规划，轨迹预测不再是简单的几何拟合，而是由场景语义和驾驶意图共同驱动。

异步推理，KV Cache复用场景理解

AutoMoT的异步推理，主要解决闭环驾驶中的实时性问题。动作规划需要高频刷新，因为自车状态和周围交通参与者都在不断变化；而高层场景理解具有一定的时间连续性——比如前方施工区域、慢速车辆或路口拓扑关系，并不会在相邻几个控制周期内突然改变。

因此，AutoMoT让UE周期性更新高层理解，AE则以更高频率生成动作。UE完成一次理解后，会保存对应的KV cache，AE在后续多个动作步中，可以直接基于这些cached states进行多步决策和轨迹规划，无需每一步都重新做一次完整的大模型推理。

这意味着，AutoMoT并非削弱大模型推理，而是重新定义它参与控制的方式：高层理解仍然影响着动作生成，但不再阻塞每一次轨迹刷新。

03 实验验证

闭环和开环结果

在CARLA Bench2Drive闭环评测中，AutoMoT取得了87.34 DS / 70.00% SR，超过了SimLingo的85.07 / 67.27。加入Action Refiner后，AutoMoT+进一步提升到89.42 DS / 74.09% SR，达到当前SOTA水平。这说明动作细化模块能进一步提升规划质量和任务成功率，也体现了AutoMoT在完整路线执行中的闭环驾驶能力。

在nuScenes开环规划中，AutoMoT的L2@1s / 2s / 3s分别为0.14 / 0.29 / 0.54，平均L2为0.32；碰撞率分别为0.01% / 0.06% / 0.15%，平均碰撞率仅为0.07%，在安全相关指标上达到了当前SOTA水平。这说明AutoMoT不仅保持了低轨迹误差，也生成了更安全的规划结果。

重新思考基座模型的通用能力到底要不要完全tailor到自动驾驶领域

AutoMoT还讨论了一个容易被忽略的问题：预训练基座模型进入自动驾驶后，是否需要整体微调成驾驶专用模型？

在AutoMoT中，保留Understanding Expert的预训练能力，并不仅仅出于节省算力的考虑。随着基座模型能力不断增强，它们已经具备了很强的通用场景理解、视觉语义建模和复杂关系推理能力，并且在自动驾驶场景理解任务中已经展现了SOTA水平。

第一组实验比较了AutoMoT在自动驾驶和通用任务上的reasoning能力。AutoMoT在LingoQA上达到67.00，接近ReCogDrive的67.20；在OmniDrive上达到0.89，高于ReCogDrive和Robotron-Drive的0.82；在CODA-LM上达到6.07。同时，在TallyQA和InfoVQA等通用任务上，分别达到81.40和89.30。这说明，在不完全专门化backbone的情况下，AutoMoT仍然保持了良好的驾驶场景理解和通用推理能力。

第二组实验说明得更直接：fine-tuning的收益并不均匀。在LingoQA这类场景理解任务上，微调几乎只带来边际提升，分数从67.00增至67.20；但在OmniDrive这种更接近规划和动作层的任务上，提升非常明显——从18.20一跃到67.80。这暗示了一个方向：自动驾驶中真正需要强领域适配的部分，更多集中在如何把场景理解转化为决策和动作，而不是基础视觉语言理解本身。

但整体微调backbone也有代价。微调后，TallyQA从81.40降到52.40，InfographicVQA从89.30降到50.20，VizWiz从75.60降到50.20。这说明，如果把整个基座模型深度改造成驾驶专用模型，其原本的通用理解和复杂推理能力可能会被削弱。

因此，AutoMoT采用了更明确的分工：UE保留预训练VLM的通用场景理解能力，AE则专门学习自动驾驶中的决策、规划和动作生成。这里要强调的是，这并不否定fine-tuning的价值，而是认为不同能力应当在更合适的模块中进行适配：高层理解能力由UE保留，action-level adaptation主要交给AE完成，从而避免整体微调带来的通用能力退化。

4. 结语

AutoMoT的核心思路并不是让VLM直接接管驾驶，而是在自动驾驶VLA系统中，重新组织“理解”和“行动”之间的关系。

由此，AutoMoT选择保留UE的通用理解能力，把自动驾驶中的动作学习主要交给AE。两者通过layer-wise shared attention连接，使得AE在生成决策和轨迹时，可以直接利用UE的中间表示，而不是只接收一段外部文本解释。同时，异步推理与KV cache把完整的VLM前向从每个动作周期中解耦出来，降低了实时控制中的计算压力。

AutoMoT提供了一个关于智能驾驶基座模型适配的新视角。把整个基座模型深度适配到驾驶领域固然有其优势，但往往也伴随着更高的标注、人力和算力成本。AutoMoT的SOTA性能展示了另一种更高效的可能：保留基座模型强大的通用场景理解能力，同时把驾驶相关的决策与规划能力交给专门的动作专家来学习，并通过紧凑的跨模块注意力机制实现二者之间的高效协同。这种设计在保持强性能的同时，也为面向真实部署的VLA系统提供了一条更具可扩展性的路径。

热点追踪提示词

你是一名 AI 行业编辑，请围绕下面这条热点输出一份资讯解读：热点：AutoMoT双SOTA重新思考VLM与端到端驾驶结合要求： 1. 先用一句话解释这条热点在讲什么 2. 再总结它为什么重要 3. 说明会影响哪些 AI 产品或内容方向 4. 最后给出 3 个适合资讯站使用的标题

来源：https://www.163.com/dy/article/KU19D7IH0511AQHO.html
SOTA

上一篇：恒玄科技跌3.01% 华夏基金持仓浮亏2240万

下一篇：恒玄科技跌3.01% 鹏华基金重仓5.34万股浮亏29.24万元

游乐网为非赢利性网站，所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享，版权归原作者所有，本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容，请联系youleyoucom@outlook.com。

相关热点

AI热点2026-05-31 19:43
数字时代高认知个体的AI情感陪伴心理学解析
高认知觉醒个体基于理性计算主动选择AI情感陪伴，因其具备去人格化、自主可控、情绪安全、低冲突等优势，有助于降低认知负荷并构建安全心理空间，是情感需求的精准满足而非替代。

AI热点2026-05-31 19:42
AI对话四象限：你和AI聊天可能全错了
```html 解锁AI对话四象限模型，提问效率提升90%！告别模糊指令，释放AI真实能力。核心要点：深度拆解AI对话四象限模型及其心理学理论根基掌握“我会AI也会”象限的高效协作实操技巧攻克“我不会AI会”象限的分层提问核心方法绝大多数人根本不会跟AI有效沟通！三年前刚接触AI时，我一

AI热点2026-05-31 19:42
AI知识库详解：解决什么问题、适合谁、怎么用
资料越来越多，找东西却越来越难。笔记、网盘、文件夹分类再细，到用的时候还是一团乱麻。AI知识库不是多一个工具，而是换一种方式——把资料交给AI处理，提问就能获取答案。这个系列文章里，我们将一步步探讨如何搭建一个能“理解”和“回答”的知识系统，让知识真正为你所用，不再只是堆在角落。 01 什么是AI

AI热点2026-05-31 19:41
企业AI智能体落地实战：8个接地气应用场景详解
企业AI智能体如何真正落地？8个实战案例告诉你从 "写标书 "到 "查回款 "，AI正在成为企业的 "数字员工 "。核心内容： 1 8个企业AI智能体落地实战案例解析 2 AI智能体落地的关键原则：场景驱动、小步快跑 3 企业应用AI智能体的5条实用建议这半年，AI智能体确实火得不行，也是企业级应用的

延伸阅读

iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态真我828真粉节揭晓：10000mAh超大电池手机即将亮相？苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套刘志强：京东方坚持开放合作，拒绝低质低价竞争 Redmi K90系列全系标配5000万长焦与3D超声波指纹，配置再升级 vivo X300系列曝光：天玑9500+2亿像素主摄，长焦微距实力升级

日榜

周榜

月榜

01 / 08-26iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 02 / 08-26iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 03 / 08-26真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 04 / 08-26苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别 05 / 08-27对话元戎启行周光：VLA模型核心成本在AI芯片，辅助驾驶方案交付近10万套

01 / 本周天工AI图文轮播标题提示词实战案例化技巧 02 / 本周Midjourney美食摄影提示词如何避免模板感 03 / 本周Kimi长篇报告自动分页方法：使用分块输出提示词 04 / 本周可灵AI制作书本打开立体动画效果教程 05 / 本周用Kimi将网页内容转为精美PPT的教程

01 / 本月天工AI图文轮播标题提示词实战案例化技巧 02 / 本月Midjourney美食摄影提示词如何避免模板感 03 / 本月Kimi长篇报告自动分页方法：使用分块输出提示词 04 / 本月可灵AI制作书本打开立体动画效果教程 05 / 本月用Kimi将网页内容转为精美PPT的教程

热点快看

05-31 19:50天工AI图文轮播标题提示词实战案例化技巧 05-31 19:50Midjourney美食摄影提示词如何避免模板感 05-31 19:49Kimi长篇报告自动分页方法：使用分块输出提示词 05-31 19:49可灵AI制作书本打开立体动画效果教程 05-31 19:48用Kimi将网页内容转为精美PPT的教程

热点追踪

持续追踪iPhone 17系列液态硅胶壳曝光：8色可选+挂绳孔设计 持续追踪iOS 26整合ChatGPT-5：AI全面赋能苹果智能生态 持续追踪真我828真粉节揭晓：10000mAh超大电池手机即将亮相？ 持续追踪苹果折叠iPhone曝光：搭载自研C2基带芯片与Touch ID指纹识别