当前位置: 首页
科技数码
FSDrive视觉大模型:实现自动驾驶从感知到推理的跨越

FSDrive视觉大模型:实现自动驾驶从感知到推理的跨越

热心网友 时间:2025-12-09
转载

面向自动驾驶的多模态大模型在 “推理链” 上多以文字或符号为中介,易造成空间 - 时间关系模糊与细粒度信息丢失。FSDrive(FutureSightDrive)提出 “时空视觉 CoT”(Spatio-Temporal Chain-of-Thought),让模型直接 “以图思考”,用统一的未来图像帧作为中间推理步骤,联合未来场景与感知结果进行可视化推理。该方法在不改动原有 MLLM 架构的前提下,通过 “词表扩展 + 自回归视觉生成” 激活图像生成能力,并以 “由易到难” 的渐进式视觉 CoT 注入物理先验。模型既充当 “世界模型” 预测未来,又作为 “逆动力学模型” 进行轨迹规划。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

项目主页:https://miv-xjtu.github.io/FSDrive.github.io/ 论文链地址:https://arxiv.org/abs/2505.17685 代码地址:https://github.com/MIV-XJTU/FSDrive

多模态大语言模型(MLLM)凭借世界知识与可解释推理能力,正加速进入端到端 “视觉 - 语言 - 动作”(VLA)自动驾驶范式。但现有做法多依赖离散文本 CoT(如规则描述、坐标),本质上是对视觉信息的高度符号压缩,存在跨模态语义鸿沟与时空关系表征不足的问题。

核心问题:面向与物理世界深度交互的自动驾驶,思考过程更应接近 “模拟与想象” 的视觉推演,而非纯符号逻辑?

FSDrive 提出“时空视觉 CoT”,将未来场景与感知结果(车道线、3D 检测框)统一生成到一张未来图像帧中,作为中间推理步骤。一方面用普通未来帧承载时序演化,另一方面用 “红色车道线与 3D 框” 提供可驾驶区域与关键动态物体的空间先验,从而在视觉域内完成因果推断与决策规划。

本文关键创新:

1)统一的 “视觉中介”替代文字 / 表格中介,消除跨模态语义鸿沟;

2)以极小代价在现成 MLLM 上 “激活” 图像生成能力:仅通过扩展词表引入 VQ 类视觉 token,无需改架构大改或海量训练;

3)渐进式视觉 CoT:先生成 “物理约束” 的粗粒度感知图(车道线 / 3D 框),再生成细节丰富的未来帧,显式注入物理合理性。

价值:保持端到端简洁链路与可解释可视化推理,同时可大规模利用无标注视频数据学习世界演化规律。

方法

FSDrive 整体框架:

输入:环视图像与任务指令;输出:统一未来帧(含红色车道线 / 3D 框叠加)作为时空 CoT,以及最终轨迹。 双角色:模型先作为 “世界模型” 生成未来统一帧(时空 CoT),再作为 “逆动力学模型” 依据当前观测与未来预测进行轨迹规划。

统一预训练范式:理解 + 生成

理解保持:沿用 VQA 任务(如 OmniDrive-nuScenes/DriveLM 风格),维持原 MLLM 的语义理解能力。 生成激活:不改 MLLM 结构,仅将 VQ-VAE/MoVQGAN 等的视觉 token 并入 LLM 词表,扩展到 “图文共享词汇”。随后以自回归下一 token 预测方式直接生成图像 token,并由 detokenizer 还原像素。 数据高效:相较部分统一理解 - 生成方法,所需数据量约为其 0.3%,且不需从零训练或复杂解码器融合。

渐进式视觉 CoT(物理先验→细节补全)

先推理未来车道线(Ql):指示可行驶区域,注入静态物理约束; 再推理未来 3D 检测(Qd):刻画关键动态体的运动模式,注入动态约束; 最后在上述约束下生成完整未来帧(Qf):补全细节、提升真实性与一致性。 训练阶段采用该 “由易到难” 顺序,推断阶段将三者整合为 “统一未来帧” 以提高效率。

时空视觉 CoT 用于规划

将 “普通未来帧(时间演化)+ 红色车道线 / 3D 框(空间结构)” 合成为统一图像中介 QCoT,直接作为中间推理步骤输入规划头。模型在视觉域完成因果链条的传递,显著减少因符号化导致的语义缺失与二义性。 表达式:基于 It 与 QCoT 自回归生成未来轨迹 Wt,兼容导航指令与自车状态(可选)。

训练策略

初始化:可从任一现成 MLLM(如 Qwen2-VL-2B、LLaVA-7B)出发;冻结视觉编码器,微调 LLM 主体。 阶段一(统一预训练):混合训练 VQA、未来帧生成与渐进式感知生成(车道线 / 3D 框),大量使用 nuScenes 无标注视频用于未来帧预测。 阶段二(SFT):联合优化场景理解(DriveLM GVQA)与轨迹规划(nuScenes,含统一时空 CoT 作为中间步骤),通过不同提示词调用任务专属推理。 实现要点:MoVQGAN 视觉码本并入词表,detokenizer 回像素;预训练 32 轮,SFT 12 轮;仅 LLM 全量微调。

实验

端到端轨迹规划

相比同时具备视觉生成的 Doe-1(Lumina-mGPT-7B),FSDrive 在不使用自车状态时取得更低 L2 与更低碰撞:

ST-P3 平均 L2:0.53 vs 0.70;碰撞率:0.19 vs 0.21(基于 Qwen2-VL-2B)。 UniAD 平均 L2:0.96 vs 1.26;碰撞率:0.40 vs 0.53。

与 LLaVA-7B 系列下的近期方法(如 OminiDrive、RDA-Driver)相比,FSDrive 在相同设置下展现出强竞争力,说明框架可广泛迁移到主流 MLLM。

未来帧生成质量(FID)

在 128×192 分辨率下,FSDrive(自回归)FID=10.1,优于多数扩散式世界模型(如 GEM 10.5)并显著优于 Doe-1(15.9),兼顾实时性与质量。

场景理解(DriveLM GVQA)

Final Score 0.57,超过 OminiDrive(0.56)、Cube-LLM 等;多项语言生成指标与多选准确率(0.72)均表现稳健,表明 “理解 + 生成” 统一预训练的有效性。

定性分析

在错误导航指令下,FSDrive 可通过 “观察 + 未来预测” 的视觉推理纠偏路径,降低潜在碰撞;体现其 “逆动力学” 能力与可解释性。

总结

来源:https://36kr.com/p/3489019338808452

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
vivo X300 Ultra 手机维修备件价格公布:屏幕优惠价 1320 元,主板 3300 元起

vivo X300 Ultra 手机维修备件价格公布:屏幕优惠价 1320 元,主板 3300 元起

vivo X300 Ultra维修价格出炉:看懂这份“后期养护”清单 vivo X300 Ultra昨天正式开卖,作为一款搭载了第五代骁龙8至尊版和蔡司大师镜头群的旗舰,6999元起的售价彰显了它的定位。新机到手,除了性能与影像,它的“后期养护”成本也成了不少用户关心的重点。这不,官方维修备件价格已

时间:2026-04-06 22:23
玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB

玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB

玄派玄机 16 2026 笔记本电脑上架:AMD 锐龙 AI Max+ 395,128GB + 2TB 来了,一款瞄准专业创作和重度计算场景的移动工作站新鲜出炉。4月6日消息,玄派旗下的Metaphyuni系列新品——玄机16 2026笔记本电脑已经正式上架。其核心配置相当惹眼,直接搭载了AMD顶级

时间:2026-04-06 22:02
内存疯涨三星赚翻了!Q1利润暴涨600%以上 还得继续涨

内存疯涨三星赚翻了!Q1利润暴涨600%以上 还得继续涨

存储芯片价格持续上涨,行业格局迎来深刻调整 近期存储芯片市场的普遍涨价,给众多下游电子厂商带来了显著的成本压力。与此同时,智能手机、个人电脑等终端产品全年出货量面临下滑,已成为业界共识。然而,市场格局往往是动态平衡的,对于三星电子这样的半导体巨头而言,当前的市场环境可谓机遇难得——公司第一季度盈利表

时间:2026-04-06 21:55
Meta 为雷朋 Display 智能眼镜推出第二个重大更新:新增营养追踪、聊天消息摘要、屏幕录制功能...

Meta 为雷朋 Display 智能眼镜推出第二个重大更新:新增营养追踪、聊天消息摘要、屏幕录制功能...

Meta 为雷朋智能眼镜推出第二代重要升级:新增营养追踪、消息摘要与高清屏幕录制功能 Meta 近日向旗下与雷朋联名研发的智能眼镜——Ray-Ban Meta 正式推送了第二次重大软件更新。此次升级并非无关痛痒的小修小补,而是新增了多项实用功能,例如基于AI视觉的实时营养分析、WhatsApp聊天智

时间:2026-04-06 21:53
OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起

OPPO A6k 手机上市:天玑 6300 + LCD 直屏 + 7000mAh 电池,定价 1999 元起

OPPO A6k手机重磅发布:天玑6300处理器、高清LCD直屏、7000mAh超大电池,售价仅1999元起 OPPO旗下广受欢迎的A系列再添实力新机。近日,备受期待的OPPO A6k正式上市发售。这款新品搭载了备受好评的天玑6300八核处理器,并配备了一块容量高达7000mAh的耐用长寿电池,成为

时间:2026-04-06 21:45
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程