小米汽车世界模型框架实现重建生成一体化主流基准测试表现全面领先

数码系统

相机 win10

测评 win11

手机智车

华为 Tesla

小米理想

苹果蔚来

游戏软件

LOL 抖音

原神微信

当前位置：首页

AI资讯

小米汽车世界模型框架实现重建生成一体化主流基准测试表现全面领先

热心网友时间：2026-05-26

转载

近年来，“世界模型”概念的兴起，正深刻重塑人工智能的发展路径。它推动AI从处理虚拟的文字与图像，迈向对物理世界运行规律的深度理解与动态推演。智能汽车，作为AI从数字空间走向实体世界的天然平台，自然成为世界模型技术率先落地与验证的关键领域。

近日，小米汽车正式发布了其创新的“Xiaomi Auto World Model”一体化框架。该方案为行业探索出一条将三维重建与视频生成深度融合的全新技术路径，旨在驱动智能驾驶的感知能力，从基础的“环境感知”向更高级的“认知推理与场景演化”阶段跨越。

这并非两种技术的简单叠加。传统方案通常将重建（WorldRec）与生成（WorldGen）作为独立模块开发后再进行串联，但两者存在内在的目标冲突：重建追求几何结构的精确还原，生成追求内容演化的多样可能。简单拼接容易导致优势相互抵消。小米的框架则致力于从根源上化解这一矛盾，通过一体化协同设计，使两者在结构上相互约束、彼此增强。目前，该框架已在Waymo、nuScenes等权威自动驾驶基准测试中取得全面领先（SOTA）成绩，并成功应用于小米汽车的合成数据生成、仿真测试与智能座舱交互三大核心业务线。

世界模型：为智能驾驶赋予“场景预演”能力

设想这样一个行车场景：在高速行驶中，前方路面突然出现滚落的轮胎。要让车辆的辅助驾驶系统妥善应对此类突发状况，传统方法依赖于其在海量真实数据中“学习”过足够多的相似案例。然而，现实道路中的极端“长尾”场景——例如暴雨中突然窜出的行人、山路上的落石、对向车道的逆行车辆——虽然发生概率极低，但一旦出现便可能造成严重后果。我们无法通过采集穷尽所有可能性。

这正是世界模型的核心价值。它能够基于历史和当前的实时观测，预测周围环境在未来时刻的可能演变。对于智能驾驶而言，这意味着车辆不仅具备“感知当下”的能力，更获得了“推演未来”的潜能，从而为决策规划赢得至关重要的提前量。

当前，构建自动驾驶世界模型主要遵循两大技术路线：重建（WorldRec）与生成（WorldGen）。二者各具特点：

重建路线擅长从多视角图像中恢复几何结构精确的3D场景，具有保真度高、一致性强的优点，但其局限在于只能还原已观测到的历史内容，缺乏对未知或未来场景的“创造性推演”能力。
生成路线则通过扩散模型等先进技术直接合成未来画面，能够“想象”未观测的视角和未发生的事件，但缺点是由于缺乏显式的三维结构约束，在生成长时序视频时容易出现内容失真和时序漂移问题。

一个直观的思路是：能否将两者结合，优势互补？现有方法多采用简单的级联模式——先重建一个静态场景，再将其作为条件输入生成模型。但这存在一个根本性挑战：重建的目标是追求确定性的几何保真，而生成的目标是拟合概率分布下的内容多样性，两者的优化目标存在本质差异。强行组合，往往导致各自优势难以充分发挥。

小米的解决方案：深度耦合的一体化框架，实现协同增益

Xiaomi Auto World Model 提出的，正是一个将重建与生成深度耦合的创新整合框架。其核心思想是让两个模块在训练与推理过程中形成闭环，相互约束、共同进化：

重建为生成提供“几何锚点”：重建模块（WorldRec）会维护一个随观测实时扩展的4D高斯全局场景表征。将这一精确的三维几何投影到自车视角后，便作为强空间先验输入给生成模型。这意味着，在车辆已观测过的区域，生成过程不再“无拘无束”，而是被坚实的几何结构所锚定——车道线位置、建筑物轮廓、多相机间的一致性均由重建保证，生成模型则专注于补全光照、纹理以及未被直接观测的细节。
生成为重建“拓展时空边界”：在重建无法覆盖的时空区域，例如未来的帧序列、被遮挡的视角或尚未驶过的道路，生成模块（WorldGen）便发挥其“创造性想象力”，将内容高质量地补全，从而使整个世界模型突破“历史轨迹”的物理限制。
协同抑制长时序累积误差：重建提供的确定性几何先验，能够持续校正生成过程的每一步，从根源上抑制因自回归预测带来的误差累积，确保生成长达一分钟的视频序列仍能保持高度的时空稳定性。

简言之，重建提供了稳定的三维空间骨架，约束着生成过程的“形”；而生成为系统补全了丰富的场景细节与演化“神韵”，并将预测能力延伸至观测之外。两者形成高效闭环，最终在三个关键维度上实现了“1+1>2”的协同效果：高稳定性（有效抑制误差漂移）、高一致性（保障跨视角、跨时序的全局一致）和高真实性（合成内容既符合物理规律又贴近真实世界）。

小米汽车世界模型全新框架：重建+生成一体化，主流基准测试全面 SOTA

WorldRec：从“逐像素预测”到“稀疏锚点聚合”的高效三维重建

要深入理解这套协同机制，首先需洞察重建侧的技术革新。当前主流的前馈式三维重建方法，普遍采用“为每个图像像素预测高斯属性”的范式。每张图像独立产生一套高斯点云，再后续融合到三维空间中。这种方法容易导致“鬼影”、分层等伪影，且计算与渲染开销巨大（常涉及数亿高斯点）。

问题的根源或许不在于融合策略，而在于表征本身——缺乏一种机制来约束“同一个三维空间点必须在所有观测视角下收敛为同一个高斯表征”。

基于这一洞察，WorldRec模块的核心思路是将场景表示从“稠密像素关联”升级为稀疏的三维查询锚点，从而实现了重建10秒驾驶视频仅需10秒的高效性能：

稀疏三维锚点表征：采用一组稀疏的、具有唯一三维空间位置的查询点，替代数以亿计的稠密高斯点，从源头避免了多视角间的特征歧义与冲突。
多视角多时序特征聚合：每个锚点会主动“检索”所有相机在不同时刻拍摄的图像特征，并聚合这些跨视角、跨时间的观测证据，形成全局一致的场景理解。
可见性感知的加权融合：系统会自动降低被遮挡或存在强反光等低质量视角的贡献权重，提升清晰可靠视角的权重，让模型聚焦于最可信的观测数据，提升重建鲁棒性。

WorldRec的10s快速重建效果展示

WorldGen：从“迭代修图”到“自由创作”的高效生成引擎

有了精确的3D场景作为“空间锚点”，生成侧的任务就变得清晰明确：在重建覆盖不到的“信息空白区域”——未来帧、未观测视角、被遮挡部分——进行高质量、高保真的内容补全与推演。

WorldGen不再是一个需要大量迭代“局部修复”的模型，而是一个能够“全局创作”的高效生成引擎。它仅需4步去噪，约0.19秒即可生成一帧高清图像，并支持最长1分钟的连续视频序列生成。

其卓越性能源于精心设计的两阶段训练策略：

第一阶段：全局时空理解预训练。采用全双向时序注意力机制，让模型能够同时看到序列的所有帧，从而建立起对驾驶场景时空分布的宏观结构化认知。
第二阶段：因果蒸馏与加速微调。切换到因果注意力进行教师强制训练，随后通过先进的ODE蒸馏技术，将模型推理所需的去噪步数从50步大幅压缩至仅4步，实现高达12倍的生成加速。最后，通过分布匹配蒸馏技术有效解决暴露偏差问题，从根本上抑制长序列生成中的内容退化与漂移。

除了效率，WorldGen的核心价值在于其应对真实世界复杂“长尾”极端场景的能力。无论是罕见的动物闯入（如马匹、鹿等突然出现在路面），还是极端恶劣天气条件（如暴雨、暴雪、浓雾），WorldGen都能生成高质量、高保真的虚拟场景数据。这为训练更鲁棒的自动驾驶感知模型提供了极其宝贵且难以通过真实采集获取的数据资源，直接提升了系统在危险和罕见场景下的识别与应对能力。

WorldGen的极端场景生成效果

全面领先的实测性能与三大核心应用场景

技术上的“深度耦合”与协同增益，最终需要硬核的基准测试与业务数据来验证。

在三维重建领域，Xiaomi Auto World Model的WorldRec模块在Waymo公开数据集上全面超越了之前的SOTA方法DGGT。其PSNR（峰值信噪比，衡量重建精度的核心指标，数值越高越好）达到28.48，领先优势约1个点。更重要的是，在nuScenes数据集上的零样本泛化测试中，它对比其他SOTA方法依然保持领先，证明了其强大的跨场景适应能力，而非仅在特定数据集上过拟合。

在视频生成领域，Xiaomi Auto World Model的WorldGen模块在H20 GPU上，单视角生成速度达到0.19秒/帧，三视角为0.46秒/帧。对比同为自回归方法的Epona（1.06秒/帧），速度快了5.6倍。同时，WorldGen支持高达81帧的连续生成（支持10Hz/30Hz帧率，最长1分钟），而大多数公开基线模型仅能生成8-16帧。在权威的nuScenes数据集评测中，WorldGen取得了FVD 64.97和FID 7.04的优异成绩，其FVD指标超越了所有参与对比的双向与自回归模型，在保证速度的同时保持了顶尖的生成质量。

目前，Xiaomi Auto World Model已经深度赋能小米汽车的三大实际业务场景，驱动产品智能化升级：

合成数据生成：已规模化生产并交付超过10万段高质量合成数据片段，直接用于感知模型的训练与增强，显著提升了车辆对各类危险场景和长尾案例的识别与处理能力。
高保真仿真测试：用于构建逼真的闭环仿真测试环境，极大提升了测试效率与场景覆盖的完备性，甚至能够精准复现真实事故案例进行定向算法优化与安全验证。
智能辅助驾驶学堂：利用世界模型的动态推演能力，生成第一人称视角的沉浸式驾驶教学视频。当用户面对复杂路况或新功能时，系统可以通过生成式视频直观、生动地展示正确操作流程与预期结果。该功能目前已上线小米全系车型的“辅助驾驶学堂-实景模拟”模块。

从被动“感知环境”到主动“推演未来”，Xiaomi Auto World Model正在为智能辅助驾驶构建一个可预测、可交互的“数字平行世界”。这不仅是实验室榜单上的技术突破，更是已经转化为实际生产力与用户体验提升的业务引擎。展望未来，小米汽车将继续深化预训练与闭环训练范式的研究，致力于推动端到端自动驾驶系统的认知与决策能力实现新的阶跃。

小米汽车世界模型框架应用示意图