当前位置: 首页
AI
奔驰团队如何让自动驾驶汽车识别不确定路况并安全行驶

奔驰团队如何让自动驾驶汽车识别不确定路况并安全行驶

热心网友 时间:2026-05-14
转载

在斯图加特的梅赛德斯-奔驰研究中心,科学家们正致力于攻克一项关乎自动驾驶安全的核心挑战:如何赋予人工智能“自知之明”,使其能够主动表达“我不确定”。这项由梅赛德斯-奔驰携手斯图加特大学、纽伦堡-埃尔兰根大学共同推进的前沿研究,为提升自动驾驶系统的谨慎性与可靠性开辟了创新的技术路径。

免费影视、动漫、音乐、游戏、小说资源长期稳定更新! 👉 点此立即查看 👈

让AI探测器看得见

设想一下,在浓雾天气中驾驶,你会本能地降低车速,因为模糊的视线意味着潜在风险。然而,当前绝大多数AI目标检测系统却像一个过度自信的新手,即使在感知条件不佳、图像模糊的情况下,也倾向于输出一个绝对确定的结论。这种“盲目自信”在自动驾驶这类安全至上的领域,可能引发难以预料的严重后果。

问题的根源在于“空间不确定性”信息的缺失。现有的视觉AI能够识别物体并给出一个置信度分数,例如“这是一辆车,我有95%的把握”。但它无法进一步说明:“车就在那个区域,但我对其精确的轮廓边界和具体位置不那么有把握。” 这好比一个人能肯定地说“远处有个人”,却无法清晰描述那人的确切站位和身形姿态。这种关键信息的缺位,使得系统在面对需要精细操控的复杂场景时,决策风险陡增。

一、探测器的“视觉”原理与其固有局限

要理解后续的技术突破,首先需要了解现代AI目标检测系统,尤其是DETR这类先进架构的工作原理。其流程,类似于一位侦探进行现场勘察。

整个过程分为三个关键阶段:首先是“全局特征提取”,编码器像侦探一样扫描整张图像,捕捉全局上下文与关键特征。接着是“目标定向查询”,解码器会派出多组“查询向量”,主动在特征图中搜寻潜在的目标对象。最后是“结果输出”,分类与回归头会给出最终的检测结论:物体类别、边界框坐标以及分类置信度。

然而,传统DETR架构存在一个根本性局限:它只能输出确定性的、单一的结果。当它绘制出一个边界框时,呈现的是唯一且精确的坐标,却没有附带任何关于“这个框的位置可能存在多大误差范围”的量化说明。这种“非黑即白”的输出模式,在面对复杂多变的真实世界时,显得捉襟见肘。

二、现有技术方案的效率瓶颈

为了给AI注入“不确定性感知”能力,研究者们并非从零起步。此前主要存在两条技术路径,但都伴随着高昂的计算代价。

第一条路径是“蒙特卡罗Dropout”。这相当于让同一个侦探,在不同的大脑工作状态下(随机屏蔽部分神经元),对同一现场反复勘察多次,然后汇总分析这些存在细微差异的报告。该方法虽然有效,但重复推理导致计算速度大幅下降,难以满足自动驾驶对实时性的严苛要求。

第二条路径是“深度集成”。这好比直接组建多个独立的侦探团队,让他们分别进行勘察,再综合所有意见。这种方法通常能获得更可靠的不确定性评估,但训练和运行多个完整的模型,对计算资源和内存的消耗极为巨大,成本难以承受。

三、GroupEnsemble:构建高效的“内部专家议会”

面对性能与效率的权衡,奔驰研究团队提出了一个巧妙的构想:何不在一个统一的模型架构内部,培育多个具备独立视角的“专家小组”?

这正是GroupEnsemble方法的核心思想。它基于一项现有技术——Group DETR。在模型训练阶段,Group DETR会初始化多组查询向量,这些小组会自然地学习关注图像的不同区域和特征,形成多样化的“观察模式”与“专业倾向”。

传统上,在推理阶段通常只启用第一个小组,其余小组处于闲置状态。GroupEnsemble的创新之处在于,它同时激活所有这些经过训练的小组,让它们对同一输入图像进行并行且独立的检测,从而在一次前向传播中,一次性生成多份差异化的“检测报告”。

为了确保各小组的独立性,研究者设计了一种注意力掩码机制,相当于在模型的“联合办公区”为每个小组设立了隔离间,防止它们在推理过程中相互“沟通”或达成共识。如此,仅需单次计算,就能获得多样化的输出,从根本上避免了重复计算带来的开销。

四、从多元结果中量化不确定性

获得了多份检测报告后,如何将其转化为可量化的“不确定性”信息?GroupEnsemble通过两步策略实现这一目标。

第一步是聚类匹配。 系统采用聚类算法,将所有指向同一真实物体的检测框归为一组。判断依据是它们之间的空间重叠度以及预测的物体类别是否一致。这就好比将多位侦探关于“同一辆红色轿车”的所有观察记录整理到同一个案件卷宗里。

第二步是信息聚合与不确定性提取。 这是生成不确定性度量的关键。对于“语义不确定性”(即“这是否是目标物体”),系统会统计有多少个小组报告了该物体。如果仅有少数小组支持,而多数小组将其判定为背景,那么该检测结果的置信度就会被相应调低,它很可能是一个误报。

对于“空间不确定性”(即“物体的精确位置与范围”),系统则分析同一卷宗内所有检测框的位置坐标和尺寸差异。差异越大,表明各小组对物体边界的判断分歧越大,空间不确定性就越高。最终,系统会输出一个经过加权平均的边界框,并利用计算出的统计方差来量化这种位置不确定性。

五、实验验证:展现全面领先的性能

研究团队在多个权威标准数据集上验证了该方法的有效性,结果表现卓越。

在Cityscapes(城市街景)数据集上,GroupEnsemble本身的不确定性估计质量已与MC-Dropout方法相当。而当两者结合形成“MC-GroupEnsemble”时,其“概率检测质量”得分达到21.4,是原始确定性基准系统(得分9.4)的两倍以上。更为难得的是,它在提供高质量不确定性估计的同时,平均检测精度(mAP)还从37.8%提升到了39.2%。

效率优势尤为显著。 深度集成方法需要运行5个完整模型,参数量增加107%,推理延迟高达53.4毫秒。而GroupEnsemble仅增加0.7%的参数量,推理延迟为18.4毫秒,比前者快约66%,在精度提升与计算效率之间取得了绝佳平衡。

在模拟雾天环境的Foggy Cityscapes数据集上,MC-GroupEnsemble同样表现出强大的鲁棒性,其不确定性估计质量显著优于其他对比方法。在通用的COCO大规模目标检测数据集上,其性能与深度集成方法持平,但计算成本低得多,证明了该方法具有广泛的适用性。

六、技术设计背后的深度考量

为何这些设计能够行之有效?消融实验给出了清晰的解释。

查询小组的数量并非无限增加就好,但适度增加小组数量确实能提升不确定性估计的质量,因为引入了更多元化的观察视角。得益于Transformer架构天然的并行处理能力,增加小组数量对推理延迟的影响,远小于串行运行多个独立模型。

在如何汇总各小组的“信心”分数上,研究者比较了多种策略。简单的平均池化会使系统整体趋向保守,而直接取最大值又会使其过于自信。最终采用的“加权最大值”策略,通过综合考虑支持某一检测结果的小组数量来动态调整最终置信度,在检测准确性与概率校准度之间找到了最优平衡点。

七、这项研究的核心价值与关注点

GroupEnsemble的核心优势,在于它巧妙地利用了DETR架构内生的并行处理潜力,将不确定性估计的额外成本降至最低。它不再需要以“时间换质量”或“内存换质量”,而是通过一次高效推理,同步获得多样化的检测结果。

此外,该方法展现出优异的“概率校准”特性。这意味着,当系统声称“我有90%的把握”时,其实际准确率也大约在90%左右。这种“言行一致”的可信度,对于构建安全可靠、值得信赖的人工智能系统至关重要。

在灵活性方面,由于Group DETR本质上是一种训练策略,GroupEnsemble可以较为便捷地集成到其他DETR变体模型之上,具备了良好的可扩展性与迁移潜力。

八、从实验室研究驶向实际应用

这项研究的现实意义与应用前景十分明确。对于自动驾驶而言,能够量化感知不确定性,意味着系统可以在雾、雨、雪、逆光等恶劣或边缘场景下,主动采取更保守、安全的策略,例如主动降速、增大跟车距离或及时请求人类驾驶员接管,而非盲目自信地继续行驶。

其低内存占用和高效推理的特性,使其非常适合部署在资源受限的车载嵌入式计算平台上。这不仅是实验室中漂亮的学术指标,更是技术得以工程化落地的重要前提。

当然,其应用领域远不止于自动驾驶。在医疗影像分析、工业视觉质检、安防监控预警等任何对错误容忍度极低的视觉感知任务中,一个能够坦言“我不太确定”的AI系统,都可以作为一道关键的安全冗余,在信心不足时触发人工复核流程,从而避免因错误决策导致的严重后果。

从更广阔的视野看,这项研究为Transformer时代的高效不确定性估计开辟了新的思路。它启示我们,让AI变得更“智能”,有时不仅仅是追求更高的绝对准确率,更是要赋予它“自知之明”的谦逊品质与审慎判断的能力。

Q&A

Q1:GroupEnsemble究竟是什么?

A:它是梅赛德斯-奔驰与顶尖高校联合研发的一种面向AI目标检测的不确定性估计方法。其核心是让检测系统在识别物体时,不仅能输出“是什么”和“在哪里”,还能评估并量化“我对这个位置判断的把握有多大”,从而显著提升系统在安全关键场景下的决策可靠性与透明度。

Q2:GroupEnsemble相比现有方法最大的优点是什么?

A:核心优势是高效性与低开销。它无需像蒙特卡洛Dropout那样多次重复运行模型,也无需像深度集成那样存储和运行多个完整模型。仅通过单次前向传播,就能获得高质量的不确定性估计,在推理速度上比深度集成方法快约66%,额外参数增量微乎其微(仅0.7%),真正实现了高性能与高效率的兼得。

Q3:这项技术何时能用在真正的自动驾驶汽车上?

A:该技术已在学术层面通过了严格的实验验证,充分证明了其可行性与优越性。从实验室原型到集成至量产车载系统,通常还需经历深入的工程化开发、符合车规级的严格测试以及复杂的安全认证流程。考虑到研发主导方是梅赛德斯-奔驰,这项前沿技术有望在未来几年的高级别自动驾驶(L3及以上)研发中得到应用,逐步使车辆在面对复杂和不确定环境时,表现得更加谨慎、可靠与智能。

来源:https://www.techwalker.com/2026/0316/3181274.shtml

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
DeepSeek个性化调优指南:打造专属AI助手的Prompt技巧

DeepSeek个性化调优指南:打造专属AI助手的Prompt技巧

想让DeepSeek输出的内容听起来更像你本人写的?关键在于系统性地调整提示词。这并非玄学,而是一套可以拆解、执行和优化的技术流程。下面这五个步骤,能帮你把通用的AI助手,逐步调教成你的“数字分身”。 一、先搞清楚你自己的“语言指纹” 调教的第一步,不是急着下指令,而是先做自我剖析。你需要像语言学家

时间:2026-05-14 08:02
清华大学与字节跳动合作推出万亿级时序AI模型Timer-S1革新预测技术

清华大学与字节跳动合作推出万亿级时序AI模型Timer-S1革新预测技术

2026年3月6日,一项由清华大学与字节跳动联合主导的突破性研究在arXiv预印本平台正式发布,论文编号为arXiv:2603 04791v1。该研究成功构建了名为Timer-S1的时间序列预测基础模型。这一模型参数量高达83亿,并在规模超万亿时间点的庞大数据集上完成了深度训练,标志着时间序列预测领

时间:2026-05-14 08:02
哈佛大学研发自适应智能传输系统可兼容各类数据格式

哈佛大学研发自适应智能传输系统可兼容各类数据格式

在当今数据驱动的科研领域,数据如同自然界的水流,形态多样且特征复杂。有些数据如清澈溪流,结构清晰明了;有些则如湍急江河,蕴含深层模式。长期以来,科学家们面临一个核心难题:如何构建一套通用的“智能管道系统”,能够将任意形态和来源的数据,高效、精准地从一种分布状态转换到另一种所需的状态? 近期,一项由哈

时间:2026-05-14 08:02
马普所AI虚拟人实现实时对话手势表情自然生成技术

马普所AI虚拟人实现实时对话手势表情自然生成技术

你是否曾与手机中的语音助手对话,却感到一种无形的隔阂?仿佛在与一个仅有声音的影子交流——能接收指令,却无法感知任何肢体语言所传递的温度与情感。这正是当前人工智能交互中亟待填补的空白:那些承载着超过一半沟通信息的手势、表情与身体姿态。 2024年,德国马克斯·普朗克信息学研究所与萨尔兰大学的联合研究团

时间:2026-05-14 08:02
OpenClaw代码审查工具:自动检测潜在问题与Bug

OpenClaw代码审查工具:自动检测潜在问题与Bug

OpenClaw执行代码审查的核心机制,本质上是将结构化的代码变更内容作为上下文信息,输入给本地部署或云端API的大型语言模型,再结合预设的审查规则与专用技能模块,系统性地识别代码中的潜在缺陷、安全漏洞与优化点。整个过程无需将代码上传至云端,其效能的关键在于模型选择、输入配置与触发方式的合理搭配。

时间:2026-05-14 08:01
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程