当前位置: 首页
AI教程
用大白话讲清楚人工智能DETR模型原理

用大白话讲清楚人工智能DETR模型原理

热心网友 时间:2026-05-31
转载

DETR模型简介:端到端目标检测的革命性方案

DETR,全称为DEtection TRansformer,中文常译为“检测变换器”,是专为目标检测任务设计的Transformer模型。

从构成来看:DET代表目标检测,R则指向著名的Transformer架构。两者融合,形成了一个专注于目标检测领域的端到端Transformer模型。

与需要手动预设锚框、依赖非极大值抑制(NMS)算法筛选冗余预测框的传统YOLO系列算法不同,DETR模型的设计初衷,正是为了从根源上解决这些繁琐的人工操作与复杂的后处理流程。

我们来逐步拆解DETR的整体工作流程:

首先,一张图像被送入卷积骨干网络,用于提取图像的深层特征信息。接着,DETR将提取到的特征图展平,并送入一个完整的Transformer模型——该模型同时包含编码器与解码器结构。

Transformer最终会固定输出100组预测结果,对应100个目标“查询”。每组结果均包含两类关键信息:目标的类别以及预测框的坐标。

由于一张图中通常不会恰好包含100个物体,对于未匹配到真实目标的预测框,DETR会统一将其标记为“无目标”类别;而有效目标的预测框,则被映射回原图,与数据集中的真实标注框进行比对。

在训练阶段,DETR采用“二分图匹配”方式,对预测框与真实框进行一对一匹配,并计算专属的匹配损失。通过反向传播持续优化模型参数,不断缩小预测框与真实框之间的坐标误差与分类误差,从而逐步提升检测精度。

到了推理阶段,流程更为简洁:模型无需锚框,也无需非极大值抑制(NMS)这类后处理步骤,直接输出有效目标的边界框坐标与对应类别,一步到位,实现端到端的目标检测。

二分图匹配损失详解:如何实现最优配对

设想一个场景:现有3名司机与3名乘客,需要完成一个合理的匹配调度。目标是让整体出行的总成本最低。此时,可以构建一个成本矩阵,直观展示每一位司机分别接送每一位乘客所产生的单独成本,以此作为最优调度的计算依据。

实际上,DETR中预测框与真实框的匹配逻辑,与上述司机和乘客的调度原理完全一致。

我们可以构建一个损失矩阵,矩阵中的每个数值,都代表单个预测框与单个真实框之间的匹配损失。随后,通过二分图匹配算法,自动计算出哪个预测框与哪个真实框契合度最高、整体损失最小,直接完成一对一的最优配对。正是依靠这种全局最优的匹配方式,DETR才能免除非极大值抑制(NMS)来筛选重复框,从而省去了后续处理步骤。

DETR默认设置固定数量N=100,即固定生成100个预测框。模型默认一张图中的目标物体数量不会超过100个,这足以覆盖绝大多数检测场景。

二分图匹配的核心作用,就是确定:第i个真实目标,应该对应匹配哪一个预测框。

整体损失函数主要由分类损失与回归损失两部分组成:

第一部分是分类损失。假设真实物体是猫,模型就要让猫这个类别的预测概率无限接近1;损失计算时会对概率取负值,概率越高、预测越准,分类损失就越小。同时还会加入一个指示函数:只有当真实目标不是背景、是有效物体时,才会计算分类损失,背景类不参与损耗计算。

第二部分是边界框回归损失,用于约束预测框的位置与大小。

回归损失又细分为两项:

  • 一是绝对值误差,主要用于衡量预测框中心点的偏移距离,以修正框的位置偏差;
  • 二是交并比误差,用于约束两个框的重合程度,确保预测框与真实框的面积、范围尽量贴合。

DETR正是依靠二分图匹配完成框的一对一分配,再将分类损失与回归损失联合优化,既保证了物体类别的预测准确度,又能让检测框的位置、尺寸精准地贴合真实目标。

模型架构解析:从特征提取到目标检测

先看骨干网络部分:我们让一张图像经过卷积神经网络(CNN),目的就是提取图像的特征。提取完特征后,需要与位置编码进行加法运算,这样模型才能感知图像中各像素的位置关系,然后再将加法后的结果传送给Transformer模型。

这里的位置编码有两种方式,与大家熟悉的操作一致:第一种是正弦余弦编码,与原始Transformer所用方法完全相同,简单说就是用正弦标记图像像素的横坐标位置,用余弦标记纵坐标位置,固定不变;第二种是可学习的位置编码,无需复杂操作,只需初始化一个位置编码矩阵,模型训练时自身就能逐步优化调整。

接下来看Transformer模型,它分为编码器与解码器两部分。先说编码器:它用到的是刚才卷积神经网络提取的特征,核心作用是在这些特征之间进行注意力计算,让不同位置的特征建立关联。举例来说,图像中有一头牛,编码器能让“牛头”和“牛尾”的特征产生联系,这样模型才能辨识出这是一头完整的牛,而非零散的部位。

编码器处理完毕后,将结果传递给解码器。解码器的核心作用,是利用编码器学到的特征相关性,将图像中的物体组合识别出来,并绘制出对应的预测框。这里要提到“目标查询”(Object Query,简称OQ)——它相当于一个向解码器“提问”的角色。例如,它会问解码器:“这张图像中有人形物体吗?”“图像右下角有没有圆形物体?”OQ初始是一个全零的张量,待解码器训练完成后,其输出会传给前馈神经网络(即检测头),每个前馈神经网络专门负责预测一个物体,最终模型会将预测出的边界框绘制在原始图像上。

为便于理解,我们结合具体的张量尺寸来梳理整个流程(无需记忆过于复杂的细节,理解过程即可):

假设输入的图像是一个(3, 800, 1066)大小的张量(3是图像通道数,800和1066是图像的高和宽)。经过卷积神经网络处理后,图像的长和宽均缩小至原来的1/32,变成(2048, 25, 34)大小的张量(2048是特征通道数,25和34是缩小后的高和宽)。

随后,这个张量会经过一个2D卷积层,将特征通道数从2048压缩至256,变成(256, 25, 34)的张量;接着与同样为(256, 25, 34)大小的位置编码进行加法运算,融合特征与位置信息。

之后,这个融合后的张量会被变形为(850, 256)大小的张量,传递给Transformer编码器——这里的850由25×34得来(缩小后的高×宽),可理解为“编码长度”,256则是每个特征token的嵌入维度。编码器处理完成后,张量形状保持不变,仍为(850, 256),直接传递给解码器的交叉注意力层。

解码器的输入是一个(100, 256)大小的张量,100对应之前提到的100个预测框(模型默认一张图最多100个物体),256依然是token的嵌入维度。解码器处理完成后,输出形状仍为(100, 256),再传递给前馈神经网络(检测头)。

最后,检测头会输出两个结果:一个是1×91的类别预测值(91代表所有可能的物体类别,包含背景),另一个是1×4的预测框坐标(对应预测框的位置与大小)。

这里补充一个与之前“司机-乘客调度”一致的逻辑:我们可以构建一个矩阵,行对应100个预测框,列对应图像中的真实物体,矩阵中的每个数值,代表“第i个预测框匹配第j个真实物体”的总损失(包含分类损失与回归损失)。通过二分图匹配算法,找到让整体损失最小的一对一匹配方式,直接确定每个真实物体对应的最优预测框,这样就无需再做NMS处理。

检测头部分包含两个并行的子网络:一个负责预测物体的类别,另一个负责预测边界框的坐标,两者独立输出,最终合并形成完整的检测结果。

同时,目标查询(Object Query)是一组可学习的张量,它是解码器的输入,而非编码器的输出。你可以将其理解为解码器提前准备好的一批“问题”——例如“图像中是否有物体?它在哪?它是什么?”——解码器带着这些问题去查询编码器提炼出的图像特征。OQ初始值为零,但附带一个可学习的位置编码,用于区分不同的查询槽位。

在位置编码方面:编码器中,每一层的自注意力计算里,位置编码都会加到K和Q上;在解码器中,每一层交叉注意力的K(来自编码器的输出)也会加上对应的位置编码,而OQ本身扮演了解码器Q的位置编码角色。而且这种加法在编码器和解码器的每一层都会重复进行,各执行6次。

解码器的每一层并非从零开始,它会把上一层输出的预测结果(物体的类别与位置)以残差连接的形式传入下一层,相当于“带着上一轮的结论继续优化”。这样做的好处是,预测结果可以在每一层被逐步精细化。

举个例子:第一层解码器可能只能模糊地感知到“图像中有个人”;到了第二层,结合更多上下文信息,发现“这个人站在画面右侧”;到了第三层,进一步细化,识别出“这个人正举着双手”。每一层都在前一层的基础上推进,最终得到更准确的检测结果。

来源:https://developer.aliyun.com/article/1738734

游乐网为非赢利性网站,所展示的游戏/软件/文章内容均来自于互联网或第三方用户上传分享,版权归原作者所有,本站不承担相应法律责任。如您发现有涉嫌抄袭侵权的内容,请联系youleyoucom@outlook.com。

同类文章
更多
旅行社活动策划:AI写作提升客户体验与市场份额

旅行社活动策划:AI写作提升客户体验与市场份额

适合需求: 旅行社活动策划总结与优化指南 过去一年,旅行社在活动策划和组织执行方面交出了一份亮眼的成绩单。团队在每个环节主动突破舒适区,目标非常明确——让客户真正体验到旅行的核心价值与深度乐趣。 范文 Demo: 旅行社活动策划总结报告 转眼间一年过去,回顾来看,旅行社在活动策划与组织领域积累了诸多

时间:2026-05-31 10:17
猿辅导飞象老师AI教学辅助工具

猿辅导飞象老师AI教学辅助工具

飞象老师是什么 你或许已经留意到,2025年末教育领域出现了一款名叫「飞象老师」的创新工具——确切来说,这是猿辅导专门为教师群体量身打造的AI教学辅助平台。该产品于2025年12月1日正式上线,恰巧在教育部发布《教师生成式人工智能应用指引》之后亮相,成为首个落地的教师端AI应用。其背后支撑来自猿辅导

时间:2026-05-31 10:16
咖啡馆市场策略:激烈竞争中脱颖而出

咖啡馆市场策略:激烈竞争中脱颖而出

适合需求: 放眼当下的咖啡馆市场,单凭一杯精品咖啡就想脱颖而出,已经越来越难了。业界普遍认同,真正决定胜负的关键,恰恰在于市场策略。从选品构思到品牌传播,从外卖运营到堂食体验,每个环节都需要精准布局。越来越多的创业者和商家已深刻意识到,与其陷入价格内卷,不如在策略层面找到属于自己的节奏,这样才能真正

时间:2026-05-31 10:16
CNKI全球学术资源平台 连接中国与世界的知识共享

CNKI全球学术资源平台 连接中国与世界的知识共享

CNKI产品介绍 CNKI作为知网的国际化版本,是一个面向全球学术资源的综合性平台,其核心使命在于打破语言壁垒,助力不同母语的研究者轻松获取和分享知识。 它的具体功能可从以下六大模块来理解: 多语言支持:提供韩语、日语、俄语及阿拉伯语等界面,非中文母语用户可直接使用熟悉语言操作,大幅降低了学术资源访

时间:2026-05-31 10:15
咖啡店会员卡营销方案设计策略与AI工具应用指南

咖啡店会员卡营销方案设计策略与AI工具应用指南

适合需求:打造高吸引力的咖啡店会员卡营销策划方案在如今这个节奏飞快的时代,咖啡早已融入许多人的日常,成为一种生活方式。随着咖啡消费量不断攀升,越来越多咖啡店选择推出会员卡来增强顾客忠诚度。这不仅是营销手段的体现,更是优化顾客体验、提升留存率的关键举措。范文 Demo:设计具有吸引力的咖啡店会员卡营销

时间:2026-05-31 10:15
热门专题
更多
刀塔传奇破解版无限钻石下载大全 刀塔传奇破解版无限钻石下载大全
洛克王国正式正版手游下载安装大全 洛克王国正式正版手游下载安装大全
思美人手游下载专区 思美人手游下载专区
好玩的阿拉德之怒游戏下载合集 好玩的阿拉德之怒游戏下载合集
不思议迷宫手游下载合集 不思议迷宫手游下载合集
百宝袋汉化组游戏最新合集 百宝袋汉化组游戏最新合集
jsk游戏合集30款游戏大全 jsk游戏合集30款游戏大全
宾果消消消原版下载大全 宾果消消消原版下载大全
  • 日榜
  • 周榜
  • 月榜
热门教程
更多
  • 游戏攻略
  • 安卓教程
  • 苹果教程
  • 电脑教程