城建公司建设网站基础资料,制作网页网站哪个好用,深圳市住房和城乡建设局,wamp网站建设一、概述 相较于传统目标检测#xff0c;DETR是一种纯端到端的网络。它不再需要NMS(非极大值抑制#xff0c;用于去除多余的预测框)和生成anchor。 DETR提出了一个新的目标函数#xff08;二分图匹配#xff09;#xff0c;这个函数可以强制网络输出一个独一无二的预测值DETR是一种纯端到端的网络。它不再需要NMS(非极大值抑制用于去除多余的预测框)和生成anchor。 DETR提出了一个新的目标函数二分图匹配这个函数可以强制网络输出一个独一无二的预测值没有冗余的预测框。
二、网络结构 DETR的前向流程如上图所示①使用一个CNN抽取图片的特征②将这个特征拉平③将拉平后的特征送入Transformer的encoder-decoder单元④由decoder输出预测框的信息出框的信息是一个超参数原文为100⑤利用二分图匹配的方式将Ground Truth与预测结果进行匹配对于匹配成功的框才会进一步计算loss没有匹配成功的框将会被标记为no object背景类 1.基于集合的目标函数 DETR的输出是一个固定集合固定数目。为了在这些集合中找到正确的预测框DETR采用了一个二分图匹配的方法来解决这个问题。具体做法是将n个预测框和x个Ground Turth构建成一个cost matrix代价矩阵通过算法在其中找出代价最小的排列。 矩阵中的内容为损失函数分类Loss和框体Loss公式即可写为 这个公式的意义是在二分图匹配的基础上计算两个loss分类Loss和框体Loss其中对于第一个loss由于要与第二个loss取值范围一致其log被去除且实验表明并不会影响结果对于第二个loss由于L1-Loss会对大物体敏感所以采用generalized iou loss来计算与物体大小无关。 2.整体网络框架 ①默认图片输入大小为1066x800x3经过卷积网络提取特征得到输出2048x25x34然后经过一个1x1卷积进行通道调整降维得到256x25x34。 ②将特征拉平850*256并为其叠加位置编码256x25x34 ③将序列输入Encoder中计算自注意力 ④将结果输入Decoder进行解码输出这里引入一个object query一个可学习维度为100*256在每个decoder会先做一次object query的自注意力操作用于移除冗余框第一个decoder可以不做 ⑤将特征输入检测头FFN-MLP进行预测。
三、代码 出自原文的DETR42最简结构