网站视频插件代码,微信公众号管理工具,电脑网页制作软件下载,住房与建设管理局Deformable DETR#xff08;2020 ICLR#xff09;
detr训练epochs缩小十倍#xff0c;小目标性能更好
Deformable attention 结合变形卷积的稀疏空间采样和Transformer的关系建模能力 使用多层级特征层特征,不需要使用FPN的设计#xff08;直接使用backbone多层级输出2020 ICLR
detr训练epochs缩小十倍小目标性能更好
Deformable attention 结合变形卷积的稀疏空间采样和Transformer的关系建模能力 使用多层级特征层特征,不需要使用FPN的设计直接使用backbone多层级输出 两种提升方法: bbox迭代细化机制2.两阶段Deformable DETR
整体结构 同样是6encoder6decoder。
首先运用了多层的图像特征在一个采样点周围进行多层级的可变形注意力模块紫色部分
decoder用交叉注意力红色的线指向第二个cross第一个是selfattention
object query一样
详细展示
multihead-attention MultiHeadAttn ( z q , x ) ∑ m 1 M W m ⏟ \ R C × C v [ ∑ k ∈ Ω k A m q k W m ′ ⏟ \ R C v × C x k ] where A m q k ∝ exp { ( U m z q ) T ( V m x k ) C v } U m , V m ∈ \ R C p × C \begin{array}{c} \text { MultiHeadAttn }\left(\mathrm{z}_{\mathrm{q}}, \mathrm{x}\right)\sum_{m1}^{M} \underbrace{W_{m}}_{\backslash \mathrm{R}^{C \times C_{v}}}[\sum_{k \in \Omega_{k}} A_{m q k} \underbrace{W_{m}^{\prime}}_{\backslash \mathrm{R}^{C_{v} \times C}} x_{k}] \\ \text { where } A_{m q k} \propto \exp \left\{\frac{\left(U_{m} z_{q}\right)^{T}\left(V_{m} x_{k}\right)}{\sqrt{C_{v}}}\right\} \quad U_{m}, V_{m} \in \backslash \mathbf{R}^{C_{p} \times C} \end{array} MultiHeadAttn (zq,x)∑m1M\RC×Cv Wm[∑k∈ΩkAmqk\RCv×C Wm′xk] where Amqk∝exp{Cv (Umzq)T(Vmxk)}Um,Vm∈\RCp×C deformable-attention DeformAttn ( z q , p q , x ) ∑ m 1 M W m ⏟ \ R C × C v [ ∑ k 1 K A m q k W m ′ ⏟ \ R C v × C x ( p q Δ p m q k ) ] \operatorname{DeformAttn}\left(\mathrm{z}_{\mathrm{q}}, \mathrm{p}_{\mathrm{q}}, \mathrm{x}\right)\sum_{m1}^{M} \underbrace{W_{m}}_{\backslash \mathrm{R}^{C \times C v}}[\sum_{k1}^{K} A_{m q k} \underbrace{W_{m}^{\prime}}_{\backslash \mathrm{R}^{C_{v} \times C}} x\left(p_{q}\Delta p_{m q k}\right)] DeformAttn(zq,pq,x)m1∑M\RC×Cv Wm[k1∑KAmqk\RCv×C Wm′x(pqΔpmqk)] Mhead K采样点 特征图xll∈[1,L]表示多个尺度的特征图 p_q参考点query的坐标点 这里每个像素点z_q只和其对应的k个采样点算attention z_qquery可以是encoder的图像或上一个decoder的输出特征图中每个像素点都是一个维度为C的向量z_q每个像素点的Reference Point也就是二维位置坐标为 p_q在图像上生成很多采样点p_q文章最后写了如何在encoder和decoder处获得reference point。M代表多头注意力机制中头的数目论文中M8每一个头中只考虑 z_q 附近 K 个点K远小于H x W论文K4。Δpmqk代表采样的位置偏移量第一个linear是一个二维的坐标初始化采样点是固定的但后续将通过全连接层计算预测更加值得关注的点的坐标
K 个采样点由参考点 p_q和偏移量 Δpmqk共同得到当然这个偏移量不可能就是一个整数这里获取该偏移量上的特征时是使用了双线性插值的
之后再接通过权重norm输出。 Deformable Attention使用的地方:
Encoder中的Self-Attention使用Deformable Attention替换.Decoder中的Cross-Attention使用Deformable Attention替换selfattention没替换关注的还是原始的qkv
原始DETR:分类头bbox预测头输出四个值中心点和宽高
deformable detrbbox的预测头的预测结果是相对于参考点的坐标偏移量这样的设计可以降低优化难度网络
首先会经过Linear得出参考点的初始坐标因此最后的bbox的输出不再是表示坐标值而是表示了坐标的偏移量用以对参考点的坐标进行修正这样也更加符合网络的设计 deformable detr几个变体
变体1bbox强化 bbox refinement不是辅助分类
reference pointencodergird H*W
decoder经过linear后生成的300个坐标 参考点的获取方法为object queries通过一个nn.Linear得到每个对应的reference point
不适用bbox强化decoder连续作用
使用
过一个decoder算一次bbox坐标加上reference point传入下一层反复
变体2two-stage
6encoder - memoryoutput- 传入两个FFN分类头clsbbox - bbox输出 和memory- 6decoder
其他
num_class没有no object1但是有类似的处理过程
matcher的label loss计算不同
原始直接过softmax
这里用的是focal bce loss
参考
um_class没有no object1但是有类似的处理过程
matcher的label loss计算不同
原始直接过softmax
这里用的是focal bce loss
参考
https://www.bilibili.com/video/BV1B8411M73e/?spm_id_from333.788vd_source4e2df178682eb78a7ad1cc398e6e154d