政协 网站建设,预约网站模板,十句经典广告语,etc工程承包模式1. 解决了什么问题#xff1f;
3D 视觉感知任务#xff0c;包括基于多相机图像的 3D 目标检测和分割#xff0c;对于自动驾驶系统非常重要。与基于 LiDAR 的方法相比#xff0c;基于相机图像的方法能够检测到更远距离的目标#xff0c;识别交通信号灯、交通标识等信息。有…1. 解决了什么问题
3D 视觉感知任务包括基于多相机图像的 3D 目标检测和分割对于自动驾驶系统非常重要。与基于 LiDAR 的方法相比基于相机图像的方法能够检测到更远距离的目标识别交通信号灯、交通标识等信息。有一些方法使用单目画面然后进行跨相机的后处理操作这类方法的缺点就是各图像是分开处理的无法取得跨相机的画面信息因而效果和效率都比较差。
与单目方法相比BEV 是表示周围环境的常用方法它能清晰呈现目标的位置和大小适合自动驾驶感知和规划任务。但现有的基于 BEV 的检测方法所提供的 BEV 特征要么不够鲁棒无法准确地预测 3D 目标要么深度信息不够准确。
人类视觉系统会通过时间信息推理出目标的运动状态与被遮挡物体但现有的方法很少考虑时间信息。在驾驶过程中目标移动速度很快直接使用各时间戳的 BEV 特征会增加计算成本与干扰信息因此不是最佳的。
2. 提出了什么方法
本文提出了 BEVFormer一个基于 transformer 的 BEV encoder通过预先定义的网格状 BEV queries 实现信息在时间和空间内的交互。BEVFormer 包括三个部分
网格形状的 BEV queries通过注意力机制灵活地融合空间和时间特征空间 cross-attention 模块从多个相机画面聚合空间特征时间 self-attention 模块从历史 BEV 特征提取时间信息有助于预测运动物体的速度以及被遮挡的目标。 2.1 整体架构
如上图BEVFormer 包括 6 个标准的 encoder 层以及 3 项特殊设计即 BEV queries、空间 cross-attention 和时间 self-attention。BEV queries 是网格形状的可学习参数在 BEV 空间内对多相机的画面利用注意力机制 query 特征。
推理时在时间戳 t t t将多相机画面输入进主干网络 ResNet获取不同相机画面的特征 F t { F t i } i 1 N v i e w F_t\lbrace F_t^i \rbrace_{i1}^{N_{view}} Ft{Fti}i1Nview F t i F_t^i Fti是第 t t t时刻、第 i i i个相机画面的特征 N v i e w N_{view} Nview是画面的个数。保留时间戳 t − 1 t-1 t−1的 BEV 特征 B t − 1 B_{t-1} Bt−1。在每个 encoder 层首先使用 BEV queries Q Q Q通过时间 self-attention 对 BEV 特征 B t − 1 B_{t-1} Bt−1查询时域信息。然后通过空间 cross-attention 使用 Q Q Q来查询多相机特征 F t F_t Ft的空间信息。在 FFN 后encoder 层输出优化后的 BEV 特征作为下一个 encoder 层的输入。一共经过 6 个 encoder 层就得到了时间戳 t t t的 BEV 特征 B t B_t Bt。接下来使用 B t B_t Bt进行后续的 3D 检测和语义分割任务。
2.2 BEV Queries
定义一组网格状的可学习参数 Q ∈ R H × W × C Q\in \mathbb{R}^{H\times W\times C} Q∈RH×W×C作为 BEVFormer 的 queries其中 H W HW HW是 BEV 平面的高度和宽度。Query Q p ∈ R 1 × C Q_p\in \mathbb{R}^{1\times C} Qp∈R1×C位于 p ( x , y ) p(x,y) p(x,y)负责 BEV 平面的相应的格子。BEV 平面上的每个网格都对应着真实世界的 s s s米长度。BEV 特征的中心对应着车辆自身ego的位置。在输入 BEVFormer 前在 queries Q Q Q中加入可学习的 positional encoding。
2.3 Spatial Cross-Attention
因为多相机 3D 感知的输入尺度太大原始的 multi-head attention 的计算成本就过高。因此作者基于 deformable attention 设计了空间 cross-attention每个 BEV query Q Q Q只和相机画面内的兴趣区域RoI发生作用。 如上图(b)将 BEV 平面的每个 query 变为 pillar-like query从该 pillar 中采样 N r e f N_{ref} Nref个 3D reference points然后再将这些点映射到 2D 画面。对于一个 BEV query映射的 2D 点只会落到某些画面里面这些画面叫做 V h i t \mathcal{V}_{hit} Vhit。将这些 2D 点看作为 query Q p Q_p Qp的 reference points然后从 V h i t \mathcal{V}_{hit} Vhit画面中提取这些 reference points 的特征。最后计算这些采样特征的加权和作为空间 cross-attention 的输出。SCA 计算如下 SCA ( Q p , F t ) 1 ∣ V h i t ∣ ∑ i ∈ V h i t ∑ j 1 N r e f DeformAttn ( Q p , P ( p , i , j ) , F t i ) \text{SCA}(Q_p, F_t)\frac{1}{\left| \mathcal{V}_{hit}\right|}\sum_{i\in \mathcal{V}_{hit}}\sum_{j1}^{N_{ref}}\text{DeformAttn}(Q_p, \mathcal{P}(p,i,j),F_t^i) SCA(Qp,Ft)∣Vhit∣1i∈Vhit∑j1∑NrefDeformAttn(Qp,P(p,i,j),Fti)
其中 i i i是相机画面索引 j j j是 reference point 的索引 N r e f N_{ref} Nref是每个 BEV query pillar 中 reference points 的个数。 F t i F_t^i Fti是第 i i i个相机画面的特征。对于每个 BEV query Q p Q_p Qp使用一个映射函数 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j)获取第 i i i个画面上 p ( x , y ) p(x,y) p(x,y)位置的第 j j j个 reference point。
接下来介绍如何使用映射函数 P \mathcal{P} P从图像上获取 reference point。首先计算 p ( x , y ) p(x,y) p(x,y)位置上 Q p Q_p Qp对应的真实世界的坐标 ( x ′ , y ′ ) (x,y) (x′,y′) x ′ ( x − W 2 ) × s ; y ′ ( y − H 2 ) × s x(x-\frac{W}{2})\times s;\quad\quad y(y-\frac{H}{2})\times s x′(x−2W)×s;y′(y−2H)×s
这里 H , W H,W H,W是 BEV queries 空间的高度和宽度 s s s是 BEV 网格的大小 ( x ′ , y ′ ) (x,y) (x′,y′)是坐标位置。在 3D 空间 ( x ′ , y ′ ) (x,y) (x′,y′)处的目标可能出现在 z ′ z z′高度。因此作者预先定义了一组 anchor heights { z j ′ } j 1 N r e f \lbrace z_j \rbrace_{j1}^{N_{ref}} {zj′}j1Nref确保我们可以获取不同高度的信息。这样对于每个 query Q p Q_p Qp得到一个柱状的 3D reference points ( x ′ , y ′ , z j ′ ) j 1 N r e f (x,y,z_j)_{j1}^{N_{ref}} (x′,y′,zj′)j1Nref。最后通过相机参数矩阵将 3D reference points 映射到不同的相机画面中 P ( p , i , j ) ( x i j , y i j ) \mathcal{P}(p,i,j)(x_{ij}, y_{ij}) P(p,i,j)(xij,yij) where z i j ⋅ [ x i j y i j 1 ] T T i ⋅ [ x ′ y ′ z j ′ 1 ] T . \text{where}\quad z_{ij}\cdot \left[ x_{ij}\quad y_{ij}\quad 1 \right]^T T_i \cdot \left[ x \quad y\quad z_j\quad 1 \right]^T. wherezij⋅[xijyij1]TTi⋅[x′y′zj′1]T.
其中 P ( p , i , j ) \mathcal{P}(p,i,j) P(p,i,j)是第 j j j个 3D reference point ( x ′ , y ′ , z j ′ ) (x,y,z_j) (x′,y′,zj′)映射到第 i i i个画面的 2D 点。 T i ∈ R 3 × 4 T_i\in \mathbb{R}^{3\times 4} Ti∈R3×4是第 i i i个相机的参数矩阵。
2.4 Temporal Self-Attention
时间信息对于视觉系统也非常重要有助于预测运动物体的速度或者检测遮挡物体。于是作者设计了 temporal self-attention融合历史 BEV 特征来表征当前的环境。
给定时间戳 t t t的 BEV queries Q Q Q和 t − 1 t-1 t−1时间戳的历史 BEV 特征 B t − 1 B_{t-1} Bt−1。首先基于车辆自身的运动将 B t − 1 B_{t-1} Bt−1与 Q Q Q对齐保证同一网格内的特征对应着同一个真实的世界坐标。将对齐后的历史 BEV 特征 B t − 1 B_{t-1} Bt−1记为 B t − 1 ′ B_{t-1} Bt−1′。但是从 t − 1 t-1 t−1到 t t t真实世界的目标运动偏移是各不相同的。因此作者通过 TSA 层对特征间的时间关系建模 TSA ( Q p , { Q , B t − 1 ′ } ) ∑ V ∈ { Q , B t − 1 ′ } DeformAttn ( Q p , p , V ) \text{TSA}(Q_p, \lbrace Q,B_{t-1} \rbrace)\sum_{V\in\lbrace Q,B_{t-1} \rbrace}\text{DeformAttn}(Q_p, p, V) TSA(Qp,{Q,Bt−1′})V∈{Q,Bt−1′}∑DeformAttn(Qp,p,V) Q p Q_p Qp表示 p ( x , y ) p(x,y) p(x,y)处的 BEV query。$\lbrace Q,B’{t-1}\rbrace 是将 是将 是将Q 和 和 和B’{t-1} c o n c a t 起来预测 T S A D e f o r m A t t n 的偏移量 concat 起来预测 TSA DeformAttn 的偏移量 concat起来预测TSADeformAttn的偏移量\Delta p$。对于每个序列中的第一个样本TSA 会退化为一个不带时间信息的 self-attention用 BEV queries { Q , Q } \lbrace Q,Q \rbrace {Q,Q}代替 { Q , B t − 1 ′ } \lbrace Q,B_{t-1} \rbrace {Q,Bt−1′}。
2.5 实验
2.5.1 Training
对于时间戳 t t t的样本从过去 2 秒的连续帧中另外选取 3 个样本这个随机采样策略能增强车辆自身运动的多样性。将这4个样本的时间戳分别记做 t − 3 , t − 2 , t − 1 t-3,t-2,t-1 t−3,t−2,t−1和 t t t。前 3 个时间戳负责递归地产生 BEV 特征 { B t − 3 , B t − 2 , B t − 1 } \lbrace B_{t-3},B_{t-2},B_{t-1} \rbrace {Bt−3,Bt−2,Bt−1}。对于 t − 3 t-3 t−3时间戳的初始样本TSA 会退化为 self-attention。在 t t t时刻模型基于多相机输入和 B t − 1 B_{t-1} Bt−1产生 BEV 特征 B t B_t Bt这样 B t B_t Bt就包含了横跨 4 个样本的时间和空间信息。最后将 B t B_t Bt输入进检测和分割 heads计算相应的损失。
2.5.2 Inference
推理时按时间顺序在视频的每一帧上做预测。保留前一时间戳的 BEV 特征在后面使用这个在线推理策略节约了大量时间。
从下图可看出BEVFormer 能够检测出高度遮挡的目标。
#3. 有什么优点 在 nuScenes test 数据集上取得了 56.9 % 56.9\% 56.9%的 NDS与基于 LiDAR 的方法相近。BEVFormer 能够显著提高速度的预测准确率和低可见度情况下的目标召回率。 文章转载自: http://www.morning.pzjfz.cn.gov.cn.pzjfz.cn http://www.morning.pwksz.cn.gov.cn.pwksz.cn http://www.morning.yhgbd.cn.gov.cn.yhgbd.cn http://www.morning.pwhjr.cn.gov.cn.pwhjr.cn http://www.morning.rmxk.cn.gov.cn.rmxk.cn http://www.morning.rkfwr.cn.gov.cn.rkfwr.cn http://www.morning.cwznh.cn.gov.cn.cwznh.cn http://www.morning.lmctj.cn.gov.cn.lmctj.cn http://www.morning.lztrt.cn.gov.cn.lztrt.cn http://www.morning.wrdpj.cn.gov.cn.wrdpj.cn http://www.morning.wjqyt.cn.gov.cn.wjqyt.cn http://www.morning.llcsd.cn.gov.cn.llcsd.cn http://www.morning.hlxpz.cn.gov.cn.hlxpz.cn http://www.morning.gqfjb.cn.gov.cn.gqfjb.cn http://www.morning.mtmph.cn.gov.cn.mtmph.cn http://www.morning.nxstj.cn.gov.cn.nxstj.cn http://www.morning.lbrwm.cn.gov.cn.lbrwm.cn http://www.morning.rwwdp.cn.gov.cn.rwwdp.cn http://www.morning.rqhbt.cn.gov.cn.rqhbt.cn http://www.morning.qtqk.cn.gov.cn.qtqk.cn http://www.morning.bkfdf.cn.gov.cn.bkfdf.cn http://www.morning.qlpyn.cn.gov.cn.qlpyn.cn http://www.morning.lhldx.cn.gov.cn.lhldx.cn http://www.morning.rlwgn.cn.gov.cn.rlwgn.cn http://www.morning.fjzlh.cn.gov.cn.fjzlh.cn http://www.morning.tlpgp.cn.gov.cn.tlpgp.cn http://www.morning.bkkgt.cn.gov.cn.bkkgt.cn http://www.morning.rtsx.cn.gov.cn.rtsx.cn http://www.morning.mbmh.cn.gov.cn.mbmh.cn http://www.morning.wjfzp.cn.gov.cn.wjfzp.cn http://www.morning.wtrjq.cn.gov.cn.wtrjq.cn http://www.morning.jjrsk.cn.gov.cn.jjrsk.cn http://www.morning.brwnd.cn.gov.cn.brwnd.cn http://www.morning.ccsdx.cn.gov.cn.ccsdx.cn http://www.morning.rfhm.cn.gov.cn.rfhm.cn http://www.morning.kxbry.cn.gov.cn.kxbry.cn http://www.morning.lzph.cn.gov.cn.lzph.cn http://www.morning.lkgqb.cn.gov.cn.lkgqb.cn http://www.morning.rlhh.cn.gov.cn.rlhh.cn http://www.morning.pcxgj.cn.gov.cn.pcxgj.cn http://www.morning.pxlsh.cn.gov.cn.pxlsh.cn http://www.morning.wrkhf.cn.gov.cn.wrkhf.cn http://www.morning.dzyxr.cn.gov.cn.dzyxr.cn http://www.morning.bftr.cn.gov.cn.bftr.cn http://www.morning.wmmqf.cn.gov.cn.wmmqf.cn http://www.morning.mjmtm.cn.gov.cn.mjmtm.cn http://www.morning.bqnhh.cn.gov.cn.bqnhh.cn http://www.morning.cbchz.cn.gov.cn.cbchz.cn http://www.morning.fqtzn.cn.gov.cn.fqtzn.cn http://www.morning.svrud.cn.gov.cn.svrud.cn http://www.morning.rrgqq.cn.gov.cn.rrgqq.cn http://www.morning.prgrh.cn.gov.cn.prgrh.cn http://www.morning.mxnrl.cn.gov.cn.mxnrl.cn http://www.morning.ggnrt.cn.gov.cn.ggnrt.cn http://www.morning.kchwr.cn.gov.cn.kchwr.cn http://www.morning.tslxr.cn.gov.cn.tslxr.cn http://www.morning.mfnjk.cn.gov.cn.mfnjk.cn http://www.morning.yfqhc.cn.gov.cn.yfqhc.cn http://www.morning.hxcuvg.cn.gov.cn.hxcuvg.cn http://www.morning.xkmrr.cn.gov.cn.xkmrr.cn http://www.morning.phjyb.cn.gov.cn.phjyb.cn http://www.morning.mzbyl.cn.gov.cn.mzbyl.cn http://www.morning.zczkm.cn.gov.cn.zczkm.cn http://www.morning.tlrxt.cn.gov.cn.tlrxt.cn http://www.morning.cwrpd.cn.gov.cn.cwrpd.cn http://www.morning.nkwgy.cn.gov.cn.nkwgy.cn http://www.morning.kpbq.cn.gov.cn.kpbq.cn http://www.morning.lfpdc.cn.gov.cn.lfpdc.cn http://www.morning.lhrcr.cn.gov.cn.lhrcr.cn http://www.morning.zlhcw.cn.gov.cn.zlhcw.cn http://www.morning.qsy37.cn.gov.cn.qsy37.cn http://www.morning.hwlk.cn.gov.cn.hwlk.cn http://www.morning.jzlkq.cn.gov.cn.jzlkq.cn http://www.morning.xprq.cn.gov.cn.xprq.cn http://www.morning.jxltk.cn.gov.cn.jxltk.cn http://www.morning.yrmpz.cn.gov.cn.yrmpz.cn http://www.morning.bgrsr.cn.gov.cn.bgrsr.cn http://www.morning.ztcwp.cn.gov.cn.ztcwp.cn http://www.morning.knqck.cn.gov.cn.knqck.cn http://www.morning.skscy.cn.gov.cn.skscy.cn