佛山做网站-准度科技公司,旅游网站改版方案,做视频网站的服务器,wordpress类似大前端Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion Abstract
基于鸟瞰图 (BEV) 的方法最近在多视图 3D 检测任务方面取得了重大进展。与基于 BEV 的方法相比#xff0c;基于稀疏的方法在性能上落后#xff0c;但仍然有很多不可忽略的优点。为了…Sparse4D: Multi-view 3D Object Detection with Sparse Spatial-Temporal Fusion Abstract
基于鸟瞰图 (BEV) 的方法最近在多视图 3D 检测任务方面取得了重大进展。与基于 BEV 的方法相比基于稀疏的方法在性能上落后但仍然有很多不可忽略的优点。为了进一步推动稀疏 3D 检测在这项工作中我们介绍了一种名为 Sparse4D 的新方法该方法通过稀疏采样和融合时空特征对锚框进行迭代细化。(1)稀疏 4D 采样对于每个 3D 锚点我们分配多个 4D 关键点然后将其投影到多视图/尺度/时间戳图像特征以采样相应的特征 (2) 层次特征融合我们分层融合不同视图/尺度、不同时间戳和不同关键点的采样特征以生成高质量的实例特征。通过这种方式Sparse4D 可以有效地有效地实现 3D 检测而不依赖于密集视图转换或全局注意力并且对边缘设备部署更加友好。此外我们引入了一个实例级深度重新加权模块来缓解 3Dto-2D 投影中的不适定问题。在实验中我们的方法优于nuScenes数据集中所有基于稀疏的方法和大多数基于BEV的检测任务方法。代码可在 https://github.com/linxuewu/Sparse4D 获得。
1. Introduction 多视图视觉 3D 感知在自动驾驶系统中起着至关重要的作用尤其是对于低成本部署。与激光雷达模态相比相机可以为远程距离检测和仅视觉元素识别提供有价值的视觉线索。然而在没有显式深度线索的情况下2D图像的3D感知是一个不适定的问题ill-posed issue,这导致了一个长期存在的挑战即如何正确地融合多摄像头图像来解决3D感知任务如3D检测。最近的方法有两种主流类别基于 BEV 的方法和基于稀疏的方法the BEV-based methods and the sparse-based methods.。 基于BEV的方法[12,17-19,29,49]通过将多视图图像特征转换为统一的BEV空间实现优异的性能提升。然而除了BEV方式的优点外还存在一些不可避免的缺点:(1)图像到BEV的透视变换需要密集的特征采样或重排这对于低成本的边缘设备部署来说既复杂又计算成本高;(2)最大感知范围受BEV特征图大小的限制难以在感知范围、效率和准确性之间进行权衡;(3)在BEV特征中压缩高度维度失去纹理线索。因此BEV 特征不适用于一些感知任务例如信号牌检测。 与基于 BEV 的方法不同基于稀疏的算法 [5,35,41] 不需要密集透视变换模块而是直接对稀疏特征进行 3D 锚点细化从而可以缓解上述问题。其中最具代表性的稀疏3D检测方法是DETR3D[41]。然而它的模型容量是有限的因为DETR3D只采样单个3D参考的特征每个锚查询的点。最近SRCN3D[35]利用RoI-Align[9]对多视图特征进行采样但不够高效不能精确对齐不同视图的特征点。同时现有的稀疏 3D 检测方法没有利用丰富的时间上下文并且与最先进的基于 BEV 的方法相比具有显着的性能差距。 在这项工作中我们投入了我们最好的效果来扩展基于稀疏的三维检测的极限。为了解决这些问题我们引入了一个名为Sparse4D的新框架该框架利用分布在3D锚框区域的多个关键点对特征进行采样。与单点方式[41]和RoI-Align方式[35]相比我们的采样方式有两个主要优点:(1)可以有效地提取每个锚盒内部丰富完整的上下文;(2)可以简单地扩展到时间维度作为4D关键点可以有效地对齐时间信息。使用 4D 关键点如图 1 所示Sparse4D 首先为每个关键点执行多标签、多视图和多尺度。然后这些采样的特征经过分层融合模块生成高质量的实例特征用于 3D 框细化。此外为了缓解基于相机的 3D 检测的不适定问题并提高感知性能我们明确地添加了一个实例级深度重新加权模块其中实例特征由从预测深度分布中采样的深度置信度重新加权。该模块以稀疏的方式进行训练无需额外的激光雷达点云监督。
总之我们的工作有四个主要贡献
• 据我们所知我们提出的 Sparse4D 是第一个具有时间上下文融合的稀疏多视图 3D 检测算法可以有效地对齐空间和时间视觉线索以实现精确的 3D 检测。
• 我们提出了一个可变形的4D聚合模块可以灵活地完成多维(点、时间戳、视图和尺度)特征的采样和融合。• 我们引入了一个深度重新加权模块来缓解基于图像的 3D 感知系统中的不适定问题。
•在具有挑战性的基准 - nuScenes 数据集上Sparse4D 在 3D 检测任务上优于所有现有的基于稀疏的算法和大多数基于 BEV 的算法并且在跟踪任务上也表现良好。
2. Related Work
2.1. Sparse Object Detection
早期的目标检测方法[7,22,33,37,38]使用密集预测作为输出然后利用非最大抑制(non-maxima suppression, NMS)处理这些密集预测。DETR[3]引入了一种新的检测范式利用基于集合的损失和变压器直接预测稀疏检测结果。DETR在对象查询和全局图像上下文计算量大收敛困难。由于全局交叉注意力的使用DETR 不能被视为纯稀疏方法。然后可变形DETR[51]修改DETR提出了一种基于参考点的局部交叉注意加快了模型的收敛速度降低了计算复杂度。稀疏R-CNN[36]提出了另一种基于区域提议思想的稀疏检测框架。网络结构非常简单有效证明了稀疏检测的可行性和优越性。作为 2D 检测的扩展许多 3D 检测方法最近更加关注这些稀疏范式例如 MoNoDETR [46]、DETR3D [41]、Sparse R-CNN3D [35]、SimMOD [48] 等。
2.2. Monocular 3D Object Detection 单目3D检测算法以一幅图像为输入输出物体的3D包围盒。由于图像不包含深度信息因此这个问题是不适定的并且与 2D 检测相比更具挑战性。FCOS3D [39] 和 SMOKE [25] 基于单级 2D 检测网络进行了扩展使用全卷积网络直接回归每个对象的深度。[31,40,43]利用单目深度估计结果将二维图像转换为三维伪点云信号然后利用基于激光雷达的检测网络完成三维检测。OFT [34] 和 CaDDN [32] 在视图转换模块的帮助下将密集的 2D 图像特征转换为 BEV 空间然后将 BEV 特征发送到检测器以完成 3D 对象检测。不同之处在于 OFT 使用 3D 到 2D 逆投影关系来完成特征空间变换而 CaDDN 基于 2D 到 3D 投影更像是伪 LiDAR 方法。
2.3. Multi-view 3D Object Detection
密集算法是多视图 3D 检测的主要研究方向它使用密集特征向量进行视图变换、特征融合或框预测。目前基于 BEV 的方法是密集算法的主要部分。BEVFormer[18]采用可变形注意完成BEV特征生成和密集时空特征融合。BEVDet [11, 12] 使用提升飞溅操作 [30] 来实现视图转换。在BEVDet的基础上BEVDepth[17]增加了显式深度监督显著提高了检测精度。BEVStereo[15]和SOLOFusion[29]将时间立体技术引入到三维检测中进一步提高了深度估计效果。PETR[23,24]利用三维位置编码和全局交叉注意进行特征融合但全局交叉注意的计算成本很高。与普通 DETR [3] 一样PETR 不能被视为纯稀疏方法。DETR3D[41]是一个表示稀疏方法的有效工作基于稀疏参考点进行特征采样和融合。图DETR3D[5]遵循DETR3D引入了一个图网络来实现更好的空间特征融合特别是对于多视图重叠区域。
3. Methodology
3.1. Overall Framework
如图2所示Sparse4D符合编码器解码器结构。图像编码器用于提取具有共享权重的图像特征其中包含主干(如ResNet[10]和VoVNet[14])和颈部(如FPN[20])。给定时间 t 的 N 个视图输入图像图像编码器提取多视图多尺度特征图 asIt {It,n,s|1≤s ≤ S, 1 ≤ n ≤ N }。为了利用时间上下文我们提取最近T帧的图像特征作为图像特征队列I {It}t0tts其中ts t0−(T−1)。
3.2. Deformable 4D Aggregation
实例特征的质量对整体稀疏感知系统有重大影响。为了解决这个问题如图 3 所示我们引入了可变形 4D 聚合模块来获得具有稀疏特征采样和层次特征融合的高质量实例特征。
4D关键点生成。对于第 m 个锚实例我们将 K 个 4D 关键点指定为 Pm ∈ RK×T ×3它由 KF 固定关键点和 KL 可学习关键点组成。如图3(a)所示在当前时间戳0处我们首先将固定关键点PF m,t0直接放在立体中心和锚盒的六个面中心上。然后与固定关键点不同可学习关键点在不同的实例特征上有所不同这允许神经网络找到每个实例的最具代表性的特征。给定 层次融合。Hierarchy Fusion.为了生成高质量的实例特征我们以分层方式融合上述特征向量 fm。如图3(c)所示对于每个关键点我们首先聚合不同视图中的特征并用预测的权重进行缩放然后与序列线性层进行时间融合。最后对于每个锚实例我们融合多点特征来生成实例特征。
3.3.深度重权模块 这个3D到2D变换(Eq.(5))有一定的模糊性即不同的3D点可能对应相同的2D坐标。对于不同的 3D 锚点可以采样相同的特征见图 4这增加了神经网络拟合的难度。为了缓解这个问题我们结合了显式深度估计模块Ψdepth该模块由多个具有剩余连接的mlp组成。对于每个聚合特征 F m我们估计离散深度分布并使用 3d 锚框中心点的深度对相应的置信度 Cm 进行采样这将用于对实例特征重新加权。 这样对于那些3D中心点远离深度方向的ground truth的实例即使2D图像坐标非常接近ground truth对应的深度置信度趋于零。因此在重新加权后相应的实例特征F‘’m受到惩罚也趋于0。结合显式深度估计模块可以帮助视觉感知系统进一步提高感知精度。此外深度估计模块可以设计和优化为一个单独的部分以促进模型性能。
3.4. Training
我们用 T 帧对视频剪辑进行采样以端到端训练检测器。连续帧之间的时间间隔在 {dt, 2dt} (dt ≈ 0.5) 中随机采样。在 DETR3D [41] 之后匈牙利算法用于将每个基本事实与一个预测值进行匹配。损失包括三个部分分类损失、边界框回归损失和深度估计损失
5. 结论 在这项工作中我们提出了一种新的方法Sparse4D它通过可变形的4D聚合模块实现多标签和多视图的特征级融合并使用迭代细化来实现3D盒回归。Sparse4D 可以提供出色的感知性能并且在 nuScenes 排行榜上优于所有现有的稀疏算法和大多数基于 BEV 的算法。 我们相信 Sparse4D 仍有许多改进的空间。例如在深度重权模块中可以加入多视图立体(MVS)[15,45]技术来获得更精确的深度。编码器还可以考虑相机参数以提高 3D 泛化 [8, 17]。因此我们希望 Sparse4D 可以成为稀疏 3D 检测的新基线。此外Sparse4D 的框架也可以扩展到其他任务例如高清地图构建、占用估计、三维重建等。