三网合一 网站建设,加查网站建设,易企查,wordpress 个性图标StrongSORT
【摘要】
现有的MOT方法可以被分为tracking-by-detection和joint-detection-association。后者引起了更多的关注#xff0c;但对于跟踪精度而言#xff0c;前者仍是最优的解决方案。StrongSORT在DeepSORT的基础之上#xff0c;更新了它的检测、嵌入和关联等多个…StrongSORT
【摘要】
现有的MOT方法可以被分为tracking-by-detection和joint-detection-association。后者引起了更多的关注但对于跟踪精度而言前者仍是最优的解决方案。StrongSORT在DeepSORT的基础之上更新了它的检测、嵌入和关联等多个方面由此产生了StrongSORT追踪器在MOT17和MOT20数据集上缺德了新的HOTA和IDF1记录。同时作者还提出了两个轻量化且即插即用的算法去提升跟踪结果分别是AFLink和GSI。AFLink用于将短轨迹关联为完整轨迹就作者目前所知这是第一个没有外观信息的全局链接模型。其次作者提出了高斯平滑插值法(GSI)来填补漏检GSI不像线性插值法那样忽略运动信息而是基于高斯回归算法可以实现更精确的定位。此外AFLink和GSI被插入其他无需额外计算的跟踪器。通过结合了AFLink和GSI的StrongSORT最终集成得到的StrongSORT在MOT17和MOT20上HOTA和IDF1两项指标上排名均为第一名。
【介绍】
多目标跟踪(MOT)在视频理解中起着至关重要的作用。它旨在以逐帧的方式来检测和跟踪所有特定类别的对象。在过去的几年里tracking-by-detection范式[3,4,36,62,69]主导了多目标跟踪的任务它对每一帧进行检测并且将MOT转换为一个数据关联任务。受益于高性能的目标检测模型tracking-by-detection方法由于它们出色的表现而获取人们喜爱。然而SDE系列(tracking-by-detection)算法需要多个计算昂贵的组件比如一个检测器和一个嵌入模型。为了解决这个问题最近几个方法融合了检测器和嵌入模型至统一的框架。而联合检测和嵌入模型训练能获得更好的跟踪结果。因此这些方法(联合跟踪器)得到可比较甚至更好的跟踪精度相比于单独的跟踪器。
联合检测器的成功促进了研究人员设计各种组件统一的跟踪网络框架如运动检测嵌入和关联等[30, 32, 38, 57, 59, 65, 68]。然而作者认为这些联合框架中存在两个问题(1)不同组件之间的竞争(2)用于联合训练这些组件的数据有限。尽管已经有一些方法被提出来解决上述两个问题这些问题的存在还是降低了跟踪准确率的下限。相反SDE系列跟踪器的潜力似乎是被低估了。
在本文中作者回顾了经典的独立跟踪器deepsort[62]它是最早将深度学习模型用于多目标跟踪任务的方法之一。作者任务DeepSORT不如当前最先进的方法是由于它的技术过世了而不是它的跟踪范式。作者通过在多个方面为DeepSORT配备先进的组件由此提出了StrongSORT该模型在MOT17和MOT20上能达到新的SOTA。
作者还提出了两个轻量级的即插即用的与模型、外观无关的算法来完善跟踪结果。第一为了更好地利用全局信息一些方法[12,39,55,56,67]提出通过使用一个全局连接模型将短轨迹和轨迹相关联。它们通常生成准确但不完整的轨迹段并且使用全局信息通过离线的方式去关联它们。尽管这些方法很好地提升了跟踪表现但是他们都依赖于一个计算密集型的模型特别是外观嵌入。相反作者提出了一种与外观无关的连接模型AFLink它只利用时空信息来预测两个轨迹段是否属于同一个ID。
第二,线性插值法被广泛应用于弥补漏检情况。然而它忽略了运动信息这限制了插值位置的准确率。为了解决这个问题我们提出了高斯平滑插值算法GSI通过使用高斯过程回归算法增强插值效果。
扩展实验证明这两种方法对StrongSORT以及其他最先进检测器的可观的提升比如CenterTrackTransTrack和FairMot。特别地是通过将AFLink和GSI应用于StrongSORT产生了一个更佳的跟踪器StrongSORT。StrongSORT在各个数据集上的效果
图1 对比了StrongSORT和StrongSORT在多个数据集上获得了SOTA表现。
除此之外AFLink和GSI会带来不可忽视的计算成本。
总之主要的工作贡献可以总结如下三点
(1) 通过在多个方面改进deepsort从而产生了StrongSORT在MOT17和20上获得了SOTA表现。
(2) 提出了AFLink和GSI两种轻量级且和外观无关的算法可以移植到其他的跟踪器提高性能。
(3) 将AFLink和GSI集成到StrongSort中在HOTA和IDF1两个指标上获得第一。
【相关工作】 SDE和JDE MOT方法可以分为单独跟踪器和联合跟踪器。单独跟踪器[3,4,7,8,15,36,62,69]遵循检测跟踪范式首先定位目标然后将其与外观、运动等信息相关联。受益于物体检测[17, 42, 43, 52, 53, 78]的快速发展 单独跟踪器多年来一直主导着MOT任务。最近几个联合跟踪器[30,32,38,57,59,65,68]被提出用来联合训练检测和一些其他组件例如运动嵌入和关联模型。这些跟踪器的主要好处是它们的低计算成本和相当的性能。但是作者认为联合跟踪器面临两个主要问题: 不同组件之间的竞争以及用于联合训练组件的数据是有限的。这两个问题限制了跟踪精度的上限。因此我们认为tracking-by-detection检测跟踪范式仍然是跟踪性能的最佳解决方案。 同时最近的几项研究[48, 49, 73]放弃了外观信息只依赖高性能检测器和运动信息从而在MOTChallenge基准上[11,35]实现了高运行速度和最先进的性能。然而我们认为部分原因是这些数据集中的运动模式普遍简单。在更复杂的场景中放弃外观特征会导致模型的鲁棒性较差。在这篇论文中我们采用了类似DeepSORT的范式配备了各种先进的技术来证实这个经典框架的有效性。 MOT中的全局链接 为了利用丰富的全局信息几种方法使用全局链接模型来改进跟踪结果[12, 39, 55, 56, 67]。他们倾向于通过首先使用时空和外观信息来生成准确但不完整的轨迹。 然后通过以离线方式探索全局信息将这些轨迹链接起来。 TNT[56]设计了一个多尺度的TrackletNet来测量两个tracklet之间的连接性。它通过使用多尺度卷积核在一个统一的网络中对运动和外观信息进行编码。 TPM[39]提出了一个 tracklet-plane 匹配过程将容易混淆的 tracklet 推入不同的 tracklet-plane这有助于减少 tracklet 匹配步骤中的混淆。 ReMOT[67]是从ReMOTS[66]改进而来的。给定任何跟踪结果ReMOT 将不完美的轨迹分割成轨迹然后将它们与外观特征合并。 GIAOTracker[12]提出了一种复杂的全局链接算法该算法通过使用改进的 ResNet50-TP [16]模型 对 tracklet 外观特征进行编码并将 tracklet 与空间和时间成本相关联。 尽管这些方法产生了显着的改进但它们都依赖于外观特征这带来了很高地计算成本。 不同的是我们提出了仅利用运动信息来预测两个轨迹之间的链接置信度的 AFLink 模型。通过设计适当的模型框架和训练过程AFLink 以极少的成本使各种最先进的跟踪器受益。 据我们所知这是 MOT 任务的第一个无外观且轻量级的全局链接模型。 MOT中的插值 线性插值被广泛用于填补缺失检测[12, 21, 37, 40, 41, 73]的恢复轨迹空白。尽管线性插值简单有效但它忽略了运动信息这限制了恢复的边界框的准确性。为了解决这个问题人们提出了几种有效利用时空信息的策略。V-IOUTracker[5]通过在出现漏检时退回到单目标跟踪来扩展IOUTracker[4]。MAT[19]用循环伪观测轨迹填充策略对线性插值轨迹进行非线性平滑。需要额外的摄像机运动补偿CMC模型[14]和卡尔曼滤波器[26]来预测缺失位置。MAATrack[49]通过仅应用CMC模型简化了它。所有这些方法都使用额外的模型即单目标跟踪器、CMC、卡尔曼滤波器以换取性能提升。相反我们建议基于高斯过程回归GPR算法[61]对非线性运动建模。在没有额外耗时组件的情况下我们提出的GSI算法在准确性和效率之间实现了良好的权衡。 与我们的GSI最相似的工作是[79]它利用GPR算法去使未插入的轨迹光滑以实现准确速度预测。然而它适用于监控视频中的事件检测任务。与其不同的是我们学习了MOT任务并采用GPR细化插值定位以及提出了自适应平滑因子取代了预设超参数。
【StrongSORT】
DeepSORTStrong DeepSORT
【StrongSORT】
AFLinkGSI
【实验】 数据集和评估指标 数据集 MOT17是一个流行的MOT数据集包含了7个序列5316帧用于训练7个序列5919帧用于测试。MOT20是一个高度拥挤且具有挑战的场景数据集包含了4个序列8931帧用于训练4个序列4479帧用于测试。 使用Dukemtmc训练重识别网络在CrowdHuman和MOT17半训练集上训练检测器。添加cityperson和ethz进行测试。 评估指标 使用指标 MOTA、ID、IDF1、HOTA、AssA、DetA 和 FPS 来评估跟踪性能 [2,33,44]。 MOTA 是基于 FP、FN 和 IDs 计算的更侧重于检测性能。相比之下IDF1 更好地衡量了 ID 匹配的一致性 [23]。 HOTA 是检测分数 DetA 和关联分数 AssA 的显式组合它将执行准确检测和关联的效果平衡到一个统一的指标中。此外它评估预测和 GT 边界框之间的多个不同的不同检测相似度值0.05 到 0.95间隔为 0.05而不是像 MOTA 和 IDF1 那样设置单个值即 0.5。 实验细节 消融实验 MOT结果 局限 StrongSORT和StrongSORT仍然有几个限制。主要关注的是与关联跟踪器和几个无外观分离跟踪器相比它们的运行速度相对较低。进一步研究提高计算效率是必要的。此外虽然我们的方法在度量IDF1和HOTA中排名第一但它具有略低的MOTA这主要是由于检测得分的高阈值导致许多缺失检测造成的。我们相信精心设计的阈值策略或关联算法会有所帮助。至于AFLink虽然它在恢复丢失的关联方面表现良好但它对错误的关联问题是无能为力的。具体而言AFLink不能将ID混合轨迹拆分为准确的轨迹。
【结论】