当前位置: 首页 > news >正文

免费手机小说网站建设网站开发用哪个软件好

免费手机小说网站建设,网站开发用哪个软件好,广州冼村人很有钱吗,想注册个人网站摘要 在计算机视觉领域#xff0c;目标检测与实例分割任务一直是研究的热点。YoloV10作为目标检测领域的佼佼者#xff0c;凭借其出色的性能和效率赢得了广泛的认可。然而#xff0c;随着技术的不断进步#xff0c;如何进一步提升YoloV10的性能成为了我们追求的目标。近期…摘要 在计算机视觉领域目标检测与实例分割任务一直是研究的热点。YoloV10作为目标检测领域的佼佼者凭借其出色的性能和效率赢得了广泛的认可。然而随着技术的不断进步如何进一步提升YoloV10的性能成为了我们追求的目标。近期我们引入了ContextAggregation模块对YoloV10进行了改进取得了显著的效果提升。 ContextAggregation模块是一种创新的上下文聚合方法旨在通过聚合全局视觉上下文信息来增强目标特征。在YoloV10中我们巧妙地使用ContextAggregation替换了原有的Bottleneck模块从而实现了性能上的飞跃。这一改进不仅保留了YoloV10原有的高效性更在检测精度上取得了突破性的提升。 ContextAggregation模块的优点在于其强大的全局上下文聚合能力。与传统的局部特征提取方法相比ContextAggregation能够捕捉到更丰富的全局信息使得目标特征更加具有区分性。在遥感图像等复杂场景中这一目标特征增强效果尤为明显。此外ContextAggregation模块的设计轻量级且灵活能够轻松融入现有的目标检测框架中而不会引入过多的计算负担。 通过引入ContextAggregation模块YoloV10在目标检测任务中的表现得到了全面提升。在多个公开数据集上的实验结果表明改进后的YoloV10在检测精度上显著优于其他先进方法同时保持了较高的检测速度。这一性能提升不仅为目标检测任务带来了更加准确和可靠的结果也为后续的研究工作提供了有力的支持。 论文翻译《学习聚合多尺度上下文用于遥感图像的实例分割》 https://arxiv.org/pdf/2111.11057v2 遥感图像中的实例分割任务旨在对实例级别的对象进行逐像素标记对于各种民用应用具有重要意义。尽管之前已取得了一些成功但大多数为自然图像设计的现有实例分割方法在直接应用于俯视遥感图像时性能会急剧下降。通过仔细分析我们观察到挑战主要来自由于尺度变化严重、对比度低和分布密集而导致的对象特征缺乏区分性。为了解决这些问题提出了一种新的上下文聚合网络CATNet来改进特征提取过程。所提出的模型利用了三个轻量级的即插即用模块即密集特征金字塔网络DenseFPN、空间上下文金字塔SCP和分层感兴趣区域提取器HRoIE分别在特征域、空间域和实例域中聚合全局视觉上下文。DenseFPN是一个多尺度特征传播模块通过采用跨级残差连接、跨级密集连接和特征重加权策略建立了更灵活的信息流。利用注意力机制SCP通过将全局空间上下文聚合到局部区域来进一步增强特征。对于每个实例HRoIE自适应地为不同的下游任务生成感兴趣区域RoI特征。我们在具有挑战性的iSAID、DIOR、NWPU VHR10和HRSID数据集上对提出的方案进行了广泛的评估。评估结果表明在相似的计算成本下该方法优于当前最先进的技术。源代码和预训练模型可在https://github.com/yeliudev/CATNet上获取。 索引词-实例分割目标检测全局上下文聚合自注意力 一、引言 卫星和遥感技术的最新进展生成了大量高分辨率的遥感图像给人工操作和处理带来了巨大挑战。因此对这些图像进行自动分析和理解对于包括城市规划、资源探测和环境监测在内的各种民用应用变得越来越重要。作为计算机视觉中一项基础而又具有挑战性的任务实例分割结合了目标检测和语义分割旨在预测实例级别的对象二值掩码已被广泛用于从光学遥感图像和合成孔径雷达SAR图像中提取精细的对象信息。近年来它引起了相当大的关注。 关于目标检测和实例分割的大部分现有工作[1]-[7]在传统的前视场景中取得了成功。然而当这些方法直接应用于遥感图像时大量方法不可避免地会遇到性能下降的问题[8]-[12]。与自然图像相比遥感图像通常是从顶部拍摄的捕捉了大面积且对象差异有限的区域。我们分析了这些场景的特殊性并将挑战分为五个不同的方面即尺度变化、任意方向、密集分布、低对比度和杂乱背景如图2所示。前三个方面导致对象模式复杂而后两个方面则带来了来自背景的干扰信息。这些现象在自然场景中很少见因此只有少数工作考虑了这些方面。我们认为上述所有挑战都源于遥感图像中缺乏具有区分性的对象特征。也就是说遥感图像中单个对象的视觉外观信息量不足以直接采用现有方案进行实例分割。 一个自然的问题是如何增强不足的特征以在遥感图像中实现更好的实例分割结果考虑到在一般实例分割流程[3]-[5]中对象表示直接从主干网或颈部的特征图中裁剪而来仅包含具有不可逆信息损失的局部特征。在这项工作中我们通过引入CATNet一种用于全局上下文聚合的新框架来缓解这个问题。核心思想是来自不同特征金字塔级别、空间位置或感受野的图像上下文信息应为分割难以区分的对象提供额外的先验。请注意现有工作[13]、[14]仅将上下文视为空间相关性。我们将上下文的概念扩展并明确分解为三个域即特征域、空间域和实例域。这意味着在检测和分割对象时该模型可以通过以下方式增强视觉信息1平衡异构特征2融合来自背景或其他相关对象的信息3自适应地精炼每个实例和任务的中间表示。这三个不同的域能够以从粗到细的不同粒度对全局视觉上下文进行建模从而捕获更多具有区分性的对象信息。 所提出的框架旨在利用三个即插即用模块并构建上述上下文聚合流程。图1展示了这些模块处理的对象特征的一瞥。在特征域中我们认为在主干网构建的特征金字塔中灵活的信息流可以减少信息混淆更有效地处理多尺度特征。正是基于这种分析我们提出了密集特征金字塔网络DenseFPN以实现自适应特征传播。该模块具有金字塔结构包含由自上而下和自下而上路径组成的可堆叠基本块。我们采用跨级残差连接[15]、跨级密集连接[16]和特征重加权策略使模块能够学习其最佳特征传播方式。在空间域中遥感图像中的长距离空间依赖性为模糊对象提供了比自然场景更多的补充信息。因此采用空间上下文金字塔SCP来捕获每个特征金字塔级别中的全局空间上下文。该模块学习从整个特征图中聚合特征并使用自适应权重将它们组合到每个像素中。这种策略确保了只有有用的全局信息被融合到局部区域中而不会减少对象之间的差异。至于实例域我们认为对象表示应针对每个实例和下游任务进行自适应精炼。例如执行对象分类需要整体视图而分割则需要更多放大的细节。不同实例对感受野大小的需求也不同。因此我们引入了分层感兴趣区域提取器HRoIE来为每个实例和任务生成RoI特征。在从所有级别裁剪实例特征图后该模块从最高或最低尺度开始以分层方式逐级融合特征。利用像素级注意力机制来组合相邻特征图。这些模块轻量级且具有可扩展模型设计的灵活性。总体而言本文的主要贡献有三方面 将上下文的概念扩展并明确分解为特征域、空间域和实例域在遥感图像分割中取得了卓越的性能。据我们所知这是第一项考虑超越空间依赖性的全局视觉上下文的工作。提出的CATNet能够利用DenseFPN、SCP和HRoIE从不同域学习和聚合全局视觉上下文用于遥感图像中的目标检测和实例分割。所提出的方案已在包括iSAID、DIOR、NWPU VHR-10和HRSID在内的多种数据集上进行了测试并以相似的计算成本获得了最新的性能。 本文的其余部分组织如下。第二节讨论了相关工作和比较。第三节介绍了DenseFPN、SCP和HRoIE的详细公式。第四节在公共数据集上展示了广泛的实验结果和深入分析。最后第五节总结了结论性评论。 II. 相关工作 A. 遥感图像中的实例分割 实例分割是计算机视觉中一个具有挑战性且被广泛研究的问题。与物体检测[1]、[2]类似大多数实例分割方法可以分为两种方案即单阶段方法和两阶段方法。单阶段方法[6]、[7]采用了一种直接的设计即采用自下而上的策略在图像级别进行语义分割并使用聚类或度量学习进一步分离单个物体。这些方法通常具有较高的效率但在定位准确性方面受到较大限制。相比之下两阶段方法[3]-[5]、[17]将分割流程分为两个阶段即区域提议生成和任务特定的后处理从而形成了自上而下的风格。得益于两次边界框回归这些方法在物体定位和掩码预测方面通常能取得更好的结果。最近的一些工作[18]-[27]试图解决遥感图像中的场景分类和物体检测问题但它们并没有特别关注实例分割。我们提出的上下文聚合策略可以融入单阶段和两阶段方法中而由于不需要裁剪特征图因此在单阶段方法中不使用HRoIE。进一步的实验结果表明我们的模块可以稳定地提升性能。 B. 全局上下文建模 卷积神经网络CNNs最具代表性的特性之一是局部依赖建模。多个卷积层可以堆叠在一起以增加感受野在低层次学习高分辨率的定位特征在高层次学习低分辨率的语义特征。处理异质性的关键是适当地从主干网络中传播多层次的特征。早期工作[17]、[28]-[31]中的一个常见做法是采用多尺度特征传播策略但这些方法只沿着固定路径传播特征。我们认为灵活的信息流可以减少信息混淆并更好地聚合多尺度特征。此外长距离空间依赖建模也被证明对密集预测任务有效[13]、[32]。作为一项开创性工作非局部神经网络NLNet[13]表明可以通过计算像素级别的成对相关性来聚合全局空间上下文但它也面临着计算成本高的问题。NLNet的一些扩展[33][35]试图通过简化相关性估计来解决这个问题。这些工作已经取得了有前景的结果然而所有这些方法都只将上下文的概念视为长距离空间相关性忽略了特征和实例域中的全局依赖。 III. 所提出的方法 在本节中我们介绍了我们的全局上下文聚合方法。如图3所示整个框架可以分为三个子模块即DenseFPN、SCP和HRoIE。这些模块旨在从不同域聚合全局上下文信息。 A. 概述 给定一张图像 x x x和一组感兴趣的物体类别 S { 1 , … , N } S\{1, \ldots, N\} S{1,…,N}实例分割的任务是检测并分割 x x x中的所有物体无论它们属于哪个预定义的类别。实例分割的输出将是一组元组集合 T { ⟨ b , m , s ⟩ } \mathcal{T}\{\langle b, m, s\rangle\} T{⟨b,m,s⟩}其中 b ∈ R 4 b \in \mathbb{R}^{4} b∈R4表示物体的边界框 m m m表示一个二进制掩码其中 m i , j ∈ { 0 , 1 } m_{i, j} \in\{0,1\} mi,j​∈{0,1}指示像素 ( i , j ) (i, j) (i,j)是否属于该物体 s ∈ S s \in S s∈S是一个描述物体类别的独热向量。注意单个物体可能由不同的掩码表示。 我们采用Mask R-CNN[3]作为我们的基线它是一个常见的两阶段实例分割框架。整个流程通过提取视觉特征、生成区域提议并对每个提议执行边界框回归、物体分类以及掩码预测来构建。首先通过从主干网络的每个阶段提取视觉特征来构建一个异质特征金字塔。为了使特征更具判别性我们利用DenseFPN和SCP在不同层次和区域之间传播物体信息。在增强特征金字塔后HRoIE会为每个提议生成任务特定的RoI特征。以下各节将介绍这些模块的详细信息。 B. 密集特征金字塔网络 多尺度特征传播旨在从不同主干阶段聚合视觉特征即给定一个输入特征金字塔 C { C l 1 , C l 2 , … } C\left\{C_{l_{1}}, C_{l_{2}}, \ldots\right\} C{Cl1​​,Cl2​​,…}其中 C i C_{i} Ci​表示来自第 i i i阶段的特征图目标是在不同层次之间传播特征以生成一个增强的特征金字塔 P { P l 1 , P l 2 , … } P\left\{P_{l_{1}}, P_{l_{2}}, \ldots\right\} P{Pl1​​,Pl2​​,…}其中的特征对于下游任务更具信息量。形式上特征图 C i C_{i} Ci​或 P i P_{i} Pi​的分辨率是输入图像的 1 / 2 i 1 / 2^{i} 1/2i。 DenseFPN的基本架构如图3a所示其中每个节点代表一个特征图线条代表信息流。该模块以 C 2 ∼ C 5 C_{2} \sim C_{5} C2​∼C5​作为输入首先使用 1 × 1 1 \times 1 1×1卷积将它们下采样到256个通道生成 C 2 ′ ∼ C 5 ′ C_{2}^{\prime} \sim C_{5}^{\prime} C2′​∼C5′​。然后对 C 5 ′ C_{5}^{\prime} C5′​应用一个额外的 3 × 3 3 \times 3 3×3卷积步长 2 2 2以生成 C 6 ′ C_{6}^{\prime} C6′​。这样 C 2 ′ ∼ C 6 ′ C_{2}^{\prime} \sim C_{6}^{\prime} C2′​∼C6′​就具有了相同数量的通道但分辨率不同。随后这些特征通过几个堆叠的基本块进行特征级别的上下文聚合。在每个块中输入特征金字塔通过自上而下和自下而上的聚合路径进行处理其中采用了跨级残差连接[15]、跨级密集连接[16]和特征重新加权策略。 图4展示了基本块中的详细特征传播策略。在自上而下的路径中每个特征金字塔级别的输出特征 C i ↓ C_{i \downarrow} Ci↓​是通过融合当前级别和所有上级别的特征然后对融合后的特征进行参数化变换而生成的。 C i ↓ Transform ⁡ ( C i ′ ∑ j i 1 l m a x [ Resize ⁡ ( C j ′ ) ⋅ w i ↓ j ] ) C_{i \downarrow}\operatorname{Transform}\left(C_{i}^{\prime}\sum_{ji1}^{l_{\mathrm{max}}}\left[\operatorname{Resize}\left(C_{j}^{\prime}\right) \cdot w_{i \downarrow}^{j}\right]\right) Ci↓​Transform(Ci′​∑ji1lmax​​[Resize(Cj′​)⋅wi↓j​]) 其中Transform(*)表示一个ReLU激活层后跟一个没有激活函数的 3 × 3 3 \times 3 3×3瓶颈结构[15]。我们观察到在瓶颈结构之前仅采用一个非线性层可以带来更好的性能。Resize(.)表示一个最大池化层 w i ↓ j w_{i \downarrow}^{j} wi↓j​是一个用于从级别 j j j聚合特征到级别 i i i的可学习重新加权项。权重 w i ↓ w_{i \downarrow} wi↓​是与其级别长度相对应的向量其值通过使用softmax从原始值归一化得到 w i ↓ j exp ⁡ ( v i ↓ j ) ∑ k 1 N i exp ⁡ ( v i ↓ k ) w_{i \downarrow}^{j}\frac{\exp \left(v_{i \downarrow}^{j}\right)}{\sum_{k1}^{N_{i}} \exp \left(v_{i \downarrow}^{k}\right)} wi↓j​∑k1Ni​​exp(vi↓k​)exp(vi↓j​)​ 其中 v i ↓ v_{i \downarrow} vi↓​表示原始权重向量 j j j是每个元素的索引。使用上述归一化可以稳定学习过程。与自上而下路径类似自下而上的特征 C 2 ↑ ∼ C 6 ↑ C_{2 \uparrow} \sim C_{6 \uparrow} C2↑​∼C6↑​通过以下公式计算 C i ↑ Transform ⁡ ( C i ′ C i ↓ ∑ j l min ⁡ i − 1 [ Resize ⁡ ( C j ↓ ) ⋅ w i ↑ j ] ) C_{i \uparrow}\operatorname{Transform}\left(C_{i}^{\prime}C_{i \downarrow}\sum_{jl_{\min }}^{i-1}\left[\operatorname{Resize}\left(C_{j \downarrow}\right) \cdot w_{i \uparrow}^{j}\right]\right) Ci↑​Transform(Ci′​Ci↓​∑jlmin​i−1​[Resize(Cj↓​)⋅wi↑j​]) 其中Resize()表示双线性插值层其他符号与公式1一致。我们采用残差连接来保留原始特征并防止梯度消失。利用灵活的架构和特征重新加权策略DenseFPN能够在训练过程中优化特征域上下文聚合的信息流。 C. 空间上下文金字塔 在跨不同级别聚合特征图之后特征金字塔仍然包含空间局部信息因此我们引入空间上下文金字塔SCP来学习每个级别内的全局空间上下文从而进一步增强特征。该领域之前的尝试[13]、[32][35]通常将几个视觉注意力块集成到主干网络中以实现全局感受野。这些块的一些架构如图5所示。在这些方法中全局上下文网络GCNet[35]是一种简单但有效的方法它将NLNet[13]和SENet[32]结合到一个单一的轻量级模块中。然而我们观察到在对象仅覆盖小区域的遥感图像中这种设计可能会给对象带来太多无用的背景信息。为了解决这个问题我们提议在这个结构之上添加一条额外路径来学习每个像素的信息量。我们的核心思想是如果某个像素的特征足够信息丰富那么就没有太多必要从其他空间位置聚合特征。这种软重新加权策略可以在减少信息混淆的同时有效地融合局部和全局特征。 SCP的架构如图3b所示。该模块也具有金字塔结构因此可以轻松地插入到主干网络或颈部网络之后。每一层由一个具有残差连接的上下文聚合块CABlock组成。该块的详细设计如图5d所示。在每个块中像素级空间上下文通过以下公式进行聚合 Q i j P i j a i j ⋅ ∑ j 1 N i [ exp ⁡ ( w k P i j ) ∑ m 1 N i exp ⁡ ( w k P i m ) ⋅ w v P i j ] Q_{i}^{j}P_{i}^{j}a_{i}^{j} \cdot \sum_{j1}^{N_{i}}\left[\frac{\exp \left(w_{k} P_{i}^{j}\right)}{\sum_{m1}^{N_{i}} \exp \left(w_{k} P_{i}^{m}\right)} \cdot w_{v} P_{i}^{j}\right] Qij​Pij​aij​⋅∑j1Ni​​[∑m1Ni​​exp(wk​Pim​)exp(wk​Pij​)​⋅wv​Pij​] 其中 P i P_{i} Pi​和 Q i Q_{i} Qi​分别表示特征金字塔中第 i i i层的输入和输出特征图每个特征图包含 N i N_{i} Ni​个像素。 j , m ∈ { 1 , N i } j, m \in\left\{1, N_{i}\right\} j,m∈{1,Ni​}表示每个像素的索引。 w k w_{k} wk​和 w v w_{v} wv​是用于投影特征图的线性变换矩阵。在实践中我们使用 1 × 1 1 \times 1 1×1卷积来执行映射。上述公式简化了广泛使用的自注意力机制[38]通过将查询和键之间的矩阵乘法替换为线性变换从而大大减少了参数和计算成本。除了GCNet之外我们还应用了与 P i P_{i} Pi​和 Q i Q_{i} Qi​形状相同的重新加权矩阵 a i a_{i} ai​以平衡每个像素聚合全局空间上下文的程度。该矩阵也可以通过对 P i P_{i} Pi​进行线性变换并使用softmax归一化来简单生成。 a i j exp ⁡ ( w a P i j ) ∑ n 1 N i exp ⁡ ( w a P i n ) a_{i}^{j}\frac{\exp \left(w_{a} P_{i}^{j}\right)}{\sum_{n1}^{N_{i}} \exp \left(w_{a} P_{i}^{n}\right)} aij​∑n1Ni​​exp(wa​Pin​)exp(wa​Pij​)​ 同样 j , n ∈ { 1 , N i } j, n \in\left\{1, N_{i}\right\} j,n∈{1,Ni​}是矩阵索引。我们对 a i a_{i} ai​的有效性进行了大量实验。图7可视化了GCNet和SCP之间的特征聚合权重比较。结果表明我们的模型倾向于聚合来自同一类别的对象特征。有关详细讨论请参阅第IV-F节。 D. 分层感兴趣区域提取器 大多数两阶段目标检测和实例分割方法缺乏对RoI提取器的足够关注由于仅考虑单一尺度这可能会导致严重的信息丢失。该设计的初衷是使较大的候选区域能够从捕获更高定位准确性的低级特征中受益而较小的候选区域由于高级特征具有更大的感受野可以获得更多的上下文信息。我们认为这种硬性分配策略可能并不适合所有候选区域。最近的工作[17]、[39]也证明简单计算从所有层裁剪的RoI特征的总和可以获得略好的性能。 在这项工作中我们通过提出分层感兴趣区域提取器HRoIE来解决这个问题以便为每个实例执行特定任务的RoI特征融合。该模块如图3c所示插入在SCP之后。我们的假设是人类可以轻松地执行目标检测和分割因为他们以分层的方式将注意力集中在对象上。例如当一个人试图对对象进行分类时他或她会首先查看对象本身。如果对象的外观不具有区分性该人会逐渐查看周围的事物以获得更好的信息。相反当在像素级别分割对象时人类会查看整个对象以全面了解其形状然后反复放大以获得更详细的边界信息以进行准确分割。我们通过使用RoIAlign[3]从 Q i Q_{i} Qi​中的所有特征金字塔级别裁剪候选区域 R i R_{i} Ri​的特征并利用多个注意力块来根据实例和任务自适应地融合特征来实现上述想法。如图6所示对于每个任务RoI特征从一个空矩阵开始并通过分层方式结合来自不同级别的特征 F b / m j F b / m i R i j ⋅ Sigmoid ⁡ ( [ F b / m i ∥ R i j ] ⋅ w i ) F_{b / m}^{j}F_{b / m}^{i}R_{i}^{j} \cdot \operatorname{Sigmoid}\left(\left[F_{b / m}^{i} \| R_{i}^{j}\right] \cdot w_{i}\right) Fb/mj​Fb/mi​Rij​⋅Sigmoid([Fb/mi​∥Rij​]⋅wi​) 其中 R i R_{i} Ri​表示第 i i i层的裁剪特征 F b / m i F_{b / m}^{i} Fb/mi​和 F b / m j F_{b / m}^{j} Fb/mj​表示不同级别的聚合RoI特征 w i w_{i} wi​是线性变换权重 ∥ \| ∥表示通道维度上的矩阵拼接。上述过程计算了用于特征聚合的像素级注意力权重因此 可以根据实例和任务自适应地生成RoI特征。在实践中我们为目标检测头采用自下而上的路径为掩码预测头采用自上而下的路径。 IV. 实验 在本节中我们将在iSAID、DIOR、NWPU VHR-10和HRSID数据集上对所提出的方法进行广泛评估。首先在iSAID数据集上的实例分割任务下对模块进行评估然后在DIOR和NWPU VHR-10数据集上的目标检测任务下进行评估以证明该方法在光学遥感图像中的有效性。此外还使用HRSID数据集来验证该方法在SAR图像中的泛化能力。 A. 数据集和评估指标 iSAID [10]iSAID是用于航拍图像实例分割的大规模数据集。iSAID中的所有图像均继承自DOTA [9]一种流行的用于方向目标检测的数据集。它包含2,806张图像中的655,451个实例共15个类别所有对象均从头开始独立标注。图像的空间分辨率范围很大在800至13,000之间。在训练和测试期间我们将它们分割成 512 × 512 512 \times 512 512×512的图像块。类别的缩写包括SH-船ST-储罐BD-棒球场TC-网球场BC-篮球场GT-田径场BR-桥梁LV-大型车辆SV-小型车辆HE-直升机SP-游泳池RO-环岛SB-足球场PL-飞机HA-港口。 DIOR [11]DIOR是一个仅使用水平边界框标注的复杂航拍图像数据集。它包含23,463张图像共190,288个实例涵盖20个对象类别。DIOR中的对象尺寸在类间和类内均存在严重差异。该数据集的复杂性还体现在不同的成像质量、天气和季节上。类别的缩写包括AL-飞机AR-机场BF-棒球场BC-篮球场BR-桥梁CH-烟囱DA-水坝ES-高速公路服务区ET-高速公路收费站GC-高尔夫球场GT-田径场HA-港口OV-立交桥SH-船ST-体育场SA-储罐TC-网球场TS-火车站VE-车辆WM-风车。 NWPU VHR-10 [8]NWPU VHR-10是另一个广泛用于航拍图像目标检测的数据集。它包含800张高分辨率图像其中650张为正样本包含感兴趣的对象150张为负样本不包含感兴趣的对象。该数据集包含10个对象类别的标注。所有对象均使用可公开访问的水平边界框进行标注。类别的缩写包括AI-飞机SH-船ST-储罐BD-棒球场TC-网球场BC-篮球场GT-田径场HA-港口BR-桥梁VE-车辆。 HRSID [12]HRSID是最近引入的用于SAR图像中船舶检测和分割的数据集。该数据集包含总共5,604张高分辨率SAR图像其中包含16,951个船舶实例。该数据集中的所有实例均使用像素级掩码进行标注。图像的空间分辨率为0.5米、1米和3米。 我们遵循标准的评估指标即使用平均精度均值mAP来衡量检测和分割性能。当对象的边界框或掩码与其对应的真实值之间的交并比IoU大于阈值 θ I o U \theta_{IoU} θIoU​并且预测的类别标签正确时该结果被视为真正例。对于iSAID数据集我们计算了在 θ I o U \theta_{IoU} θIoU​从0.05到0.95范围内的mAP均值。对于其他数据集根据原论文仅考虑 θ I o U 0.5 \theta_{IoU}0.5 θIoU​0.5下的mAP。 B. 实现细节 我们选择Mask R-CNN [3]、Faster R-CNN [1]和RetinaNet [2]以ResNet-50 [15]为主干网络作为我们的基线。主干网络在ImageNet [52]上进行预训练并在训练检测器时进行微调。第一阶段中的所有参数在预训练后均被冻结。除非另有说明否则所有DenseFPN模块均包含5个基本块。为了稳定训练过程在中间层中使用同步批归一化SyncBN [53]层。在测试时我们还采用Soft-NMS [54]来抑制IoU大于0.5的重复结果因为遥感图像中的大多数对象重叠严重。 我们使用随机梯度下降SGD优化器来学习所有模型的参数初始学习率为0.01动量为0.9权重衰减为0.0001。每个训练批次包含8张图像。对于iSAID数据集我们遵循标准的 1 × 1 \times 1×训练计划在第8个和第11个训练周期时将学习率降低1/10并在第12个训练周期时停止训练。对于DIOR、NWPU VHR-10和HRSID数据集我们分别采用 3 × 3 \times 3×、 6 × 6 \times 6×和 3 × 3 \times 3×训练计划。 C. 航空图像中的实例分割结果 我们首先在实例分割任务上评估了我们的方法。表I展示了当将所提模块融入不同框架时在iSAID数据集上的对比结果。同时还报告了各类别的实例分割平均精确度均值mAPs。对于目标检测和实例分割任务我们的方法都能稳步提升性能。在所提的三个模块中DenseFPN对mAPs的提升最为显著而SCP和HRoIE也带来了相当大的增益且仅增加了少量参数。 D. 航空图像中的目标检测结果 除了实例分割外我们还发现我们的方法同样有益于目标检测任务。为了验证其效果我们还在DIOR和NWPU VHR-10数据集上评估了我们的模型。表II和表III展示了我们的方法与之前最先进的方法在这两个数据集上的对比。注意对于基于RetinaNet的方法由于单阶段模型中不使用感兴趣区域RoI提取器因此我们仅融入了DenseFPN和SCP。在DIOR和NWPU VHR-10数据集上的实验结果表明我们的方法显著优于所有之前的方法。此外使用ResNet-50作为骨干网络的我们的模型性能甚至明显优于使用ResNet-101作为骨干网络的之前最先进的方法。 E. 合成孔径雷达SAR图像中的实例分割结果 除了光学遥感图像外我们还在更具挑战性的SAR图像上评估了我们的模型。具体而言SAR图像被视为单通道灰度图像每个图像是通过在通道维度上堆叠三个单通道图像而构建的。表IV中的实验结果也表明与自然图像的强基线相比我们的方法即使使用更轻量的骨干网络也表现得更好。注意在SAR图像中我们没有观察到使用多尺度训练带来明显的增益因此在执行数据增强时仅使用了多尺度测试。 F. 可视化 为了证明SCP的有效性我们在图7中可视化了GCNet[35]和SCP中的上下文聚合权重。每一行表示所有类别的权重这些权重被聚合到每个类别中。圆圈的大小和颜色深度分别表示GCNet和SCP中的权重。从可视化结果中我们可以观察到我们的方法倾向于从同一类别的对象中聚合全局空间上下文。一些相似如飞机和直升机或语义相关如船和港口的类别在训练过程中也可以互相帮助。与我们的方法相比GCNet不太关注相似或语义相关的对象导致在图像中全局聚合特征时出现信息混淆。 图8展示了在iSAID、DIOR和HRSID数据集上的定性结果。每个图像块都通过其在SCP中的特征聚合权重以及最终的目标检测或实例分割结果进行可视化。结果表明在大多数情况下我们的方法更关注包含对象的区域并将它们聚合到特征较差的区域。最终结果证明我们的方法能够在多个场景中有效地检测和准确分割对象。 为了更深入地研究训练过程我们还在图9a中可视化了总体训练损失。结合所提模块模型可以更快地收敛并在训练后达到更低的最终最小值。 G. 详细比较和消融研究 为了单独研究所提模块的重要性和有效性我们进行了实验将它们与一些代表性方法以及不同模块组合进行了比较。所有实验均在iSAID数据集上使用标准的训练和测试方案进行。浮点运算数FLOPs是使用 512 × 512 512 \times 512 512×512输入计算的。 图9b和c比较了不同多尺度特征传播模块的目标检测和实例分割性能。数值结果报告在表Va中。与现有的代表性方法相比DenseFPN在目标检测和实例分割任务上的表现都明显更好且计算成本更低。我们还观察到在DenseFPN中简单地堆叠更多基本块可以进一步提升性能这表明其模型扩展的能力和灵活性。 表Vb展示了多个空间上下文模块之间的比较。与基线相比NLNet[13]可以在付出较大计算成本的情况下有效提升性能。GCNet[35]解决了计算复杂度的问题但导致了另一个信息混淆的问题。借助重新加权上下文我们提出的CABlock在使用不同通道缩减率时始终优于GCNet。进一步的实验表明将CABlock从骨干网络移动到多尺度融合模块之后可以在类似的计算成本下更好地提升性能。 表 V ( c ) V(c) V(c)展示了多个感兴趣区域RoI提取器的比较。基线模型仅从单个特征图中裁剪RoI特征导致严重的信息丢失并取得了一般的结果。简单计算从多层裁剪的RoI特征的和或拼接可以略微提升性能。考虑到目标检测和实例分割任务需要不同的特征引入自适应特征融合的分层RoI提取器HRoIE可以更好地为这些任务生成适当的RoI特征。 表 V ( d ) V(d) V(d)展示了消融研究结果。所提出的三个模块均能在遥感图像的目标检测和实例分割上略微带来更好的结果。当它们相互协作时性能提升仍然稳定表明这些模块不会相互干扰。通过将这些模块全部组合在一起可以实现最佳的实验结果从而能够同时从多个域聚合多尺度上下文。请注意 1 × 1 \times 1×模型训练不足。通过适当的数据增强或更长的训练计划我们的模型可以实现更好的性能。 五、结论 在本文中我们对遥感图像中的全局视觉上下文进行了深入研究并提出了所提出的CATNet这是一个新型框架能够利用三个轻量级的即插即用模块即密集特征金字塔网络、空间上下文金字塔和分层感兴趣区域提取器在特征域、空间域和实例域中聚合全局视觉上下文。研究表明这三个模块之间的协作可以有效地增强区分性目标特征从而提高目标检测和实例分割的准确性。在iSAID、DIOR、NWPU VHR-10和HRSID数据集上的实验结果表明所提出的方法在相似的计算成本下显著优于最先进的方法。我们期望对全局视觉上下文的新理解以及所提出模块的设计将有益于该领域的未来研究。 致谢 本项目部分受到国家自然科学基金41871246和中国国家重点研究与发展计划2019YFB2102901的支持。 代码 from mmcv.cnn import ConvModule from mmengine.model import caffe2_xavier_init, constant_init import torch import torch.nn as nnclass ContextAggregation(nn.Module):def __init__(self, in_channels, reduction1):super(ContextAggregation, self).__init__()self.in_channels in_channelsself.reduction reductionself.inter_channels max(in_channels // reduction, 1)conv_params dict(kernel_size1, act_cfgNone)self.a ConvModule(in_channels, 1, **conv_params)self.k ConvModule(in_channels, 1, **conv_params)self.v ConvModule(in_channels, self.inter_channels, **conv_params)self.m ConvModule(self.inter_channels, in_channels, **conv_params)self.init_weights()def init_weights(self):for m in (self.a, self.k, self.v):caffe2_xavier_init(m.conv)constant_init(self.m.conv, 0)def forward(self, x):n, c x.size(0), self.inter_channels# a: [N, 1, H, W]a self.a(x).sigmoid()# k: [N, 1, HW, 1]k self.k(x).view(n, 1, -1, 1).softmax(2)# v: [N, 1, C, HW]v self.v(x).view(n, 1, c, -1)# y: [N, C, 1, 1]y torch.matmul(v, k).view(n, c, 1, 1)y self.m(y) * areturn x y
文章转载自:
http://www.morning.jqllx.cn.gov.cn.jqllx.cn
http://www.morning.nfmtl.cn.gov.cn.nfmtl.cn
http://www.morning.paoers.com.gov.cn.paoers.com
http://www.morning.tjmfz.cn.gov.cn.tjmfz.cn
http://www.morning.frtb.cn.gov.cn.frtb.cn
http://www.morning.youprogrammer.cn.gov.cn.youprogrammer.cn
http://www.morning.jwdys.cn.gov.cn.jwdys.cn
http://www.morning.sskhm.cn.gov.cn.sskhm.cn
http://www.morning.qtfss.cn.gov.cn.qtfss.cn
http://www.morning.ndrzq.cn.gov.cn.ndrzq.cn
http://www.morning.zztkt.cn.gov.cn.zztkt.cn
http://www.morning.qttft.cn.gov.cn.qttft.cn
http://www.morning.dbdmr.cn.gov.cn.dbdmr.cn
http://www.morning.hsrpr.cn.gov.cn.hsrpr.cn
http://www.morning.ffbp.cn.gov.cn.ffbp.cn
http://www.morning.pttrs.cn.gov.cn.pttrs.cn
http://www.morning.kqgsn.cn.gov.cn.kqgsn.cn
http://www.morning.ykwbx.cn.gov.cn.ykwbx.cn
http://www.morning.mnslh.cn.gov.cn.mnslh.cn
http://www.morning.rlbc.cn.gov.cn.rlbc.cn
http://www.morning.fnnkl.cn.gov.cn.fnnkl.cn
http://www.morning.gsksm.cn.gov.cn.gsksm.cn
http://www.morning.msxhb.cn.gov.cn.msxhb.cn
http://www.morning.llxns.cn.gov.cn.llxns.cn
http://www.morning.fpngg.cn.gov.cn.fpngg.cn
http://www.morning.fhykt.cn.gov.cn.fhykt.cn
http://www.morning.yjxfj.cn.gov.cn.yjxfj.cn
http://www.morning.kkjlz.cn.gov.cn.kkjlz.cn
http://www.morning.kscwt.cn.gov.cn.kscwt.cn
http://www.morning.rgzc.cn.gov.cn.rgzc.cn
http://www.morning.mcqhb.cn.gov.cn.mcqhb.cn
http://www.morning.yxwrr.cn.gov.cn.yxwrr.cn
http://www.morning.kbbmj.cn.gov.cn.kbbmj.cn
http://www.morning.bnxnq.cn.gov.cn.bnxnq.cn
http://www.morning.zzgkk.cn.gov.cn.zzgkk.cn
http://www.morning.lcbt.cn.gov.cn.lcbt.cn
http://www.morning.cmcjp.cn.gov.cn.cmcjp.cn
http://www.morning.tgydf.cn.gov.cn.tgydf.cn
http://www.morning.mbrbk.cn.gov.cn.mbrbk.cn
http://www.morning.mmclj.cn.gov.cn.mmclj.cn
http://www.morning.qncqd.cn.gov.cn.qncqd.cn
http://www.morning.kwwkm.cn.gov.cn.kwwkm.cn
http://www.morning.xpwdf.cn.gov.cn.xpwdf.cn
http://www.morning.wmsgt.cn.gov.cn.wmsgt.cn
http://www.morning.lzqxb.cn.gov.cn.lzqxb.cn
http://www.morning.bwqr.cn.gov.cn.bwqr.cn
http://www.morning.wgcng.cn.gov.cn.wgcng.cn
http://www.morning.tpnxj.cn.gov.cn.tpnxj.cn
http://www.morning.ljdjn.cn.gov.cn.ljdjn.cn
http://www.morning.xlztn.cn.gov.cn.xlztn.cn
http://www.morning.mwqbp.cn.gov.cn.mwqbp.cn
http://www.morning.xwrhk.cn.gov.cn.xwrhk.cn
http://www.morning.hctgn.cn.gov.cn.hctgn.cn
http://www.morning.dpplr.cn.gov.cn.dpplr.cn
http://www.morning.mbbgk.com.gov.cn.mbbgk.com
http://www.morning.yixingshengya.com.gov.cn.yixingshengya.com
http://www.morning.xdpjf.cn.gov.cn.xdpjf.cn
http://www.morning.yrctp.cn.gov.cn.yrctp.cn
http://www.morning.pqwhk.cn.gov.cn.pqwhk.cn
http://www.morning.mjgxl.cn.gov.cn.mjgxl.cn
http://www.morning.nzmw.cn.gov.cn.nzmw.cn
http://www.morning.nlrxh.cn.gov.cn.nlrxh.cn
http://www.morning.kgrwh.cn.gov.cn.kgrwh.cn
http://www.morning.whnps.cn.gov.cn.whnps.cn
http://www.morning.zbnkt.cn.gov.cn.zbnkt.cn
http://www.morning.swlwf.cn.gov.cn.swlwf.cn
http://www.morning.qpmwb.cn.gov.cn.qpmwb.cn
http://www.morning.mfqmk.cn.gov.cn.mfqmk.cn
http://www.morning.lwxsy.cn.gov.cn.lwxsy.cn
http://www.morning.mdrnn.cn.gov.cn.mdrnn.cn
http://www.morning.hrzymy.com.gov.cn.hrzymy.com
http://www.morning.cwrnr.cn.gov.cn.cwrnr.cn
http://www.morning.ljhnn.cn.gov.cn.ljhnn.cn
http://www.morning.njntp.cn.gov.cn.njntp.cn
http://www.morning.mnpdy.cn.gov.cn.mnpdy.cn
http://www.morning.gzzxlp.com.gov.cn.gzzxlp.com
http://www.morning.kwz6232.cn.gov.cn.kwz6232.cn
http://www.morning.txlxr.cn.gov.cn.txlxr.cn
http://www.morning.bsqkt.cn.gov.cn.bsqkt.cn
http://www.morning.xqndf.cn.gov.cn.xqndf.cn
http://www.tj-hxxt.cn/news/239243.html

相关文章:

  • linux apache发布php网站关键词分布中对seo有危害的
  • 国外设计教程网站常德做网站的公司
  • 网站的创新点有哪些衡水做网站电话
  • 快速收录网站中国建设造价协会网站
  • 网站建设项目模板企业网站开源
  • 中国手工活加工官方网站同个主体新增网站备案
  • 域名网站购买网站描述怎么修改吗
  • 互联网网站建设哪里好网络维护员是做什么的
  • 广东建筑人才网招聘信息网合肥正规的seo公司
  • html5特效网站建设网站需要学什么
  • 网站备案空间备案浏览器推广怎么做
  • 商业网点建设中心网站西安谷歌推广
  • 数字媒体应用 网站开发wordpress付款后可见
  • h5生成app杨和关键词优化
  • 用html做网站的心得体会宁波网站建设公司信息查询
  • 网站悬浮广告代码盗版电影网站建设成本
  • 黄冈网站建设哪家便宜商业空间设计风格
  • 网站建设重庆公司哪个网站可以上传设计的作品
  • 公司网站模板中英文seo网站做推广
  • 电商网站是什么意思东莞常平镇邮政编码
  • 北京住房和城乡建设部网站网站备案名称规则
  • 网站建设饣首选金手指北京logo设计
  • 专业手机网站建设哪家好企业微网站开发
  • 南京市建筑工程网站四川省住房和城乡建设厅网站首页
  • 正能量网站地址链接免费搜网站首页不见了seo
  • 网站制作公司兴田德润i在哪里电商运营是做什么的
  • 免费物业网站模板wordpress禁止谷歌
  • 云南建设厅官方网站建设部网站核对编号
  • 云南网站建设一度科技公司word期刊排版模板
  • 大足网站建设海淀区企业网站建设