当前位置: 首页 > news >正文

网站开发的学习政策变了2022二建有必要考吗

网站开发的学习,政策变了2022二建有必要考吗,互联网宣传推广的基础架构,wordpress动漫文章目录 摘要1、引言2、 相关工作2.1、用于移动设备的卷积网络2.2、移动设备上的ViT和CNN-ViT混合模型2.3、评估指标 3、CNN-ViT 混合模型在低端CPU上的应用3.1、设计原则3.2、SBCFormer的整体设计3.3、SBCFormer块3.4、改进的注意力机制 4、实验结果4.1、实验设置4.2、ImageN… 文章目录 摘要1、引言2、 相关工作2.1、用于移动设备的卷积网络2.2、移动设备上的ViT和CNN-ViT混合模型2.3、评估指标 3、CNN-ViT 混合模型在低端CPU上的应用3.1、设计原则3.2、SBCFormer的整体设计3.3、SBCFormer块3.4、改进的注意力机制 4、实验结果4.1、实验设置4.2、ImageNet-1K4.2.1、训练4.2.2、结果4.2.3、消融测试 4.3、检测与分割4.3.1、数据集与实验配置4.3.2、结果 5、结论致谢 摘要 https://arxiv.org/ftp/arxiv/papers/2311/2311.03747.pdf 计算机视觉在解决包括智能农业、渔业和畜牧业管理等不同领域的实际问题中变得越来越普遍。这些应用可能不需要每秒处理许多图像帧因此从业者倾向于使用单板计算机SBCs。尽管已经为“移动边缘”设备开发了许多轻量级网络但它们主要针对具有更强大处理器的智能手机而不是具有低端CPU的SBCs。本文介绍了一种名为SBCFormer的CNN-ViT混合网络该网络在低端CPU上实现了高准确性和快速计算。这些CPU的硬件限制使得Transformer的注意力机制比卷积更可取。然而在低端CPU上使用注意力机制存在挑战高分辨率的内部特征图需要过多的计算资源但降低其分辨率会导致丢失局部图像细节。SBCFormer引入了一种架构设计来解决这个问题。因此SBCFormer在具有ARM-Cortex A72 CPU的Raspberry Pi 4 Model B上实现了精度和速度之间的最高权衡。这是首次在SBC上以1.0帧/秒的速度实现了大约80%的ImageNet-1K top-1准确度。代码可在https://github.com/xyongLu/SBCFormer上找到。 1、引言 深度神经网络已被用于各种计算机视觉任务这些任务需要在不同的硬件上进行推理。为满足这一需求已提出了众多针对移动和边缘设备的深度神经网络设计。自MobileNet [27]问世以来许多研究者提出了用于移动设备的各种卷积神经网络CNN架构设计[46, 49, 68]。此外自视觉转换器ViT [12]提出以来也进行了多次尝试以将ViT适应于移动设备 [4,8,42,65]。当前的趋势是开发CNN-ViT混合模型[20,21,35,50]。得益于这些研究虽然ViT以前被认为是缓慢的而轻量级CNN是移动设备的唯一可行选择但最近针对移动设备的混合模型在计算效率和推理准确度之间的权衡方面已经超越了CNN [14,31,32,44]。 以前的研究主要关注智能手机作为“移动/边缘”设备。尽管智能手机中的处理器不及服务器中的GPU/TPU强大但它们仍然相当强大在处理器谱系中属于中端。然而还存在一些“低端”处理器如嵌入式系统的CPU/MPU它们通常的计算能力非常有限。尽管如此这些处理器已被用于各种实际应用中如智能农业[41,69]以及渔业和畜牧业管理的AI应用[2,30]在这些应用中有限的计算资源就足够了。例如在防止野生动物破坏的物体检测中可能不需要每秒处理数十帧图像[1]。在许多情况下每秒处理大约一帧图像是实用的。事实上像MobileNet和YOLO这样的轻量级模型在此类应用中相当受欢迎通常使用配备摄像头的单板计算机SBC实现。 本研究主要关注低端处理器这些处理器在轻量级网络的发展中一直被忽视。鉴于它们的限制我们引入了一种名为SBCFormer的架构设计。指导我们研究的核心问题是卷积或Transformer的注意力机制哪一种更适合SBCs。正如[14]所述卷积需要复杂的内存访问模式需要高IO吞吐量以进行有效处理而注意力则相对简单。此外两者都转换为矩阵乘法而注意力通常处理比传统im2col卷积方法更小的矩阵维度。 考虑到SBCs在并行计算资源和内存带宽方面不如GPU注意力成为SBCs的首选基础构建块。然而注意力计算的复杂度与令牌数量的平方成正比。因此确保计算效率和降低延迟的关键在于在特征图中保持低空间分辨率。请注意空间分辨率为H × W的特征图对应于HW个令牌。 使用ViT架构会导致所有层的特征图保持一致的分辨率但由于特征图较粗糙会丢失输入图像的局部细节。为此最近旨在提高计算效率的模型特别是CNN-ViT混合模型[32, 40, 42, 54]采用了更类似于CNN的基础结构。在这些模型中特征图通过从输入到输出的下采样来降低其空间分辨率。由于对所有层应用注意力会大大增加计算成本特别是在具有高空间分辨率的层中这些模型仅在顶层使用注意力机制。这种设计利用了Transformer的注意力机制在图像特征的全局交互方面的优势同时保留了特征图中的局部细节。然而对于SBCs来说低层的卷积可能会成为问题导致更长的计算时间。 为了在保留局部信息的同时优化注意力计算我们的SBCFormer采用了一种双流块结构。第一流缩小输入特征图对减少的令牌数量应用注意力然后将地图恢复到其初始大小以确保高效的注意力计算。认识到缩小尺寸可能导致的局部信息损失第二流作为“直通”通道来保留输入特征图中的局部信息。这两条流汇聚在一起生成一个融合了局部和全局信息的特征图为下一层做好准备。此外我们改进了Transformer的注意力机制以弥补专注于较小特征图时可能导致的表示能力下降。 我们的实验证明了SBCFormer的有效性如图1所示。由于上述进步SBCFormer在广泛使用的单板计算机SBC上即配备ARM Cortex-A72 CPU的Raspberry Pi 4 Model B上实现了最高的准确度和速度之间的权衡。事实上SBCFormer在SBC上以每秒1.0帧的速度实现了接近80.0%的ImageNet 1K top-1准确度这是首次达到这一性能水平。 2、 相关工作 2.1、用于移动设备的卷积网络 近年来随着视觉应用在不同领域的深入发展对深度神经网络的需求日益增长这促使研究人员关注高效神经网络的设计。一种方法是通过使卷积计算更高效来实现如SqueezeNet[28]等作品所示。MobileNet[27]引入了深度可分离卷积来降低标准卷积层的昂贵计算成本以满足边缘设备的资源限制。MobileNetV2[46]改进了设计引入了倒残差块。我们提出的SBCFormer将倒残差块作为卷积操作的主要构建块。 另一种方法旨在设计高效的卷积神经网络CNN架构如Inception[47]和MnasNet[48]等工作所示。其他研究还提出了轻量级模型包括ShuffleNetv1[68]、ESPNetv2[43]、GhostNet[17]、MobileNeXt[71]、EfficientNet[49]和TinyNet[18]等。 值得注意的是包括上述提到的CNN在内它们只能在每一层捕获图像中的局部空间相关性而无法考虑全局交互。另一个需要考虑的重要点是对于CPU来说对标准大小的图像进行卷积计算可能是昂贵的因为它需要大矩阵乘法。在这些方面视觉转换器ViT具有优势[12]。 2.2、移动设备上的ViT和CNN-ViT混合模型 得益于自注意力机制[56]和大规模图像数据集视觉转换器ViT[12]和相关基于ViT的架构[3, 6, 29, 52, 72]在各种视觉识别任务中达到了最先进的推理精度[16, 67]。然而为了充分发挥其潜力基于ViT的模型通常需要大量的计算和内存资源这限制了它们在资源受限的边缘设备上的部署。随后一系列研究致力于从各个角度提高ViT的效率。受卷积架构中层次设计的启发一些工作为ViT开发了新架构[24, 58, 62, 66]。神经架构搜索方法也被用于优化基于ViT的架构[7, 13]。此外为了降低ViT的计算复杂性一些研究人员提出了高效的自注意力机制[5, 15, 25, 57]而另一些则专注于利用新的参数效率策略[23, 51]。 随后的研究表明在Transformer块中融入卷积操作可以提高基于ViT的模型的性能和效率。例如LeViT[14]在网络开始处重新引入了一个卷积茎以学习低分辨率特征而不是使用ViT[12]中的补丁茎。EdgeViT[44]引入了局部-全局-局部块以更好地整合自注意力和卷积使模型能够捕获具有不同范围的空间标记并在它们之间交换信息。MobileFormer[8]并行化MobileNet和Transformer以编码局部和全局特征并通过双向桥接融合这两个分支。MobileViT[42]将Transformer块视为卷积并开发了一个MobileViT块来有效地学习局部和全局信息。最后EfficientFormer[32]采用了一种混合方法结合了卷积层和自注意力层以实现准确性和效率之间的平衡。 尽管在开发移动设备混合模型方面进行了积极的研究但仍有一些问题需要解决。首先许多研究并没有将延迟即推理时间作为评估效率的主要指标这将在后面进行讨论。其次这些研究往往忽略了低端CPU目标最多仅限于智能手机的CPU/NPU和Intel CPU。例如LeViT是在ARM CPU上评估的具体来说是针对云服务器设计的ARM Graviton 2。 2.3、评估指标 评估计算效率的指标有很多包括模型参数数量、操作数即浮点运算次数FLOPs、推理时间或延迟以及内存使用量。尽管所有这些指标都很重要但在本研究中延迟尤其受到关注。值得注意的是Dehghani等人[10]和Vasu等人[55]的研究表明延迟方面的效率与浮点运算次数和参数数量之间的相关性并不强。 如前所述一些研究已经专注于开发轻量级且高效的卷积神经网络CNN。然而只有少数研究如MNASNet[48]、MobileNetv3[26]和ShuffleNetv2[39]直接针对延迟进行了优化。CNN-ViT混合网络的研究也是如此其中一些研究主要是为了移动设备而设计的[8,42]大多数这些研究并没有将延迟作为目标进行优先考虑而是专注于像浮点运算次数FLOPs这样的指标[8]。 这些研究中经常避免讨论延迟这是有充分理由的。这是因为每个处理器的指令集和与之一起使用的编译器对延迟的影响很大。因此为了获得实际的评估结果需要选择特定的处理器但这会牺牲一般性讨论。在本文中我们选择用于单板计算机的CPU如树莓派作为我们的主要目标它在各个领域被广泛用于边缘应用。它配备了专为移动平台设计的微处理器ARM Cortex-A72属于ARM Cortex-A系列。 3、CNN-ViT 混合模型在低端CPU上的应用 我们的目标是开发一个CPU友好的ViT-CNN混合网络在测试时延迟和推理准确性之间实现更好的权衡。 3.1、设计原则 我们采用了最近CNN-ViT混合模型中常用的基础架构。网络的初始阶段包含一组标准的卷积层这些卷积层擅长将输入图像转换为特征图而不是像ViT中那样从图像块到令牌的线性映射。网络的主要部分被分为多个阶段连续阶段之间的特征图尺寸会减小。这导致了一个特征图金字塔结构其维度为 H / 8 × W / 8, H / 16 × W / 16, H / 32 × W / 32 等。 Transformer的注意力机制的计算复杂度与令牌数量即输入特征图的大小 h × w呈二次方增长。因此具有较大尺寸特征图的较低阶段需要更多的计算成本。一些研究通过仅对特征图的子区域/令牌应用注意力来解决这个问题。针对移动设备的研究通常只在高层使用注意力机制。虽然这避免了计算成本的增加但导致了次优的推理准确性因为它放弃了ViT中最重要的属性之一即聚合图像中的全局信息。 考虑到这些因素我们提出了一种方法即缩小输入特征图的大小对缩小后的特征图应用注意力然后将得到的特征图放大。在我们的实验中无论阶段如何对于大小为 224 × 224 的输入图像我们都将特征图缩小到 7 × 7。这种沙漏设计允许我们聚合整个图像的全局信息同时最小化计算成本。 然而将特征图缩小到这么小的尺寸可能会导致局部信息的丢失。为了解决这个问题我们设计了一个包含两个并行流的块一个用于局部特征另一个用于全局特征。具体来说我们保持局部流的原始特征图大小并不执行注意力操作。对于全局流我们采用上述沙漏式的注意力设计即首先缩小特征图应用注意力然后将其放大到原始大小。两个流的输出被合并并传递到下一个块。更多细节见第3.3节。此外为了弥补沙漏设计导致的表示能力损失我们提出了一种改进的注意力机制。见第3.4节。 3.2、SBCFormer的整体设计 图2展示了我们所提出的SBCFormer的整体架构。网络以初始部分图中标记为“Stem”开始该部分包含三个卷积层每个卷积层使用 3 × 3 3 \times 3 3×3的卷积核和步长为2用于将输入图像转换为特征图。主体部分包含三个阶段每个阶段通过单个卷积层图中标记为“Embedding”连接到下一个阶段。该层使用步长为2的 3 × 3 3 \times 3 3×3卷积将输入特征图的大小减半。至于输出部分我们采用全局平均池化后跟一个全连接线性层作为网络的最后一层特别是用于图像分类任务。 3.3、SBCFormer块 我们用 X i ∈ R ( H / 2 i 2 ) × ( W / 2 i 2 ) × C i \mathbf{X}_{i} \in \mathbb{R}^{\left(H / 2^{i2}\right) \times\left(W / 2^{i2}\right) \times C_{i}} Xi​∈R(H/2i2)×(W/2i2)×Ci​ 表示第 i i i阶段的块输入特征图。 为了开始一个块我们在开头放置了 m i m_{i} mi​个连续的倒置残差块[46]这种块最初在MobileNetV2[46]中使用。我们使用的是带有GeLU激活函数的变体该变体包含一个逐点卷积、一个GeLU激活函数和一个带有 3 × 3 3 \times 3 3×3滤波器的深度卷积。我们后续将其称为InvRes。这些块将输入图 X i \mathbf{X}_{i} Xi​转换为 X i l \mathbf{X}_{i}^{l} Xil​如下所示 X i l F InvRes  m i ( X i ) , \mathbf{X}_{i}^{l}\mathcal{F}_{\text {InvRes }}^{m_{i}}\left(\mathbf{X}_{i}\right), Xil​FInvRes mi​​(Xi​), 其中 F m i ( ⋅ ) \mathcal{F}^{m_{i}}(\cdot) Fmi​(⋅)表示将 m i m_{i} mi​个连续的InvRes块应用于输入。 如图2所示更新后的特征 X i l \mathbf{X}_{i}^{l} Xil​被传送到两个不同的分支即局部流和全局流。对于局部流 X i l \mathbf{X}_{i}^{l} Xil​直接传递到块的末端部分。对于全局流 X i l \mathbf{X}_{i}^{l} Xil​首先通过一个平均池化层缩小到 h × w h \times w h×w的大小在图2中标记为“Pool”。在我们的实验中我们将其设置为 7 × 7 7 \times 7 7×7无论处于哪个阶段。缩小后的特征图随后被传入一个包含两个连续InvRes块的块在图中标记为“Mixer”旁边是一堆名为“MAttn”的注意力块。输出特征图随后被放大并经过卷积这在图中表示为“ConvT”。这些操作提供了特征图 X i g ∈ R ( H / 2 i 2 ) × ( W / 2 i 2 ) × C i \mathbf{X}_{i}^{g} \in \mathbb{R}^{\left(H / 2^{i2}\right) \times\left(W / 2^{i2}\right) \times C_{i}} Xig​∈R(H/2i2)×(W/2i2)×Ci​具体为 X i g ConvT ⁡ [ F MAttn  [ Mixer ⁡ [ Pool ⁡ ( X i l ) ] ] L i ] , \mathbf{X}_{i}^{g}\operatorname{ConvT}\left[\mathcal{F}_{\text {MAttn }\left[\operatorname{Mixer}\left[\operatorname{Pool}\left(\mathbf{X}_{i}^{l}\right)\right]\right]}^{L_{i}}\right], Xig​ConvT[FMAttn [Mixer[Pool(Xil​)]]Li​​], 其中 F MAttn  L i ( ⋅ ) \mathcal{F}_{\text {MAttn }}^{L_{i}}(\cdot) FMAttn Li​​(⋅)表示将 L i L_{i} Li​个连续的MAttn块应用于输入。 在块的最后一部分局部流特征 X i l \mathbf{X}_{i}^{l} Xil​和全局流特征 X i g \mathbf{X}_{i}^{g} Xig​被融合以得到一个新的特征图如图2所示。为了融合这两个特征我们首先使用从 X i g \mathbf{X}_{i}^{g} Xig​生成的权重图来调制 X i l \mathbf{X}_{i}^{l} Xil​。具体来说我们计算 W i g ∈ R ( H / 2 i 2 ) × ( W / 2 i 2 ) × C i \mathbf{W}_{i}^{g} \in \mathbb{R}^{\left(H / 2^{i2}\right) \times\left(W / 2^{i2}\right) \times C_{i}} Wig​∈R(H/2i2)×(W/2i2)×Ci​其计算方式为 W i g Sigmoid ⁡ [ Proj ⁡ ( X i g ) ] , \mathbf{W}_{i}^{g}\operatorname{Sigmoid}\left[\operatorname{Proj}\left(\mathbf{X}_{i}^{g}\right)\right], Wig​Sigmoid[Proj(Xig​)], 其中Proj表示逐点卷积后接批量归一化。然后我们将它乘以 X i l \mathbf{X}_{i}^{l} Xil​并将结果图与 X i g \mathbf{X}_{i}^{g} Xig​在通道维度上进行拼接得到 X i u [ X i l ⊙ W i g , X i g ] \mathbf{X}_{i}^{u}\left[\mathbf{X}_{i}^{l} \odot \mathbf{W}_{i}^{g}, \mathbf{X}_{i}^{g}\right] Xiu​[Xil​⊙Wig​,Xig​] 其中 ⊙ \odot ⊙表示哈达玛乘积。最后融合后的特征 X i u \mathbf{X}_{i}^{u} Xiu​通过另一个投影块来减半通道数从而得到该块的输出。 3.4、改进的注意力机制 上述的双流设计将弥补所提出的沙漏形注意力计算导致的局部信息损失。然而由于注意力操作是在非常低分辨率或等价于小尺寸的特征图上进行的注意力计算本身必然会丧失其表征能力。为了弥补这一损失我们对Transformer的注意力机制进行了一些修改请参见图2中的“MAttn”。 主要概念是利用CNN的标准计算元组作为注意力的输入特别是使用 3 × 3 3 \times 3 3×3深度可分离卷积、GeLU激活函数和批量归一化。注意力的输入由查询query、键key和值value组成我们将元组应用于值因为它构成了注意力输出的基础。我们的目标是通过促进输入特征图中空间信息的聚合来增强表征能力同时降低训练难度。为了抵消计算成本的增加我们取消了应用于查询和键的独立线性变换而是对所有三个组件应用相同的逐点卷积。 改进的注意力计算的细节如下。设 X ∈ R h × w × C i \mathbf{X} \in \mathbb{R}^{h \times w \times C_{i}} X∈Rh×w×Ci​为注意力机制的输入输出 X ′ ′ ∈ R h × w × C i \mathbf{X}^{\prime \prime} \in \mathbb{R}^{h \times w \times C_{i}} X′′∈Rh×w×Ci​的计算方式为 X ′ ′ FFN ⁡ ( X ′ ) X ′ , \mathbf{X}^{\prime \prime}\operatorname{FFN}\left(\mathbf{X}^{\prime}\right)\mathbf{X}^{\prime}, X′′FFN(X′)X′, 其中FFN代表ViT中的前馈网络[12,51]而 X ′ \mathbf{X}^{\prime} X′定义为 X ′ Linear ⁡ ( MHSA ⁡ ( P W − Conv ⁡ ( X ) ) ) X , \mathbf{X}^{\prime}\operatorname{Linear}(\operatorname{MHSA}(\mathrm{PW}-\operatorname{Conv}(\mathbf{X})))\mathbf{X}, X′Linear(MHSA(PW−Conv(X)))X, 其中Linear是具有可学习权重的线性层 P W − C o n v \mathrm{PW}-Conv PW−Conv表示逐点卷积MHSA定义为 MHSA ⁡ ( Y ) Softmax ⁡ ( Y ⋅ Y ⊤ d b ⋅ 1 ⊤ ) ⋅ Y ′ \operatorname{MHSA}(\mathbf{Y})\operatorname{Softmax}\left(\frac{\mathbf{Y} \cdot \mathbf{Y}^{\top}}{\sqrt{d}}\mathbf{b} \cdot \mathbf{1}^{\top}\right) \cdot \mathbf{Y}^{\prime} MHSA(Y)Softmax(d ​Y⋅Y⊤​b⋅1⊤)⋅Y′ 其中 d d d是查询和键中每个头的通道数 b ∈ R h w \mathbf{b} \in \mathbb{R}^{h w} b∈Rhw是一个可学习的偏置用作位置编码[14,32] 1 ∈ R h w \mathbf{1} \in \mathbb{R}^{h w} 1∈Rhw是一个全一向量 Y ′ \mathbf{Y}^{\prime} Y′定义为 Y ′ D W − Conv ⁡ G ( B N ( Y ) ) Y , \mathbf{Y}^{\prime}\mathrm{DW}-\operatorname{Conv}_{\mathrm{G}}(\mathrm{BN}(\mathbf{Y}))\mathbf{Y}, Y′DW−ConvG​(BN(Y))Y, 其中DW-Conv G {}_{\mathrm{G}} G​表示深度可分离卷积后接GeLU激活函数BN表示与CNN中相同的批量归一化。 4、实验结果 我们进行了实验来评估SBCFormer的性能并将其与在ImageNet1K[11]图像分类任务和COCO数据集[34]物体检测任务上的现有网络进行了比较。 4.1、实验设置 SBCFormer主要针对在单板计算机中常用的低端CPU进行优化。此外我们还在边缘设备中常见的Intel CPU以及桌面PC中使用的GPU上评估了其性能。我们在实验中使用了以下三个处理器和平台。 一款在单板计算机Raspberry PI 4 model B上以1.5 GHz运行的ARM Cortex-A72处理器。尽管它被归类为低端处理器但ARM Cortex-A72是一款四核64位处理器支持ARM Neon指令集。我们使用32位的Raspberry Pi OS和PyTorch 1.6.0版本来运行网络。 一款在笔记本电脑和平板电脑等移动设备中常见的Intel Core i7-3520M处理器运行频率为2.9 GHz。它是一款双核处理器支持多种指令集包括为向量和矩阵运算提供高性能支持的Intel高级向量扩展AVX和AVX2。我们使用Ubuntu 18.04.5 LTS和PyTorch 1.10.1版本来运行网络。 一款在配备Intel Xeon CPU E5-1650 v3的桌面PC上的GeForce RTX 2080Ti GPU。我们使用Ubuntu 18.04.6 LTS和PyTorch 1.10.1版本来运行网络。 我们使用PyTorch框架版本1.10和Timm库[61]来实现和测试所有网络。对于每个我们进行比较的现有网络我们采用了作者提供的官方代码但少数网络除外。我们遵循之前的研究[32,44]来测量处理单个输入图像所需的推理时间即延迟。具体来说我们将批量大小设置为1并记录每个平台上的时钟时间。为确保准确性我们进行了300次推理并报告了平均延迟时间以秒为单位。在测量过程中我们终止了任何可能干扰结果的无关应用程序。所有计算均使用32位浮点数。由于我们的重点是推理速度而不是训练因此我们在配备八个Nvidia 2080Ti GPU的GPU服务器上训练了所有网络然后在每个平台上评估了它们的推理时间。 4.2、ImageNet-1K 我们首先在最标准的任务——ImageNet-1K的图像分类任务上评估了这些网络。 4.2.1、训练 我们在ImageNet-1K数据集的训练集上从头开始训练SBCFormer和现有网络共训练300个周期。该训练集包含1,000个类别共128万张图像。我们考虑了四种不同模型大小的变体即SBCFormer-XS、-S、-B和-L如表1所示。所有模型均以标准分辨率224×224进行训练和测试。 我们遵循原始作者的代码来训练现有网络。对于SBCFormer的训练我们采用了DeiT[51]中的训练策略总结如下。我们使用了带有余弦学习率调度[37]的AdamW优化器[38]并在前五个周期应用了线性预热。初始学习率设置为2.5×10⁻⁴最小值设置为10⁻⁵。权重衰减和动量分别设置为5×10⁻²和0.9批量大小为200。在训练过程中我们采用了数据增强技术包括随机裁剪、随机水平翻转、mixup、随机擦除和标签平滑这些技术遵循了[44,51]中的做法。在训练过程中我们对输入图像进行随机裁剪以获得224×224像素的图像大小而在测试过程中则使用相同大小的单个中心裁剪。 4.2.2、结果 表2展示了不同模型大小的SBCFormer变体以及目前针对移动/边缘设备的轻量级网络包括CNN、ViT变体以及CNN-ViT混合模型的最新成果。 观察到具有不同模型大小的SBCFormer变体在CPU上实现了更高的准确率和延迟之间的权衡也请参见图1。SBCFormer与其他模型之间的性能差距在ARM CPU上比在Intel CPU上更为显著。值得注意的是SBCFormer在GPU上仅实现了中等或较差的权衡。这些结果与我们的设计目标相一致因为SBCFormer针对具有有限计算资源的CPU进行了优化以实现更快的运行速度。 从图1中展示的CPU结果还可以得出以下额外观察。首先流行的轻量级CNN如MobileNetV2/V3 [26,46]、ShuffleNetV2 [39]和EfficientNet [49]在推理准确性方面往往不足。与最近的混合模型相比它们以相同的速度水平获得了相对较低的准确性。这充分说明了在CPU上采用卷积的难度。 此外一些为移动应用开发的ViT-CNN混合模型比具有相似推理准确性的CNN更慢。这样的混合模型包括MobileViT和EdgeViT。这有多种原因。首先这些混合模型中的一些使用FLOPs和/或参数大小作为效率指标这些指标并不一定对应于较低的延迟。其次一些混合模型旨在用于最新款的智能手机这些手机具有比我们实验中使用的更强大的CPU/NPU。这可能导致与先前研究相比看似不一致的发现。 4.2.3、消融测试 SBCFormer引入了两个新颖组件即具有全局和局部流的块设计第3.3节和修改后的注意力机制第3.4节。为了评估它们的有效性我们进行了消融测试。具体来说我们选择了SBCFormer-B并创建了两个消融模型。第一个是从所有SBCFormer块中移除局部流的SBCFormer第二个是将修改后的注意力机制替换为标准Transformer注意力机制的模型。我们对所有模型进行了300个周期的训练。表3展示了结果证实了这两个引入组件的有效性。 4.3、检测与分割 除了图像分类外目标检测是最受欢迎的应用之一。因此我们测试了SBCFormer在目标检测上的性能。具体来说我们按照标准方法将SBCFormer用作主干网络并在其顶部放置特定于任务的架构来构建模型。 4.3.1、数据集与实验配置 我们使用COCO 2017数据集[34]进行评估。该数据集包含118,000张图像的训练集和5,000张图像的验证集。 我们选择了目标检测的基本网络即RetinaNet[33]。我们将几个主干网络集成到RetinaNet中。我们选择了SBC-Former-B和-L并选择了一些具有大致相同模型大小的基线模型这些基线模型来自PVT[58]、PVTv2[59]和ResNet18[22]。 我们在ImageNet-1K数据集上训练这些主干网络。对于使用不同主干网络的RetinaNet的训练我们采用标准协议[9,44,59]。我们将图像调整为较短边为800像素同时确保较长边小于1333像素。我们使用AdamW优化器[38]初始学习率为1×10⁻⁴批量大小为16训练模型12个周期。在测试时我们将图像大小重新缩放为800×800。 4.3.2、结果 表4展示了结果。可以看出使用SBCFormer作为主干网络的模型与基线模型相比表现出相当或更好的性能。如图1和表2所示PVT、PVTv2和ResNet18在推理速度上明显较慢这可能会成为使用它们作为主干网络的检测器的瓶颈。 5、结论 我们提出了一种新的深度网络设计称为SBCFormer它在低端CPU上使用时在推理准确性和计算速度之间实现了有利的平衡这些CPU通常存在于单板计算机SBCs中。这些CPU执行大型矩阵乘法时效率不高使得Transformer的注意力机制比CNN更具吸引力。然而当应用于大型特征图时注意力机制的计算成本很高。SBCFormer通过首先减小输入特征图的大小对较小的特征图应用注意力然后将其恢复到原始大小来减轻这种成本。但是这种方法具有副作用如局部图像信息的丢失和小尺寸注意力表示能力的限制。为了解决这些问题我们引入了两个新颖的设计。首先我们在注意力计算中添加了一个并行流该流通过输入特征图从而保留局部图像信息。其次我们通过整合标准的CNN组件来增强注意力机制。我们的实验表明SBCFormer在流行的SBC配备ARM-Cortex A72 CPU的Raspberry-PI 4 Model B上实现了准确性和速度之间的良好权衡。 局限性在我们的实验中我们选择了特定的处理器即两款CPU和一款GPU并在每个处理器上测量了延迟。尽管这些处理器在其类别中具有代表性但使用其他处理器可能会得到不同的结果。此外我们的主要指标是推理延迟。它可能因多种因素而异包括代码优化、编译器、深度学习框架、操作系统等。因此我们的实验结果可能无法在不同的环境中重现。 致谢 本研究得到了JSPS KAKENHI资助项目编号23H00482和20H05952的部分支持。
文章转载自:
http://www.morning.ntzfl.cn.gov.cn.ntzfl.cn
http://www.morning.rgmls.cn.gov.cn.rgmls.cn
http://www.morning.rkmsm.cn.gov.cn.rkmsm.cn
http://www.morning.lsnnq.cn.gov.cn.lsnnq.cn
http://www.morning.dmlgq.cn.gov.cn.dmlgq.cn
http://www.morning.kcfnp.cn.gov.cn.kcfnp.cn
http://www.morning.dzzjq.cn.gov.cn.dzzjq.cn
http://www.morning.jfwrf.cn.gov.cn.jfwrf.cn
http://www.morning.jrslj.cn.gov.cn.jrslj.cn
http://www.morning.rswtz.cn.gov.cn.rswtz.cn
http://www.morning.sfzwm.cn.gov.cn.sfzwm.cn
http://www.morning.swsrb.cn.gov.cn.swsrb.cn
http://www.morning.xnpj.cn.gov.cn.xnpj.cn
http://www.morning.zgdnz.cn.gov.cn.zgdnz.cn
http://www.morning.joinyun.com.gov.cn.joinyun.com
http://www.morning.mooncore.cn.gov.cn.mooncore.cn
http://www.morning.zzjpy.cn.gov.cn.zzjpy.cn
http://www.morning.rxlk.cn.gov.cn.rxlk.cn
http://www.morning.mjbjq.cn.gov.cn.mjbjq.cn
http://www.morning.zzhqs.cn.gov.cn.zzhqs.cn
http://www.morning.slnz.cn.gov.cn.slnz.cn
http://www.morning.mxlwl.cn.gov.cn.mxlwl.cn
http://www.morning.rkjb.cn.gov.cn.rkjb.cn
http://www.morning.snktp.cn.gov.cn.snktp.cn
http://www.morning.gediba.com.gov.cn.gediba.com
http://www.morning.bdfph.cn.gov.cn.bdfph.cn
http://www.morning.tqfnf.cn.gov.cn.tqfnf.cn
http://www.morning.hdlhh.cn.gov.cn.hdlhh.cn
http://www.morning.hrhwn.cn.gov.cn.hrhwn.cn
http://www.morning.nhgfz.cn.gov.cn.nhgfz.cn
http://www.morning.datadragon-auh.cn.gov.cn.datadragon-auh.cn
http://www.morning.pprxs.cn.gov.cn.pprxs.cn
http://www.morning.gqfbh.cn.gov.cn.gqfbh.cn
http://www.morning.krrjb.cn.gov.cn.krrjb.cn
http://www.morning.kjdxh.cn.gov.cn.kjdxh.cn
http://www.morning.ctwwq.cn.gov.cn.ctwwq.cn
http://www.morning.bnlch.cn.gov.cn.bnlch.cn
http://www.morning.qwbtr.cn.gov.cn.qwbtr.cn
http://www.morning.tbzcl.cn.gov.cn.tbzcl.cn
http://www.morning.tjndb.cn.gov.cn.tjndb.cn
http://www.morning.qkskm.cn.gov.cn.qkskm.cn
http://www.morning.xmyrn.cn.gov.cn.xmyrn.cn
http://www.morning.ftnhr.cn.gov.cn.ftnhr.cn
http://www.morning.wfyzs.cn.gov.cn.wfyzs.cn
http://www.morning.cctgww.cn.gov.cn.cctgww.cn
http://www.morning.fdlyh.cn.gov.cn.fdlyh.cn
http://www.morning.bpmnl.cn.gov.cn.bpmnl.cn
http://www.morning.jlktz.cn.gov.cn.jlktz.cn
http://www.morning.lqjpb.cn.gov.cn.lqjpb.cn
http://www.morning.ngcth.cn.gov.cn.ngcth.cn
http://www.morning.mwlxk.cn.gov.cn.mwlxk.cn
http://www.morning.rqfnl.cn.gov.cn.rqfnl.cn
http://www.morning.bqmsm.cn.gov.cn.bqmsm.cn
http://www.morning.gccrn.cn.gov.cn.gccrn.cn
http://www.morning.xltwg.cn.gov.cn.xltwg.cn
http://www.morning.haolipu.com.gov.cn.haolipu.com
http://www.morning.zwgrf.cn.gov.cn.zwgrf.cn
http://www.morning.ntyanze.com.gov.cn.ntyanze.com
http://www.morning.guangda11.cn.gov.cn.guangda11.cn
http://www.morning.lstmq.cn.gov.cn.lstmq.cn
http://www.morning.mgmyt.cn.gov.cn.mgmyt.cn
http://www.morning.dqrpz.cn.gov.cn.dqrpz.cn
http://www.morning.dytqf.cn.gov.cn.dytqf.cn
http://www.morning.bsqbg.cn.gov.cn.bsqbg.cn
http://www.morning.qkxt.cn.gov.cn.qkxt.cn
http://www.morning.flhnd.cn.gov.cn.flhnd.cn
http://www.morning.trnl.cn.gov.cn.trnl.cn
http://www.morning.nfbkp.cn.gov.cn.nfbkp.cn
http://www.morning.gwqq.cn.gov.cn.gwqq.cn
http://www.morning.sfwd.cn.gov.cn.sfwd.cn
http://www.morning.wcqkp.cn.gov.cn.wcqkp.cn
http://www.morning.rdxnt.cn.gov.cn.rdxnt.cn
http://www.morning.nrftd.cn.gov.cn.nrftd.cn
http://www.morning.jjzxn.cn.gov.cn.jjzxn.cn
http://www.morning.tzzfy.cn.gov.cn.tzzfy.cn
http://www.morning.qmqgx.cn.gov.cn.qmqgx.cn
http://www.morning.nkjnr.cn.gov.cn.nkjnr.cn
http://www.morning.nzlsm.cn.gov.cn.nzlsm.cn
http://www.morning.rhgtc.cn.gov.cn.rhgtc.cn
http://www.morning.wngpq.cn.gov.cn.wngpq.cn
http://www.tj-hxxt.cn/news/240390.html

相关文章:

  • 淄博网站制作多样定制网站正能量网站不用下载直接进入
  • 网站推广每天必做的流程摄影师常用的网站
  • 网站推广有哪些方法哪个企业的网站做的比较好
  • 书店网站建设author 1 wordpress
  • 公司网站建设汇报奎文建设局网站
  • 手机上哪个网站电商网站对比表
  • 深圳网站建设设计公司网站中文名注册
  • 基础建设的网站有哪些内容通州网站建设
  • 建设电影网站如何赚钱seo快速排名软件
  • 温州市网站制作公司页面模板不包括
  • 马云之前做的网站企业网络营销策划方案教程
  • 山西省住房与城乡建设部网站企业网站前台模板
  • thinkphp做视频网站新手学易语言多久可以做网站
  • 佛山做外贸网站的公司网页设计图片切换代码
  • 织梦搭建商城网站集团高端网站建设公司
  • 网站开发工程师资格证网站首页推荐
  • 网站域名怎么快速备案邯郸信息港首页
  • 网站怎么响应式布局企业管理系统需求分析
  • 建设公司建站系统wordpress仿 模板
  • 赞叹天河网站建设公司wordpress置顶文章失效
  • 青岛做网站建设做游戏网站有钱赚吗
  • 大江网站建设农家乐网站开发项目背景
  • 广州网站维护东莞市住房建设局网站首页
  • 网站+建设设计网站关键词词库怎么做
  • cms网站制作node可以做电商网站么
  • 临沂网站建设团队wordpress 谷歌seo
  • 成功的营销型网站设计特点wordpress 增加模块
  • 网站 扩展设计师网络平台
  • 那个网站平台可以做兼职长春网站排名优化价格
  • 微网站策划方案wordpress无法创建目录