手机网站分页重庆seo推广服务
文章目录
- 摘要
- 1、简介
- 2、相关工作
- 3、方法
- 4、实验
- 5、消融研究
- 6、与最先进方法的比较
- 7、ViTs和CNNs的鲁棒性评估基准比较
- 8、结论
摘要
https://arxiv.org/pdf/2309.01439.pdf
大型可分离核注意力(LSKA)模块的视觉注意力网络(VAN)已被证明在各种基于视觉的任务上提供了卓越的性能,超过了视觉转换器(ViTs)。然而,这些LSKA模块中的逐深度卷积层随着卷积核尺寸的增加,计算和内存占用呈二次增长。为了缓解这些问题,并使VAN的注意力模块能够使用极大的卷积核,我们提出了一种大型可分离核注意力模块,称为LSKA。LSKA将深度卷积层的2D卷积核分解为级联的水平1D和垂直1D内核。与标准LKA设计不同,提出的分解使得可以直接使用注意力模块中的深度卷积层的大内核,而不需要任何额外的块。我们证明,与标准LKA模块相比,VAN中的提议LSKA模块可以获得相当的性能,并降低计算复杂性和内存占用。我们还发现,随着内核尺寸的增加,提议的LSKA设计使VAN更加偏向于对象的形状而不是纹理。此外,我们对LKA和LSKA在VAN、ViTs和最近的