当前位置: 首页 > news >正文

odoo 12 网站开发怎么做网页html

odoo 12 网站开发,怎么做网页html,网站模板二次开发,网站建设费用报价表paper: https://arxiv.org/abs/2308.00442 code: https://github.com/LeapLabTHU/FLatten-Transformer 摘要 当将transformer模型应用于视觉任务时#xff0c;自注意的二次计算复杂度( n 2 n^2 n2)一直是一个持续存在的挑战。另一方面#xff0c;线性注意通过精心设计的映射…paper: https://arxiv.org/abs/2308.00442 code: https://github.com/LeapLabTHU/FLatten-Transformer 摘要 当将transformer模型应用于视觉任务时自注意的二次计算复杂度( n 2 n^2 n2)一直是一个持续存在的挑战。另一方面线性注意通过精心设计的映射函数来近似Softmax操作提供了一个更有效的替代方法。然而当前的线性注意方法要么遭受显著的性能下降要么从映射函数中引入额外的计算开销。在本文中作者提出了一种新的聚焦线性注意模块以实现高效率和表达性。具体来说首先从聚焦能力和特征多样性两个角度分析了导致线性注意性能下降的因素。为了克服这些限制引入了一个简单而有效的映射函数和一个高效的秩恢复模块在保持低计算复杂度的同时提高自我注意的表达性。大量的实验表明线性注意模块适用于各种高级视觉transorfomer并在多个基准上取得了持续改进的性能。 介绍 将transorfomer应用于视觉模型是一项艰巨的任务。在将自注意力机制应用于全局感受野与轻量级卷积神经网络不同相对于序列长度 n n n的二次计算复杂度 O n 2 On^2 On2导致了较高的计算成本。之前的工作通过限制全局感受野为一个更小的区域感受野比如稀疏的全局注意模式、更小的注意力窗口。尽管这些方法很有效但由于它们的注意力模式它们要么倾向于忽略其他区域的信息特征要么不可避免地牺牲了建模长期依赖关系的能力。 另一方面线性注意被认为是一种简单而有效的替代方法通过降低一般的复杂性来解决计算困境。早期的研究利用了一种局部敏感的哈希方案该方案将计算复杂度从 O ( n 2 ) O(n^2) O(n2)压缩为 O ( n l o g ( n ) ) O(nlog(n)) O(nlog(n))。然而它在复杂度项之前引入了一个很大的常数这使得它在常见情况下仍然负担不起。最近的研究注意到在自注意操作中使用Softmax函数实际上迫使所有查询和键之间进行两两计算从而导致主要的 O ( n 2 ) O(n^2) O(n2)复杂度。为了解决这个问题一些方法开始采用简单的激活函数或者定制映射函数去近似原始的Softmax函数。如图1所示通过将计算顺序从查询键值改为查询值键值可以将整体计算复杂度降低到 O ( n ) O (n) O(n)。然而与Softmax注意相比目前的线性注意方法仍然存在严重的性能下降可能涉及映射函数的额外计算开销从而限制了其实际应用。 本文针对当前线性注意方法的局限性提出了一种新的Focused Linear Attention该模块既具有高效率和表达性。具体来说对导致线性关注性能下降的因素进行了双管齐下的分析并提出了相应的解决方案。首先前一种线性注意模块的注意权重分布相对平滑缺乏处理信息最丰富的特征的聚焦能力。作为一种补救措施本文提出了一个简单的映射函数来调整查询和键的特征方向使注意力权重更容易区分。其次注意矩阵的秩的减少限制了线性注意特征的多样性。为了解决这一问题提出了一个对原始注意矩阵进行深度卷积DWC的秩恢复模块这有助于恢复矩阵的秩并保持不同位置的输出特征多样化。利用这些改进的技术模块展示了与Softmax的同类产品相当或更优越的性能同时享受了低计算复杂度的好处。 相关工作 Vision Transformer transformer和自我注意机制首次引入自然语言处理领域在计算机视觉领域获得了广泛的研究兴趣。然而自注意集的高计算复杂度限制了其直接应用于视觉任务。之前的视觉transformer考虑通过将相邻像素合并为单个令牌来降低输入分辨率。接下来的研究也采用了类似的见解也扩展到下游任务。另一项研究逐渐降低了特征的分辨率并采用了精心设计的注意模式来限制token数量。例如PVT 使用一个稀疏的注意模式并从全局的角度选择注意令牌。AT 遵循该路径设计了一个可变形的注意模块以实现数据依赖的注意模式。Swin变压器通过将输入划分为孤立的窗口来局部选择注意令牌。NAT在卷积中遵循以查询为中心的模式并为所有查询设计独立的注意标记。一些研究也注意到卷积运算对变压器模型很有价值可能有助于提高整体效率。CMT将变压器块与高效的卷积算子相结合像深度可分离卷积depthwise convolution并实现了更好的效率和性能的权衡。ACmix 共享了卷积和自注意的计算开销并以有限的成本集成了这两个模块。并提出了有效训练变压器的方法。 然而这些方法仍然依赖于Softmax算子其继承了较高的计算复杂度不可避免地给模型架构设计和实际应用带来了不便。 Linear Attention 除了上述方法外另一项研究利用线性注意解决高计算复杂度。具体地说线性注意用单独的核函数代替了自注意中的Softmax函数。在这种情况下线性注意不需要首先计算成对相似度 Q K T QK^T QKT正如图1所示这种情况softmax函数将不可用因此需要再设计一个映射函数。如何设计与softmax注意力机制一样有效的线性注意模块仍然是一个重要的问题。Performer近似于具有正交随机特征的Softmax操作。Efficient attention 将Softmax函数分别应用于Q和K这自然保证了每一行 Q K T QK^T QKT的总和为1。Nystromformer和SOFT通过矩阵分解近似全自注意矩阵。Hydra attention用余弦相似度代替Softmax。EfficientVit利用深度可分离卷积来提高线性注意的局部特征提取能力。然而目前的线性注意设计要么没有足够的表达能力来赶上sotmax注意要么涉及来自复杂核函数的额外计算开销。在本研究中作者从聚焦能力和特征多样性的角度分析了线性注意性能下降的原因。在此基础上作者提出了一种新的线性注意模块称为聚焦线性注意它在计算复杂度较低的情况下比Softmax注意更好的性能图2。 具体来说 自注意力机制公式对于每一个token有 O i ∑ j 1 N S i m ( Q i , K j ) ∑ j 1 N S i m ( Q i , K j ) V j O_i \sum_{j1}^N\frac{Sim(Q_i,K_j)}{\sum_{j1}^N Sim(Q_i,K_j)}V_j Oi​∑j1N​∑j1N​Sim(Qi​,Kj​)Sim(Qi​,Kj​)​Vj​ S i m Sim Sim表示相似度函数 S i m ( Q i , K j ) e x p ( Q j K j T / d ) Sim(Q_i,K_j)exp(Q_j{K_j}^T/\sqrt{d}) Sim(Qi​,Kj​)exp(Qj​Kj​T/d ​) 线性注意力机制精心设计的核作为原始相似度函数的近似值 S i m ( Q i , K j ) ϕ ( Q i ) ϕ ( K j ) T Sim(Q_i,K_j)\phi (Q_i)\phi(K_j)^T Sim(Qi​,Kj​)ϕ(Qi​)ϕ(Kj​)T 那么自注意力机制公式就可以被重写为 O i ∑ j 1 N ϕ ( Q i ) ϕ ( K i ) T ∑ j 1 N ϕ ( Q i ) ϕ ( K j ) T V j O_i \sum_{j1}^N\frac{\phi(Q_i)\phi(K_i)^T}{\sum_{j1}^N\phi(Q_i)\phi(K_j)T}V_j Oi​∑j1N​∑j1N​ϕ(Qi​)ϕ(Kj​)Tϕ(Qi​)ϕ(Ki​)T​Vj​ 这样就可以将 ( Q K T ) V (QK^T)V (QKT)V转化为 Q ( K T V ) Q(K^TV) Q(KTV)即 O i ϕ ( Q i ) ( ∑ j 1 N ϕ ( K j ) T V j ) ϕ ( Q i ) ( ∑ j 1 N ϕ ( K I ) T ) O_i \frac{\phi(Q_i)(\sum_{j1}^N\phi(K_j)^TV_j)}{\phi(Q_i)(\sum_{j1}^N\phi(K_I)^T)} Oi​ϕ(Qi​)(∑j1N​ϕ(KI​)T)ϕ(Qi​)(∑j1N​ϕ(Kj​)TVj​)​ 注意 Q i Q_i Qi​为query向量 K j K_j Kj​为key向量 V j V_j Vj​为value向量。 方法Focused Linear Attention Focus ability softmax注意力机制实际上提供了一种非线性重加权机制使其很容易集中在重要的特征。如图3所示来自Softmax注意的注意图在某些区域的分布特别明显如前景物体。相比之下线性注意的分布是相对的平滑使其输出更接近所有特征的平均值而不能关注信息更丰富的区域。 作为补救措施作者提出了一个简单而有效的解决方案通过调整每个查询和关键特征的方向接近相似的查询键对同时消除不同的查询键对。具体来说作者提出了一个简单的映射函数 f p f_p fp​称为Focused函数 S i m ( Q i , K j ) ϕ p ( Q i ) ϕ p ( K j ) T Sim(Q_i,K_j)\phi_p(Q_i)\phi_p(K_j)^T Sim(Qi​,Kj​)ϕp​(Qi​)ϕp​(Kj​)T where ϕ p ( x ) f p ( R e L U ( x ) ) , f p ( x ) ∣ ∣ x ∣ ∣ ∣ ∣ x ∗ ∗ p ∣ ∣ x ∗ ∗ p \phi_p(x)f_p(ReLU(x)),f_p(x)\frac{||x||}{||x^{**p}||}x^{**p} ϕp​(x)fp​(ReLU(x)),fp​(x)∣∣x∗∗p∣∣∣∣x∣∣​x∗∗p 其中 x ∗ ∗ p x^{**p} x∗∗p表示x按元素的p次方。作者证明了所提出的映射函数 f p f_p fp​实际上影响了注意力的分布。 命题1 f p f_p fp​调整特征方向 令 x ( x 1 , . . . , x n ) y ( y 1 , . . . , y n ) ∈ R n , x i , y i ≥ 0 x(x_1,...,x_n)y(y_1,...,y_n) \in \mathbb{R}^n,x_i,y_i\ge 0 x(x1​,...,xn​)y(y1​,...,yn​)∈Rn,xi​,yi​≥0假设x和y分别有一个最大的值 x m x_m xm​和 y n y_n yn​。 当 m n mn mn时有 ∃ p 1 , s . t . ⟨ ϕ p ( x ) , ϕ p ( y ) ⟩ ⟨ x , y ⟩ \exists p 1, s.t. \left \langle \phi_p(x),\phi_p(y) \right \rangle \left \langle x,y \right \rangle ∃p1,s.t.⟨ϕp​(x),ϕp​(y)⟩⟨x,y⟩ 当 m ≠ n m\ne n mn时有 ∃ p 1 , s . t . ⟨ ϕ p ( x ) , ϕ p ( y ) ⟩ ⟨ x , y ⟩ \exists p 1, s.t. \left \langle \phi_p(x),\phi_p(y) \right \rangle \left \langle x,y \right \rangle ∃p1,s.t.⟨ϕp​(x),ϕp​(y)⟩⟨x,y⟩ ⟨ x y ⟩ \left \langle xy \right \rangle ⟨xy⟩表示內积 x y T xy^T xyT 这个命题可以这样理解 f p f_p fp​使相似的query-key更明显的区别 m n mn mn时內积相比原始值变大不相似的query-key恢复了尖锐的注意力分布作为原来的Softmax函数( m ≠ n m\ne n mn內积更小)从而实现focus ablity。 为了更好地理解我们给出了一个例子来显示图4中 f p f_p fp​的影响。可以看出 f p f_p fp​实际上将每个向量“拉”到它最近的轴上而p决定了这种“拉”的程度。通过这样做 f p f_p fp​有助于根据特征最近的轴将特征划分为几个组提高每个组内的相似性同时减少组之间的相似性。可视化与我们上面的分析一致。 Feature diversity 除了focus ablity外特征多样性也是限制线性注意表达能力的因素之一。其中一个可能的原因可能归功于注意力矩阵的秩其中可以看到显著的差异。以 N 14 × 14 N14×14 N14×14的DeiT-Tiny的transformer层为例从图5 (a)可以看出注意力矩阵具有完整的秩196中的196显示了从值聚合特征时的多样性。 然而在线性注意的情况下这一点很难实现。事实上注意矩阵在线性注意中的秩受到每个头部的令牌数N和通道维数d的限制 r a n k ( ϕ ( Q ) ϕ ( K ) T ) ≤ m i n { r a n k ( ϕ ( Q ) ) , r a n k ( ϕ ( Q ) ) } ≤ m i n { N , d } rank(\phi(Q)\phi(K)^T) \le min\{rank(\phi(Q)),rank(\phi (Q))\} \le min\{N,d\} rank(ϕ(Q)ϕ(K)T)≤min{rank(ϕ(Q)),rank(ϕ(Q))}≤min{N,d} 因为d通常小于N所以线性注意力机制的注意力矩阵小于等于d,而softmax注意力小于等于N大概率是等于d和等于n。在这种情况下注意矩阵秩的上界被限制在一个较低的比率这表明注意映射的许多行被严重均质化。由于自注意力的输出是同一组V的加权和注意力权重的均匀化不可避免地导致聚合特征之间的相似性。 为了更好地说明我们将DeiT-Tiny中的原始Softmax注意替换为线性注意并显示了图5 (b).中的注意图的rank可以观察到rank大大下降196中有54注意矩阵的许多行是相似的。 作为一种补救方法我们提出了一个简单而有效的解决方案来解决线性注意的限制。具体地说在注意矩阵中添加了一个深度卷积DWCdepthwise convolution模块输出可以表示为 O ϕ ( Q ) ϕ ( K ) T V D W C ( V ) O\phi(Q)\phi(K)^TVDWC(V) Oϕ(Q)ϕ(K)TVDWC(V) 为了更好地理解这个DWC模块的效果我们可以把它看作是一种attention即每个query只关注空间中的几个相邻特征而不是所有特征V。这种局部性保证了即使两个查询对应的线性注意值相同我们仍然可以从不同的局部特征中得到不同的输出从而保持特征的多样性。DWC的影响也可以从矩阵秩的角度来解释 O ( ϕ ( Q ) ϕ ( K ) T M D W C ) V M e q V O(\phi(Q)\phi(K)^TM_{DWC})VM_{eq}V O(ϕ(Q)ϕ(K)TMDWC​)VMeq​V M D W C M_{DWC} MDWC​是深度卷积的稀疏矩阵 M e q M_{eq} Meq​对应于注意力矩阵因为 M D W C M_{DWC} MDWC​是满秩所以 M e q M_{eq} Meq​大概率也满秩。 为了更好地说明我们在DeiT-Tiny上进行了类似的修改。通过附加的DWC模块注意图在线性注意中的秩可以恢复到全秩196/196如图5©所示从而保持特征多样性作为原来的Softmax注意。 模块构成 我们的模块可以表述为 O S i m ( Q , K ) V ϕ p ( Q ) ϕ p ( K ) T V D W C ( V ) OSim(Q,K)V\phi_p(Q)\phi_p(K)^TVDWC(V) OSim(Q,K)Vϕp​(Q)ϕp​(K)TVDWC(V)
http://www.tj-hxxt.cn/news/133419.html

相关文章:

  • 有哪些可以做调查的网站濮阳做网站推广的公司
  • 徐州建站互联网营销模式
  • 潍坊网站建设SEO优化做流量任务的试用网站
  • 采购网站大全app设计欣赏网站
  • 如何百度搜索到自己的网站网站被黑了
  • 全国新农村建设中心网站怎样做同城配送网站
  • 网站备案完成后品牌设计logo
  • 平面设计专用网站网站建设 选择题
  • 可以做砍价活动的网站如何用源代码提取网页的图片
  • 网站图片展示代码最新新闻事件摘抄
  • 空间网站wordpress底部漂浮
  • 大连开发区做网站投广告的平台有哪些
  • 电子商务网站建设训练总结seo搜索优化服务
  • 信息科技公司网站怎么做做网站开发公司
  • 河南省住房与城乡建设部网站电子商务企业网站的推广方式
  • 网站开发开票内容专业网站制作公司地址
  • 网站的建设费计入什么科目中职网页设计与制作教材
  • 福田网站设计公司做海外网站推广
  • 网站开发英文论文网站开发需要学
  • 忻州网站制作动漫设计学校
  • 网站开发师培训创建网站论坛
  • 浙江省工程建设质量管理协会 网站天元建设集团有限公司商票兑付情况
  • 深圳建筑设计平台网站信息流广告创意
  • 榆林做网站网站建设公司盈利分析
  • 网站底部图标wordpress打赏按钮
  • 漳州网站建设哪家好天津免费建网站
  • 做年报的网站怎么登不上去了互联网企业公司简介
  • 网站建设首选九零后网络昆明网页建站平台
  • 免费舆情网站下载大全最新版大连工业大学研究生院官网
  • 网站建设合同验收标准什么企业时候做网站