当前位置: 首页 > news >正文

做四级题目的网站昆明网站优化排名推广

做四级题目的网站,昆明网站优化排名推广,html5移动端网站开发,wordpress 不显示分类中的某篇文章论文阅读笔记#xff1a;Towards Higher Ranks via Adversarial Weight Pruning 1 背景2 创新点3 方法4 模块4.1 问题表述4.2 分析高稀疏度下的权重剪枝4.3 通过SVD进行低秩逼近4.4 保持秩的对抗优化4.5 渐进式剪枝框架 5 效果5.1 和SOTA方法对比5.2 消融实验5.3 开销分析 6 结… 论文阅读笔记Towards Higher Ranks via Adversarial Weight Pruning 1 背景2 创新点3 方法4 模块4.1 问题表述4.2 分析高稀疏度下的权重剪枝4.3 通过SVD进行低秩逼近4.4 保持秩的对抗优化4.5 渐进式剪枝框架 5 效果5.1 和SOTA方法对比5.2 消融实验5.3 开销分析 6 结论 论文https://arxiv.org/pdf/2311.17493 代码https://github.com/huawei-noah/Efficient-Computing/tree/master/Pruning/RPG 1 背景 虽然结构化剪枝可以带来较大的运行时加速收益但其性能远低于非结构化剪枝。 在高度稀疏的情况下作者观察到非结构化剪枝会退化成结构化剪枝。当权重具有较大比例的零时极有可能出现一个结构化的模式其中整个通道或滤波器几乎被完全剪枝。因此现有的权重剪枝方法在高稀疏度下会遇到性能急剧下降的情况。 作者通过比较两种剪枝方法受到启发提出在权重剪枝中减少结构模式。结构化剪枝实际上是深度卷积网络中权重秩的降低因此可以采用秩作为平衡非结构化稀疏权重“结构化”程度的指标如果一个系数权重的秩较低则认为它是高度结构化的。为了避免非结构化剪枝过于结构化希望在剪枝时保持高稀疏度下的权重秩。 2 创新点 基于秩改进的目标作者提出了一种基于对抗秩的剪枝方法Rank-based PruninG, RPG。 3 方法 首先通过最小化近似误差来找到权重的低秩近似。通过奇异值分解找到最佳低秩逼近。其次为了提高权重秩最大化权重与其低秩对应的权重之间的距离来提高权重秩。这种基于对抗秩的优化目标将稀疏权重引导到一个高秩拓扑上。所提出的方法以逐步修剪的方式进行以稳定训练过程中的秩变化。通过在图像分类和下游任务上的大量实验评估了所提出的RPG方法的优势图1表明与基线相比本文方法获得了矩阵秩优势。 4 模块 4.1 问题表述 在传统的有监督神经网络学习方面给定一个目标损失函数 L L L 神经网络权重 W W W 和 输入输出对 X { x i } i 1 , … n , Y { y i } i 1 , … n X\{x_i\}_{i1,…n},Y\{y_i\}_{i1,…n} X{xi​}i1,…n​,Y{yi​}i1,…n​神经网络权重 W W W 训练过程可表述为 权重剪枝限制了权重 W W W 中非零权重的总数或者在数学意义上权重剪枝对神经网络施加 l 0 l_0 l0​ 范数约束。给定稀疏度预算约束描述为 一种常见的做法就是用权重张量 W W W 和二值化掩膜 M M M 计算点积重参化权重 W W W。二值化掩码 M M M 具有与 W W W 相同的形状M中的每个元素代表其在 W W W 中的对应参数是否被剪枝。在重参化后权重剪枝问题被形式化为 在非结构化剪枝的高稀疏度下稀疏网络的秩可能会大幅降低。 4.2 分析高稀疏度下的权重剪枝 非结构化剪枝和结构化剪枝是两种主要的剪枝方法。在非结构化剪枝实践中CNN的权重张量以细粒度的方式被剪枝每个孤立的权重参数可以在网络内部关闭(即设为零)但整个权重张量结构保持不变。相比之下结构化剪枝侧重于过滤器的剪枝过滤器作为剪枝过程中最小的可剪枝单元被截断。通过比较相同稀疏度预算下的两种剪枝范式说明在相同的剪枝预算下非结构化剪枝比结构化剪枝的效果要好得多。 这一现象可以从矩阵秩的角度进行解释。实际上结构化剪枝是对权重矩阵的直接降秩即过滤器剪枝本质上是低秩的权重剪枝。矩阵的秩表示矩阵所包含信息量的上界。一个强大的网络应该具有丰富的信息作者希望稀疏网络的特征具有较高的秩。特征的秩与稀疏权重矩阵的秩密切相关因为式2.4描述了矩阵乘法中秩的关系 从式中可以看出当直接影响权重 W W W 的秩进行过滤器剪枝时输出特征的秩也会降低从而导致信息丰富度急剧损失。另一方面非结构化剪枝摆脱了过滤器剪枝的结构约束从而保留了更多的信息量。 当稀疏度较高时非结构化剪枝部分退化为结构化剪枝。当权重被大比例的填充零时形成“准结构化”的稀疏权重模式。图1中矩阵秩的基线评估说明了这一问题。因此现有的权重剪枝方法在高稀疏度下通常会遇到性能急剧下降的情况。受两类剪枝性质的启发作者提出在非结构化剪枝中减少结构化模式从而在高稀疏度下保持权重排序。 4.3 通过SVD进行低秩逼近 既然权重的秩在权重剪枝中很重要那么就需要一种方法来计算深度神经网络中的秩。由于权重值总是离散的作为备选解作者收敛到一个近似的秩而不是计算一个精确的秩。因此定义近似秩如下 定义1矩阵的 δ \delta δ 秩 : 给定一个矩阵 W W W 和一个小的误差容忍度 δ 0 \delta0 δ0 W W W 的 δ \delta δ 秩定义为最小的正整数 k k k使得存在一个 k k k 秩矩阵它到 W W W 的 l 2 l_2 l2​ 距离小于 δ \delta δ。 在之前的工作中秩是通过奇异值分解计算奇异值来评估的。作者利用SVD计算定义1中的 δ \delta δ 秩。首先说明SVD可以产生最佳的低秩近似 定理1最佳低秩近似假设 W W W 通过SVD分解并令 W ∑ i 1 r σ i u i v i T W\sum_{i1}^r\sigma_iu_iv_i^T W∑i1r​σi​ui​viT​其中奇异值 { σ i } \{\sigma_i\} {σi​} 按降序排序。给定整数 k r kr kr W W W 的最佳 k k k 秩逼近即与 W W W 有最小 l 2 l_2 l2​ 距离的 k k k 秩矩阵为 由于SVD可以得到更好的低秩逼近可以利用这个性质来求解定义1中的 δ \delta δ 秩。给定权重矩阵 W W W寻找最小的 k k k 使得最佳 k k k 秩逼近 W ~ \widetilde{W} W 的 l 2 l_2 l2​ 逼近误差小于误差容忍度 δ \delta δ。附录有给出证明。 4.4 保持秩的对抗优化 与低秩逼近不同高秩矩阵是低秩矩阵难以逼近的。只要 W W W 保持它与最佳低秩逼近的距离就可以增加它的秩。因此作者设计了一种对抗机制增加 W W W 被低秩矩阵逼近的难度从而在剪枝时提高 W W W 的矩阵秩。首先通过奇异值分解生成低秩 k k k 的最佳低秩近似矩阵 W ~ \widetilde{W} W 以最小化 W ~ \widetilde{W} W 到 W W W 的距离。然后对 W W W 进行优化增加 W W W 与 W ~ \widetilde{W} W 的距离。这个过程可以理解为 W W W 与 W ~ \widetilde{W} W 之间的对抗当低秩的 W ~ \widetilde{W} W 试图拟合 W W W 时 W W W 被优化以保持自身原理 W ~ \widetilde{W} W 。从数学上讲这个对抗可以被表述为一个 min-max 问题。 但不幸的是这个问题可能面临着无法收敛的风险。因为当 W ~ \widetilde{W} W 固定时 W → ∞ W→∞ W→∞最佳。为了在优化过程中解决这个问题作者将 W W W 限制在一个欧式范数球内。换句话说作者将 W ∣ ∣ W ∣ ∣ F \frac{W}{||W||_F} ∣∣W∣∣F​W​ 代替 W W W 代入问题。这里使用 l 2 l_2 l2​ 标准化的原因是1. W W W 是有界的而不是增长达无穷大的2.在优化 min-max 问题时如果对 W W W 进行 l 2 l_2 l2​ 归一化 W W W 的秩可以增加定理2中有证明。3.对权重进行 l 2 l_2 l2​ 归一化等价于对其奇异值进行 l 2 l_2 l2​ 归一化在给定固定误差容忍度的情况下根据定义1中秩的定义为秩提供了比较公平的准则。 在介绍这个 min-max 问题之前引入几个符号 ∣ ∣ ⋅ ∣ ∣ F ||·||_F ∣∣⋅∣∣F​ 是矩阵的2范数。 I I I 是恒等矩阵 W ‾ : W ∣ ∣ W ∣ ∣ \overline{W} : \frac{W}{||W||} W:∣∣W∣∣W​ 是 l 2 l_2 l2​ 标准化权重矩阵 W W W U , Σ , V U, \Sigma, V U,Σ,V 为 SVD 分解 W W W 得到的矩阵其中 U { u 1 , u 2 , … } U\{u_1,u_2,…\} U{u1​,u2​,…} 和 V { v 1 , v 2 , … } V\{v_1,v_2,…\} V{v1​,v2​,…} 为正交基 Σ \Sigma Σ 为对角矩阵其中奇异值 { σ 1 , σ 2 , … } \{\sigma_1,\sigma_2,…\} {σ1​,σ2​,…} 在对角线上按降序排列。算子 T r u n ( U Σ V T ) ∑ i 1 k σ i u i v i T Trun(U\Sigma V^T)\sum_{i1}^k\sigma_iu_iv_i^T Trun(UΣVT)∑i1k​σi​ui​viT​ 表示 k k k 阶截断SVD或 W W W 的 k k k 阶最佳逼近。min-max问题形式化的表示如下 优化目标被定义为对抗秩损失 在这个情况下作者提出如下定理即对抗秩损失可以引导权重 W W W 向更高阶的方向移动 定理2对抗秩损失的有效性 给定方程( 2.6 )中定义的对抗秩损失如果通过梯度下降来优化秩损失中的W那么W的秩将会增加。附录有给出证明 利用提出对抗秩损失优化目标包括两个方面1. 针对某个任务如分类检测等减少损失已提高稀疏网络的性能2.通过减少秩损失来获得更高的权重秩。给定复合超参 λ \lambda λ Rank-based PruninG(RPG)的优化目标 L L L 可以定义为 4.5 渐进式剪枝框架 之前的工作已经提出了各种剪枝框架作者认为渐进式剪枝Gradual Pruning,GP可以再适中的训练预算下达到更好的性能所以将其作为剪枝框架。GP在每次训练过程中修剪掉一小部分权重试图通过迭代的“剪枝和训练”过程来保持稀疏的网络性能。 本文的PRG方法过程如下没经过 Δ T \Delta T ΔT 就执行更新二进制掩码M的剪枝-生成过程使得经过掩码更新后整个网络在当前迭代时达到目标稀疏度。随着训练的进行目标稀疏度会逐渐增加这与GP相同。其次对所有参数进行基于重要性的全局排序代码里使用L1范数并执行剪枝。最后基于梯度进行参数生成。对于其他训练步骤(指出了剪枝阶段的finetune阶段)掩码M保持不变对活跃的权重值进行更新。具体见算法1。 关于基于梯度进行参数生长代码如下 score_grow self.backward_hook_objects[l].dense_grad score_grow torch.abs(score_grow) score_grow score_grow.view(-1) # mask1是二值化掩膜形状和M一样权重的L1范数前α比例的位置为1其他位置为0 score_grow_lifted torch.where(mask1 1, torch.ones_like(mask1) * (torch.min(score_grow) - 1),score_grow) # mask2是二值化掩膜形状和M一样score_grow_lifted前α比例的位置为1其他位置为0 mask_combined torch.reshape(mask1 mask2, current_mask.shape).bool()5 效果 5.1 和SOTA方法对比 在InageNet上不同稀疏度剪枝下的效果如表2。 在ImageNet上的计算量和准确率如图3。 Deep Sparse是最近提出的一种CPU上的稀疏加速框架。将ResNet50在Deep Sparse上进行时间稀疏。在CPU上的准确率和耗时如表3。 对MaskRCN进行剪枝后在COCO val2017数据集上的效果如表4。 对基于transformer的模型本文的方法虽然没有专门为注意力机制设计但在DeiT-S上也取得了很好地效果如表5。 5.2 消融实验 关于超参 λ \lambda λ 的消融实验如图4。 5.3 开销分析 RPG涉及昂贵的SVD计算。然而作者进行了实验并说明在时间和FLOP方面SVD在剪枝过程中所占的成本开销非常小。如表6所示SVD计算的总体时间和FLOPs仅占整个RPG剪枝成本的 2 %。作者还比较了RPG与其他剪枝方法的FLOPs开销。从表7可以观察到与基线相比本文方法是最具有成本效益的。最重要的是秩损失计算带来的额外开销并不是一个值得关注的问题。 6 结论 非结构化剪枝对GPU设备的加速效果非常有限。
http://www.tj-hxxt.cn/news/218351.html

相关文章:

  • 企业手机网站模板下载山西住房与城乡建设厅定额网站
  • 精品课网站建设 辽宁怎样进行站点优化
  • 建设物流网站的规划温州高端网站建设
  • 网站建设迅雷网站开发网站设计制作
  • 做网站建设的怎么赢利成都有哪些好玩的地方
  • 南京玄武网站建设网站策划要遵循的原则
  • 精品建站泉州网页建站模板
  • 织梦网站名称修改建立网站准备工作
  • 瓯北网站制作公司帝国网站管理系统后台eclassconfig.php不存在
  • 咋创建自己的网站手表交易网站
  • 江苏省交通建设厅门户网站wordpress c7v5
  • 安徽徐州网站建设公司网站开发报价文件
  • asp 做网站那种类型的网站可以自己做也可以赚钱
  • 票务网站开发端口房地产销售工作总结
  • 网站建设与维护前景网站外链建设设计
  • 狮山做网站郑州贴吧
  • 网站建设哪家服务周到wordpress古腾堡编辑器如何使用
  • 临沂网站建设推广网站要怎么样做排名才上得去
  • 沈阳怎么做网站物流公司网站源码
  • 网络营销中网站建设的策略北京尚层装饰总部电话
  • 网站旁边的小图标怎么做的一级直播
  • 阜阳集团网站建设唐山建设网站
  • wordpress安装到网站天眼查企业信息查询平台官网
  • app怎样下载安装广州建站优化公司
  • php和asp.net建立电商网站比较网站建设咨询什么
  • 创研科技网站南昌营销网站开发
  • 上海市政建设有限公司网站网站开发需多少钱
  • 名站在线网站做彩票
  • 直播网站开发需要多少钱自己开发一个app
  • 做网站云服务器还是云虚拟主机河北利用关键词优化网页