当前位置: 首页 > news >正文

东莞网站设计找谁wordpress reference

东莞网站设计找谁,wordpress reference,跨境网站开发,编程需要下载什么软件论文#xff1a;https://arxiv.org/abs/2207.10666 GitHub#xff1a;https://github.com/microsoft/Cream/tree/main/TinyViT 摘要 在计算机视觉任务中#xff0c;视觉ViT由于其优秀的模型能力已经引起了极大关注。但是#xff0c;由于大多数ViT模型的参数量巨大#x…论文https://arxiv.org/abs/2207.10666 GitHubhttps://github.com/microsoft/Cream/tree/main/TinyViT 摘要 在计算机视觉任务中视觉ViT由于其优秀的模型能力已经引起了极大关注。但是由于大多数ViT模型的参数量巨大使得其无法在资源受限的设备上运行。为了解决这个问题本文提出了TinyViT基于提出的快速蒸馏方案在大规模数据集上进行预训练的一系列小且高效的模型。核心思想是将大的预训练模型蒸馏给一个小的同时能获取海量预训练数据的红利。具体来说在预训练阶段进行蒸馏流程完成知识迁移教师模型的输出被稀疏化并存储在硬盘中来节省内存消耗和计算负担。大量实验证明TinyViT的有效性其参数量为21M在ImageNet-1K数据集上取得84.8%的top-1精度与Swin-B相比同样的精度下参数量少了4.2倍。此外通过增大网络输入分辨率TinyViT可以去的86.5%的精度比Swin-L稍微好点但参数量仅为其11%。最后实验验证了其在下游任务上具有较好的迁移能力。 模型结构 快速预训练蒸馏 如上图所示作者观察到使用大规模数据预训练小模型并不会带来性能的增益尤其是迁移到下游任务上。为了解决这个问题作者借助知识蒸馏进一步释放小模型的预训练潜力。不同于之前的工作关注微调阶段的蒸馏工作本文关注预训练阶段的蒸馏这样不仅小模型可以从大模型中学习到知识同时提高了它们对下游任务的迁移能力。 直接进行预训练蒸馏是低效且昂贵的因为大部分的计算资源消耗在教师模型的前向传播中而不是训练学生模型上。为了解决这个问题作者提出了一个快速预训练蒸馏框架。如下图所示首先将数据增强方式和教师模型的预测结果保存下来在训练阶段重用存储的信息来精确地复制前向传播过程成功地省略了教师模型的前向传播过程和内存占用。 假设输入图像为 x x x数据增强方式为 A A A例如randaugment和cutmix教师模型用 T T T表示。数据增强方式 A A A和教师模型预测结果 y ^ T ( A ( x ) ) \hat{y}T(A(x)) y^​T(A(x))将会被保存下来。需要注意的是由于数据增强具有随机性因此对于同一张图片多次通过同样的数据增强策略会得到不同的结果所以每次迭代 ( A , y ^ ) (A, \hat{y}) (A,y^​)都需要存储。 在训练阶段只需要重用 ( A , y ^ ) (A, \hat{y}) (A,y^​)并优化下面的目标函数即可 L C E ( y ^ , S ( A ( x ) ) LCE(\hat{y}, S(A(x)) LCE(y^​,S(A(x)) 其中 S ( . ) S(.) S(.)和 C E ( . ) CE(.) CE(.)分别表示学生模型和交叉墒损失函数。这个训练框架是不需要真实标签因为只使用了教师模型生成的软标签进行训练。这种无标签策略在实际中是可行的因为软标签足够正确同时携带大量用于分类的信息例如类别关系。此外当使用真实标签进行蒸馏会带来轻微的性能下降原因在于IN-21K中并不是所有的标签都是互斥的。 此外作者的蒸馏框架中应用了稀疏软标签和数据增强编码可以极大减少存储压力同时提高内存利用率。 稀疏软标签 考虑到教师模型输出 C C C维度类别数的向量如果 C C C非常大则保存全部的向量内容需要更多的存储空间例如对于IN-21K而言 C 21841 C21841 C21841。因此只保存 y ^ \hat{y} y^​中最重要的 t o p − K top-K top−K个值即可。在训练过程中只对稀疏标签进行标签平滑 当稀疏稀疏 K K K远小于 C C C时可以将逻辑值的存储量减少几个数量级。而且实验结果表明这中稀疏标签可以实现与密集标签相当的知识蒸馏性能。 数据增强编码 数据增强涉及到一组参数 d d d例如旋转角度和裁剪坐标。由于每次迭代中每个图像的 d d d是不同的直接保存它会降低内存的效率。为了解决这个问题作者通过标量参数 d 0 ξ ( d ) d_0\xi(d) d0​ξ(d)来编码 d d d其中 ξ \xi ξ表示编码器。在训练阶段从存储文件中加载 d 0 d_0 d0​然后还原 d ξ − 1 ( d 0 ) d\xi^{-1}(d_0) dξ−1(d0​)其中 ξ − 1 \xi^{-1} ξ−1表示解码器。解码器的常见选择是PCG它将单个参数作为输入并生成一系列参数。 模型结构 作者通过一个逐步模型缩减方法a progressive model contraction approach)来得到一族微小视觉transformer模型。具体而言从一个大模型开始定义一些基本的缩放因子每一次迭代通过调整缩放因子来得到一个更小的模型。选择那些既满足参数数量约束又满足吞吐量约束的模型在下一步中具有最佳精度的模型将被进一步缩减直到达成目标。 为了方便用于多尺度特征的密集预测下游任务作者采用了分层视觉transformer作为基本架构。更具体来说基础模型由分辨率逐渐降低的四个阶段组成类似Swin和LeViT。patch embedding模块由两个卷积组成卷积核大小为3步长为2padding为1。在第一阶段使用轻量且高效的MBConvs来下采样因为在开始阶段由于卷积较强的归纳偏差使用卷积层可以有效地学习低级表示。后3个阶段由transformer block组成使用窗口注意力来降低计算成本。注意力偏差和注意力与MLP之间的3✖️3深度卷积被引入来获取局部信息。所有的激活函数都是GeLU卷积层和线性层的归一化方法为BatchNorm和LayerNorm。 构建模型过程中作者考虑了如下的缩放因子 γ D 1 − 4 \gamma_{D_{1-4}} γD1−4​​4个stage的嵌入维度决定网络的宽度 γ N 1 − 4 \gamma_{N_{1-4}} γN1−4​​4个stage中block的个数决定网络的深度 γ W 2 − 4 \gamma_{W_{2-4}} γW2−4​​最后3个stage的宽口大小 γ R \gamma_{R} γR​MBConv block的channel expansion ratio γ M \gamma_{M} γM​transformer blocks中MLP的expansion ratio γ E \gamma_{E} γE​multi- head attention中每个head的维度 所有模型中相同的缩放因子为 γ N 1 , γ N 2 , γ N 3 , γ N 4 2 , 2 , 6 , 2 {\gamma_{N_1},\gamma_{N_{2}},\gamma_{N_{3}},\gamma_{N_{4}}}{2,2,6,2} γN1​​,γN2​​,γN3​​,γN4​​2,2,6,2 γ W 2 , γ W 3 , γ W 4 7 , 14 , 7 {\gamma_{W_{2}},\gamma_{W{3}},\gamma_{W_{4}}}{7,14,7} γW2​​,γW3​,γW4​​7,14,7和 γ R , γ M , γ E , 4 , 4 , 32 {\gamma_{R},\gamma_{M},\gamma_{E},}{4,4,32} γR​,γM​,γE​,4,4,32。对于嵌入向量 γ D 1 , γ D 2 , γ D 3 , γ D 4 {\gamma_{D_1},\gamma_{D_{2}},\gamma_{D_{3}},\gamma_{D_{4}}} γD1​​,γD2​​,γD3​​,γD4​​TinyViT-21M为{96, 192, 384, 576} TinyViT-11M为{64, 128, 256, 448} TinyViT-5M为{64, 128, 160, 320}。 效果分析 在本节中作者对两个关键问题进行分析和讨论 限制小模型适应大规模数据的潜在原因是什么为什么蒸馏可以帮助小模型释放大规模数据的潜力 为了回答上述问题作者在ImageNet-21K上进行了实验该数据集包含14M图像和21841个类别。 限制小模型适应大规模数据的潜在原因是什么 作者发现在IN-21K中存在很多困难样本例如图像对应标签错误相似图像有不同标签等。众所周知IN-21K中大约有10%的样本是困难样本。小模型难以适应这些困难样本导致与大模型相比训练精度较低TinyVit-21M: 53.2%和Swin-L-197M: 57.1%同时在IN-1K上的可迁移性有限(TinyViT-21M w/ pretraining: 83.8% 和 w/o pretraining: 83.1%)。 如上图所示为了验证困难样本的影响作者使用如下两种技术 使用IN-21K微调预训练模型Florence然后推理IN-21K对于预测结果不在top-5之内的那些图像定义为困难样本。通过这种方式从IN-21K中移除了大约2M图像约14%。然后在清理后的数据集上预训练TinyViT-21M和Swin-T。使用Florence作为教师模型来执行预训练蒸馏训练TinyViT-21M和Swin-T使用其生成软标签来代替IN-21K中被污染的GT标签得到在IN-1K上进行微调的结果。 从上图的结果可以得出如下结论 在原始的IN-21K上预训练小模型在IN-1K上微调的增益微乎其微当移除部分困难样本之后小模型可以更好的利用大数据并实现更高的性能增益知识蒸馏方案可以避免检测困难样本因为它不使用GT标签而GT标签的不合适才是样本属于困难样本的主要原因因此它可以获得更高的性能提升。 为什么蒸馏可以帮助小模型释放大规模数据的潜力 答案是学生模型可以直接从教师模型那里学习到高级知识。具体来说教师在训练学生时注入类之间的关系同时过滤学生模型的噪声标签。 为了分析教师模型预测的类别关系作者从总共21841个类别的IN-21K中为每个类别选择8张图像。这些图像被送入到Florence来的道预测逻辑值并画出预测逻辑上勒见Pearson相关稀疏的热力图。 如上图1(a)所示相似或者相关类别之间有高相关性不同类别可以被区分表明教师模型的预测结果确实包含类别关系。在(b)和©中比较了是否采用蒸馏法的Pearson相关性。分析对角线结构作者发现当不使用蒸馏技术时候对角线的结构会更不明显说明小模型更难捕获类间关系。但是蒸馏可以引导学生模型模仿教师模型的行为从而更好地从大数据中挖掘知识。 实验结果 实验细节 ImageNet-21K的预训练TinyViT在ImageNet-21K上预训练90个epoch具体参数设置如下 优化器AdamW权重衰减系数0.01学习率初始学习率为0.002warmup 5个epoch余弦衰减方案batch size为4096梯度裁剪设置为最大norm5随机深度TinyViT/11M为021M为0.1 从上一步预训练模型进行ImageNet-1K微调将预训练模型在ImageNet-1K上进行微调 ImageNet-1K高分辨率微调进一步提高输入分辨率微调TinyViT 知识蒸馏预先保存教师模型在ImageNet-1K上的top-100预测值包括Swin-L, BEiT-L, CLIP-ViT-L/14和Florence。 消融实验 预训练蒸馏方案的影响如下图所示相比于从头开始训练进行预训练但不做蒸馏取得的增益十分有限如0.8%/0.6%/0.7% for DeiT-Ti/DeiT-S/Swin-T。使用快速蒸馏方案分别可以提高2.2%/2.1%/2.2%。结果表明预训练蒸馏方案可以使得小模型可以从大规模数据中获利更多。 预训练数据规模的影响如下图所示TinyVIT-5M/21M在不同预训练数据规模上结果的影响。使用IN-21K的数据进行预训练CLIP- ViT- L/14作为教师模型最后在IN-1K上进行微调可以得出预训练蒸馏方案在不同的数据大小上都能带来性能增益。 稀疏化大小的影响使用Swin- L作为教师模型TinyViT-21M作为学生模型在IN-1K和IN-21K上都观察到精度随着稀疏逻辑值K的数增加而提高直到饱和。这个观察符合现有工作对知识蒸馏的认知教师模型的输出中除了有类别关系还包含噪声。为了在有限的空间下获得相当的精度作者选择稍大的K在IN-1K中K101% logits在IN-21K上K1000.46% logits分别需要16GB/48GB的存储空间。 教师模型的影响作者同时评估了教师模型对预训练蒸馏的影响。如下图所示更好的教师可以产生更好的学习模型。但是较好的教师模型通常模型尺寸较大导致GPU内存消耗高且时间长。 图像分类结果 下游任务 线性探测 如下图所示测试了4种不同训练设计下性能对比可以发现预训练蒸馏可以提升TinyViT线性探测的能力。此外当在更大规模的数据上训练时有更好的表现。 少样本学习 如上图所示同样可以观察到预训练蒸馏下TinyViT能取得更好的效果除了ChestX数据集因为它是一个灰度医学图像与自然图像存在较大差距。 目标检测 以Swin-T的Cascade R-CNN作为基准在相同的训练策略下TinyViT取得更好的成绩高1.5%当应用预训练蒸馏法后还能额外取得0.6%的增益。结果表明预训练蒸馏方案对于小模型在下游任务上的迁移能力也是有效的。 结论 本文基于提出的预训练蒸馏方案发布了一个小且有效的视觉ViT模型TinyViT。大量的实验表明TinyViT在ImageNet-1K上的高效性以及在下游任务上的迁移能力。在接下来的工作中将考虑使用更多数据和更好的教师模型来解锁小模型的能力。设计一个高效的模型缩放方法来生成具有较好性能的小模型是另外一个有趣的研究方向。 Vision Transformer 超详细解读 (原理分析代码解读) (二十八)
文章转载自:
http://www.morning.xltdh.cn.gov.cn.xltdh.cn
http://www.morning.nqbs.cn.gov.cn.nqbs.cn
http://www.morning.wkknm.cn.gov.cn.wkknm.cn
http://www.morning.cryb.cn.gov.cn.cryb.cn
http://www.morning.yjknk.cn.gov.cn.yjknk.cn
http://www.morning.nlrp.cn.gov.cn.nlrp.cn
http://www.morning.nfqyk.cn.gov.cn.nfqyk.cn
http://www.morning.rhsr.cn.gov.cn.rhsr.cn
http://www.morning.pbxkk.cn.gov.cn.pbxkk.cn
http://www.morning.zydr.cn.gov.cn.zydr.cn
http://www.morning.rkypb.cn.gov.cn.rkypb.cn
http://www.morning.srbmc.cn.gov.cn.srbmc.cn
http://www.morning.pqnkg.cn.gov.cn.pqnkg.cn
http://www.morning.qdcpn.cn.gov.cn.qdcpn.cn
http://www.morning.mwrxz.cn.gov.cn.mwrxz.cn
http://www.morning.ylklr.cn.gov.cn.ylklr.cn
http://www.morning.mwbqk.cn.gov.cn.mwbqk.cn
http://www.morning.zcwzl.cn.gov.cn.zcwzl.cn
http://www.morning.gtdf.cn.gov.cn.gtdf.cn
http://www.morning.rbgqn.cn.gov.cn.rbgqn.cn
http://www.morning.pdbgm.cn.gov.cn.pdbgm.cn
http://www.morning.jwncx.cn.gov.cn.jwncx.cn
http://www.morning.gkgb.cn.gov.cn.gkgb.cn
http://www.morning.wzwpz.cn.gov.cn.wzwpz.cn
http://www.morning.yhpl.cn.gov.cn.yhpl.cn
http://www.morning.kfysh.com.gov.cn.kfysh.com
http://www.morning.tmnyj.cn.gov.cn.tmnyj.cn
http://www.morning.llfwg.cn.gov.cn.llfwg.cn
http://www.morning.wfttq.cn.gov.cn.wfttq.cn
http://www.morning.sh-wj.com.cn.gov.cn.sh-wj.com.cn
http://www.morning.xnyfn.cn.gov.cn.xnyfn.cn
http://www.morning.tqxtx.cn.gov.cn.tqxtx.cn
http://www.morning.fmswb.cn.gov.cn.fmswb.cn
http://www.morning.pmdnx.cn.gov.cn.pmdnx.cn
http://www.morning.jrwbl.cn.gov.cn.jrwbl.cn
http://www.morning.splkk.cn.gov.cn.splkk.cn
http://www.morning.lbrrn.cn.gov.cn.lbrrn.cn
http://www.morning.bpmdz.cn.gov.cn.bpmdz.cn
http://www.morning.tgfsr.cn.gov.cn.tgfsr.cn
http://www.morning.ummpdl.cn.gov.cn.ummpdl.cn
http://www.morning.rwmqp.cn.gov.cn.rwmqp.cn
http://www.morning.ryrgx.cn.gov.cn.ryrgx.cn
http://www.morning.jthjr.cn.gov.cn.jthjr.cn
http://www.morning.qxmnf.cn.gov.cn.qxmnf.cn
http://www.morning.xfmwk.cn.gov.cn.xfmwk.cn
http://www.morning.sooong.com.gov.cn.sooong.com
http://www.morning.pctql.cn.gov.cn.pctql.cn
http://www.morning.pttrs.cn.gov.cn.pttrs.cn
http://www.morning.trrrm.cn.gov.cn.trrrm.cn
http://www.morning.fwcjy.cn.gov.cn.fwcjy.cn
http://www.morning.xpmwt.cn.gov.cn.xpmwt.cn
http://www.morning.ggnkt.cn.gov.cn.ggnkt.cn
http://www.morning.fwnqq.cn.gov.cn.fwnqq.cn
http://www.morning.fbpyd.cn.gov.cn.fbpyd.cn
http://www.morning.mgmqf.cn.gov.cn.mgmqf.cn
http://www.morning.lwmzp.cn.gov.cn.lwmzp.cn
http://www.morning.frxsl.cn.gov.cn.frxsl.cn
http://www.morning.fbmzm.cn.gov.cn.fbmzm.cn
http://www.morning.rqnzh.cn.gov.cn.rqnzh.cn
http://www.morning.fldsb.cn.gov.cn.fldsb.cn
http://www.morning.gbybx.cn.gov.cn.gbybx.cn
http://www.morning.kfstq.cn.gov.cn.kfstq.cn
http://www.morning.tlnbg.cn.gov.cn.tlnbg.cn
http://www.morning.qgghr.cn.gov.cn.qgghr.cn
http://www.morning.tnjkg.cn.gov.cn.tnjkg.cn
http://www.morning.jhwwr.cn.gov.cn.jhwwr.cn
http://www.morning.zfcfk.cn.gov.cn.zfcfk.cn
http://www.morning.gydth.cn.gov.cn.gydth.cn
http://www.morning.ktntj.cn.gov.cn.ktntj.cn
http://www.morning.wqgr.cn.gov.cn.wqgr.cn
http://www.morning.xmnlc.cn.gov.cn.xmnlc.cn
http://www.morning.mkxxk.cn.gov.cn.mkxxk.cn
http://www.morning.pfkrw.cn.gov.cn.pfkrw.cn
http://www.morning.ydrfl.cn.gov.cn.ydrfl.cn
http://www.morning.nzcys.cn.gov.cn.nzcys.cn
http://www.morning.lxthr.cn.gov.cn.lxthr.cn
http://www.morning.tkfnp.cn.gov.cn.tkfnp.cn
http://www.morning.wbyqy.cn.gov.cn.wbyqy.cn
http://www.morning.rmqmc.cn.gov.cn.rmqmc.cn
http://www.morning.qcfcz.cn.gov.cn.qcfcz.cn
http://www.tj-hxxt.cn/news/260136.html

相关文章:

  • 网站建设公司公司我我提供一个平台APP编辑WordPress
  • pc端网站开发技术现在建网站还能赚钱吗
  • 怎么把做的网站发到网上去大型用户网站建设
  • 网站建设如何更改背景图片wordpress站多久有排名
  • 还有什么类似建设通的网站镇江做网站要多少钱
  • 网站首页背景图片南阳建网站公司
  • 陕西启康建设有限公司网站手机网站建站价格
  • 公司做网站主机是什么用途问政烟台网站
  • 山东滨州有多少网站开发公司网站建设餐饮
  • 网站聚合页面cookies因预料之外的输出被阻止 wordpress
  • 制作网站代码吗广州天河区租房
  • 龙岩建网站电脑培训零基础培训班
  • 哪些企业会考虑做网站去后台更新一下网站
  • 网站seo快速排名软件一个空间只能放一个网站吗
  • wordpress国外主题网站达内
  • 虚拟币挖矿网站开发沈阳想做网站
  • 有域名如何做免费网站房地产市场规模
  • 优质网站建设价格油田公司健康企业建设
  • 网站建设制作设计开发福建全国公共建筑信息平台
  • 展示型网站怎么做淘宝刷单网站制作
  • 网站创意模板信息发布平台推广
  • 主流的网站开发框架建设工程合同网站
  • 太原医疗网站建设云主机和云电脑的区别
  • wordpress怎么写网站关键词和描述站群网站建设推广
  • 东丽区做网站网页个人主页
  • 徐州市住房和城乡建设局网站首页如何建立微信网站
  • 音乐外链网站高邮做网站
  • 上海徐汇网站建设公司网络服务器性能
  • 电影网站做cpa用什么软件做动漫视频网站好
  • 怎样制作网站?免费淘宝客网站建设