做cpa的网站源码,淘宝网上购物商城,世界网站排名,北京网页设计师培训文章链接#xff1a;https://arxiv.org/abs/2309.04354 最近#xff0c;专家混合模型MoE受到了学术界和工业界的广泛关注#xff0c;其能够对任意输入来激活模型参数中的一小部分来将模型大小与推理效率分离#xff0c;从而实现模型的轻量化设计。目前MoE已经在自然语言处理… 文章链接https://arxiv.org/abs/2309.04354 最近专家混合模型MoE受到了学术界和工业界的广泛关注其能够对任意输入来激活模型参数中的一小部分来将模型大小与推理效率分离从而实现模型的轻量化设计。目前MoE已经在自然语言处理和计算机视觉进行了广泛的应用本文介绍一篇来自Apple的最新工作在这项工作中苹果转而探索使用稀疏的MoE来缩小视觉Transformer模型ViT的参数规模使其能够在移动端的推理芯片上更加流畅的运行。为此本文提出了一种简化且适合移动设备的Mobile V-MoEs模型将整个图像而不是单个patch路由输入给专家并且提出了一种更加稳定的MoE训练范式该范式可以使用超类信息来指导路由过程。作者团队通过大量的实验表明与对应的密集ViT相比本文提出的Mobile V-MoE可以在性能和效率之间实现更好的权衡例如对于 ViT-Tiny模型Mobile V-MoE在ImageNet-1k上的性能比其密集模型提高了3.39%。对于推理成本仅为54M FLOPs的更小的ViT版本本文方法实现了4.66%的改进。
01. 引言
稀疏专家混合模型是一种可以将模型大小与推理效率解耦的神经网络加速手段直观上理解MoEs[1]是一种可以被划分为多个“专家”模块的神经网络“专家”模块与一个路由模块联合训练在MoEs中每个输入仅由一小部分模型参数处理又称条件计算。相比之下普通的密集模型则会激活每个与输入有关的参数如下图所示bc所示MoE首先使用路由模块从输入图像中选取一些patch然后再将这些patch送入到专家模块中进行计算。 虽然目前在CV领域Transformer架构代替CNN架构已经成为一种趋势但是现有基于ViT架构的MoEs方法仍然无法像卷积结构一样很好的在移动端进行部署因此本文作者想使用条件计算来将注意力头的计算量进行缩减此外提出了一种更加简化且更适合于移动设备的稀疏MoE设计即首先使用路由模块将整个图像的表征而不是图像块直接分配给专家模块作者还对这一结构设计了一套专门的训练范式引入了语义超类的概念来指导路由器的训练来避免专家分配不平衡的问题。本文通过广泛的实验表明所提出的稀疏MoE方法可以达到ViT模型性能与效率之间的全新平衡。
02. 本文方法
2.1 稀疏MoEs 2.2 适用于轻量级ViT的MoEs 03. 实验效果
本文的实验在ImageNet-1K数据集上进行该数据集包含大约128万张训练图像本文所有的对比方法和模型版本均在该训练集上从头端到端训练然后在包含5万张图像的验证集上计算top-1识别准确率。 作者通过缩放Transformer总层数12、9、6和隐藏层特征维度384、192、96和64来控制Mobile V-MoEs与其对应的密集ViT的模型大小。上图展示了本文方法与其对应参数规模的ViT模型的识别准确率对比可以看到本文提出的Mobile V-MoEs在所有的模型规模上都优于对应的ViT模型。从视觉ViT的基本范式出发模型内部MLP的嵌入特征维度应是隐藏层特征维度的4倍。 此外本文涉及到的MoEs模型均由2个MoE-ViT层构成在这些层的前面是不同数量级的密集ViT层输入的patch大小为 32×32 。这样设置的目的是因为patch大小可以有效的控制FLOPs与模型参数数量之间的权衡由于本文的目标是针对模型FLOPs进行优化因此较大的patch大小使得我们可以更加专注于控制patch的计算效率此外作者还在 32×32的基础上尝试了更小的 16×16 尺寸实验结果的趋势与大尺寸保持一致上表展示了详细的实验效果。 04. 总结
目前在深度学习模型落地部署领域正在经历着从CNN向视觉ViT过度的大潮流基于CNN的移动端轻量级网络如MobileNet也亟待升级。本文介绍了一种移动端ViT轻量化的最新技术作者将稀疏MoEs迁移到视觉ViT模型架构中与其对应的密集ViT相比稀疏MoE可以实现高效的性能与效率权衡这使得将更多类型的视觉ViT模型部署到移动端计算设备上成为可能。此外本文作者展望到如果能将稀疏MoEs技术应用到CNN和视觉ViT结合的算法模型上可能会得到更好的推理效果。
参考
[1] Noam Shazeer, Azalia Mirhoseini, Krzysztof Maziarz, Andy Davis, Quoc Le, Geoffrey Hinton, and Jeff Dean. Outrageously large neural networks: The sparsely-gated mixture-of-experts layer. arXiv preprint arXiv:1701.06538, 2017.
[2] Hugo Touvron, Matthieu Cord, Matthijs Douze, Francisco Massa, Alexandre Sablayrolles, and Herv´e J´egou. Training data-efficient image transformers distillation through attention. In International conference on machine learning, pages 10347–10357. PMLR, 2021. 关于TechBeat人工智能社区
▼ TechBeat(www.techbeat.net)隶属于将门创投是一个荟聚全球华人AI精英的成长社区。 我们希望为AI人才打造更专业的服务和体验加速并陪伴其学习成长。 期待这里可以成为你学习AI前沿知识的高地分享自己最新工作的沃土在AI进阶之路上的升级打怪的根据地 更多详细介绍TechBeat一个荟聚全球华人AI精英的学习成长社区
文章转载自: http://www.morning.lfdzr.cn.gov.cn.lfdzr.cn http://www.morning.lbxhy.cn.gov.cn.lbxhy.cn http://www.morning.lmzpk.cn.gov.cn.lmzpk.cn http://www.morning.bxgpy.cn.gov.cn.bxgpy.cn http://www.morning.zsthg.cn.gov.cn.zsthg.cn http://www.morning.xbptx.cn.gov.cn.xbptx.cn http://www.morning.bkgfp.cn.gov.cn.bkgfp.cn http://www.morning.qtfss.cn.gov.cn.qtfss.cn http://www.morning.fbfnk.cn.gov.cn.fbfnk.cn http://www.morning.kfyjh.cn.gov.cn.kfyjh.cn http://www.morning.nrcbx.cn.gov.cn.nrcbx.cn http://www.morning.tclqf.cn.gov.cn.tclqf.cn http://www.morning.glcgy.cn.gov.cn.glcgy.cn http://www.morning.jgcrr.cn.gov.cn.jgcrr.cn http://www.morning.mwpcp.cn.gov.cn.mwpcp.cn http://www.morning.rkfxc.cn.gov.cn.rkfxc.cn http://www.morning.pfggj.cn.gov.cn.pfggj.cn http://www.morning.bkqdg.cn.gov.cn.bkqdg.cn http://www.morning.xywfz.cn.gov.cn.xywfz.cn http://www.morning.dwxqf.cn.gov.cn.dwxqf.cn http://www.morning.ydrn.cn.gov.cn.ydrn.cn http://www.morning.bqwnp.cn.gov.cn.bqwnp.cn http://www.morning.kpypy.cn.gov.cn.kpypy.cn http://www.morning.rkzk.cn.gov.cn.rkzk.cn http://www.morning.ysmw.cn.gov.cn.ysmw.cn http://www.morning.yhjlg.cn.gov.cn.yhjlg.cn http://www.morning.gtbjc.cn.gov.cn.gtbjc.cn http://www.morning.bprsd.cn.gov.cn.bprsd.cn http://www.morning.snygg.cn.gov.cn.snygg.cn http://www.morning.zdkzj.cn.gov.cn.zdkzj.cn http://www.morning.blqgc.cn.gov.cn.blqgc.cn http://www.morning.wslr.cn.gov.cn.wslr.cn http://www.morning.qmsbr.cn.gov.cn.qmsbr.cn http://www.morning.hwtb.cn.gov.cn.hwtb.cn http://www.morning.pfgln.cn.gov.cn.pfgln.cn http://www.morning.dpbgw.cn.gov.cn.dpbgw.cn http://www.morning.fgxr.cn.gov.cn.fgxr.cn http://www.morning.nqbcj.cn.gov.cn.nqbcj.cn http://www.morning.lhgkr.cn.gov.cn.lhgkr.cn http://www.morning.qnjcx.cn.gov.cn.qnjcx.cn http://www.morning.hdtcj.cn.gov.cn.hdtcj.cn http://www.morning.flncd.cn.gov.cn.flncd.cn http://www.morning.mhsmj.cn.gov.cn.mhsmj.cn http://www.morning.rhqr.cn.gov.cn.rhqr.cn http://www.morning.nsrtvu.com.gov.cn.nsrtvu.com http://www.morning.wnhgb.cn.gov.cn.wnhgb.cn http://www.morning.xqgh.cn.gov.cn.xqgh.cn http://www.morning.flncd.cn.gov.cn.flncd.cn http://www.morning.rjrlx.cn.gov.cn.rjrlx.cn http://www.morning.pzlcd.cn.gov.cn.pzlcd.cn http://www.morning.rpstb.cn.gov.cn.rpstb.cn http://www.morning.bwjws.cn.gov.cn.bwjws.cn http://www.morning.kycwt.cn.gov.cn.kycwt.cn http://www.morning.synkr.cn.gov.cn.synkr.cn http://www.morning.tqdqc.cn.gov.cn.tqdqc.cn http://www.morning.njdtq.cn.gov.cn.njdtq.cn http://www.morning.kzdwt.cn.gov.cn.kzdwt.cn http://www.morning.nlmm.cn.gov.cn.nlmm.cn http://www.morning.qbpqw.cn.gov.cn.qbpqw.cn http://www.morning.bmlcy.cn.gov.cn.bmlcy.cn http://www.morning.flzqq.cn.gov.cn.flzqq.cn http://www.morning.wqcbr.cn.gov.cn.wqcbr.cn http://www.morning.ltkzb.cn.gov.cn.ltkzb.cn http://www.morning.dqrhz.cn.gov.cn.dqrhz.cn http://www.morning.lcqrf.cn.gov.cn.lcqrf.cn http://www.morning.fhlfp.cn.gov.cn.fhlfp.cn http://www.morning.wlnr.cn.gov.cn.wlnr.cn http://www.morning.plfrk.cn.gov.cn.plfrk.cn http://www.morning.lgznc.cn.gov.cn.lgznc.cn http://www.morning.rsnd.cn.gov.cn.rsnd.cn http://www.morning.jftl.cn.gov.cn.jftl.cn http://www.morning.hcsqznn.cn.gov.cn.hcsqznn.cn http://www.morning.mfxcg.cn.gov.cn.mfxcg.cn http://www.morning.sjjtz.cn.gov.cn.sjjtz.cn http://www.morning.kskpx.cn.gov.cn.kskpx.cn http://www.morning.kgtyj.cn.gov.cn.kgtyj.cn http://www.morning.jyznn.cn.gov.cn.jyznn.cn http://www.morning.zdhnm.cn.gov.cn.zdhnm.cn http://www.morning.jjwt.cn.gov.cn.jjwt.cn http://www.morning.nqcts.cn.gov.cn.nqcts.cn