当前位置: 首页 > news >正文

宁波网站建设流程wordpress 4.0 4.6

宁波网站建设流程,wordpress 4.0 4.6,网页制作素材下载免费,网站开发多钱随着深度学习模型复杂度和数据集规模的增大#xff0c;计算效率的提升成为不可忽视的问题。然而#xff0c;算法网络的多样性、输入数据的不确定性以及硬件之间的差异性#xff0c;使得网络调优耗费巨大成本#xff0c;即使是经验丰富的专家#xff0c;也需要耗费数天的时…随着深度学习模型复杂度和数据集规模的增大计算效率的提升成为不可忽视的问题。然而算法网络的多样性、输入数据的不确定性以及硬件之间的差异性使得网络调优耗费巨大成本即使是经验丰富的专家也需要耗费数天的时间。CANNCompute Architecture for Neural Networks是华为针对AI场景推出的异构计算架构对上支持多种AI框架对下服务AI处理器与编程发挥承上启下的关键作用是昇腾AI基础软硬件平台的核心。为了在提升网络性能的同时降低巨大的人工调优成本CANN推出了自动化网络调优工具AOEAscend Optimization Engine通过构建包含自动调优策略生成、编译、运行环境验证的闭环反馈机制不断迭代最终得到最优调优策略从而在AI硬件上获得最佳网络性能。以ResNet50推理网络为例经AOE调优后的网络性能提升100%以上调优耗时不到30分钟。针对网络模型AOE分别提供了算子调优、子图调优与梯度调优的功能。其中算子调优主要针对算子的调度Schedule进行优化从而使得昇腾AI处理器的多级Buffer与计算单元形成高效的流水并发作业流充分释放硬件算力子图调优通过智能化的数据切分策略提升缓存利用率从而大幅提升计算效率梯度调优主要应用于集群训练场景下通过自动化寻找最优梯度切分策略、降低通信拖尾时间从而提升集群训练性能。同时AOE能够支持多种主流开源框架在训练和推理场景下全方位满足不同开发者的网络性能调优诉求。算子调优提升计算节点执行效率强化学习生成Vector算子最优调度策略AI处理器在计算过程中需要精心排布才能充分发挥算力计算组件间的流水排布很大一部分由调度来承载一个很小的调度操作映射到硬件行为上都可能产生巨大的差异。想要提升网络性能势必需要为给定网络在指定设备上开发一套专属的调度逻辑。网络的组成单元是算子为算子执行寻找最优的调度策略是提升网络性能的关键。昇腾AI处理器的核心计算单元是AI Core针对运行在AI Core上的算子可以分为Vector与Cube两类其中Vector算子主要负责执行向量运算Cube算子主要负责执行矩阵运算。针对Vector算子CANN采用了RL强化学习Reinforcement Learning搜索框架将算子调度过程抽象成了基于MCTS蒙特卡洛树搜索Monte Carlo Tree Search的决策链并模拟人工进行决策再通过和环境不断交互得到性能数据作为反馈值指导下一步决策。通过此方法一步步改善自身行为最终获取算子执行对应的完整最优调度策略。经过AOE调优后的Vector算子平均性能较调优前可提升10%以上平均调优时间仅需200s效率与性能都有较大提升。遗传算法提高Cube算子搜索效率我们知道在深度学习网络中包含了大量的矩阵乘计算而这部分计算在昇腾AI处理器中均通过Cube算力来承担因此Cube算子作为重型算子在网络中的影响权重较大所以针对Cube算子的性能提升会给整个网络的性能带来较大的收益。通过强化学习模式的搜索我们已经可以做到解放人力进行Vector类型的算子优化因为Vector算子的计算Buffer单一调度算法可以基于各种Schedule原语为算子构建完整的调度策略。而Cube算子涉及多块片上Buffer之间的数据交互如果按照和Vector算子相同的调优方式可能最终会因为搜索空间过大导致搜索效率低下和搜索策略不佳的结果。针对Cube算子AOE以Schedule模板为基础利用GA遗传算法Genetic Algorithm通过选择、交叉、变异等方式对影响最大的Schedule原语参数进行多轮调优从而得到候选Tiling集再根据在真实环境编译执行的性能反馈数据将候选策略进行排序得到最优策略。以卷积算子为例若人工调优需要消耗一个算子优化专家两天的时间若使用AOE智能调优平均仅需3分钟即可达到相同甚至更优的性能优化效果极大地节省了人力成本子图调优获得更智能的数据切分算子调优已经使得网络性能有了可观的提升但AOE并没有止步于此。AOE在更宏观的粒度上加入了子图调优从而实现更智能的数据切分。深度学习模型的计算往往有较大的数据吞吐数据读写往往成为网络性能的瓶颈因此对于高速缓存利用率的提升成为计算效率优化的关键手段。昇腾AI处理器中包含了高速缓存以降低外部访存的带宽压力然而由于特征图Feature Map和模型参数的数据量巨大会导致算子计算过程中的Cache命中率较低影响整网计算效率。为了更好地提升高速缓存Cache命中率AOE引入了子图调优的概念。子图调优基于算子切分数学等价原则根据硬件Cache大小、算子shape等信息将网络模型中的算子切分成多个算子然后编排切分后算子的执行顺序通过获取最佳的性能反馈确定计算图切分策略和执行顺序。这样就可以将一次性的数据流计算分解成多次进行执行在分解后的数据流分支上数据大小相比之前成倍递减进而实现了Cache命中率的显著提升。最终在算子调优和子图调优的共同作用下使用AOE进行性能调优后主流推理网络的平均性能提升30%以上。以ResNet50推理网络为例性能较调优前提升超过100%整网调优耗时30分钟以内。梯度调优提升集群训练性能大规模集群训练场景中存在着计算节点多、梯度聚合过程复杂、通信开销大的痛点。梯度聚合过程和计算过程怎么更好的一定程度上相互掩盖让整个过程保证较好的线性度也是性能提升的关键问题。为此AOE引入了梯度调优的功能通过智能梯度切分算法自动搜索出最优梯度参数切分方式为梯度传输选择合适的通信时机和通信量最大限度让计算和通信并行从而将通信拖尾时间降至最低促使集群训练达到最优性能。相对人工调整梯度聚合数据量自动梯度调优可以将梯度聚合数据量调参时间从数人天缩短至数十分钟一举获得最优聚合策略降低人工调参的不确定性。AOE通过调优知识库记录模型调优经验使得模型聚合策略能够动态适应不同集群规模。经过AOE调优后主流训练网络在昇腾AI处理器上执行性能较调优前平均提升了20%以上。以ResNet50训练网络为例性能较调优前提升了23%整网调优耗时2H以内。写在最后昇腾异构计算架构CANN始终致力于提供“开放易用、极致性能”的AI开发体验不断降低AI开发的门槛与成本。CANN提供的昇腾调优引擎AOE克服了传统调优方法耗时长、泛化性差、维护成本高等影响开发效率和可用性的弊端为AI开发者提供了更智能化的性能优化手段。以梦为马未来可期相信通过CANN的持续创新与不断演进定将进一步释放AI硬件的澎湃算力加速AI应用场景落地共建智慧世界。
http://www.tj-hxxt.cn/news/140348.html

相关文章:

  • 长沙网站制作公司报价php网站是什么数据库文件
  • 有限公司网站入口网站登录页面模板
  • 江西锐安建设工程有限公司网站重庆没建网站的企业
  • 做购物网站怎么写开题报告专业团队值得信赖
  • 招聘织梦网站网站开发原型模板
  • 先注册域名后建设网站可以吗kxsw wordpress
  • 网站数据不变重新安装wordpressseo的目的是什么
  • 临沂专业网站建设公司哪家好网站建设与管理怎么做
  • 自助建站系统搭建网站域名是什么?
  • 深圳高端网站定制公司工作微信管理系统
  • wordpress表单提交邮件通知厦门seo结算
  • 沈阳网站建设首选龙兴科技网站开发和ui的区别
  • 手机网站底部电话柳市做网站的公司
  • 荥阳市城乡建设规划网站网络营销外包顾问
  • 免费网站开发住建部城乡建设网站
  • 湖北建设厅行政服务中心网站苏州高端网站建设机构
  • 建筑模板种类连云港seo公司
  • 贵州建设厅网站办事大厅手机软件app制作工具
  • 包头市建设厅官方网站园林景观设计公司成都
  • 做网站网站犯法吗具权威的小企业网站建设
  • 平台型网站建设个人接广告的平台
  • 做电脑网站用什么软件好用网站做竞价经常会被攻击吗
  • 贵阳市建设厅官方网站域名解析错误无法上网
  • 网站快速备案安全yoast wordpress seo plugin
  • 重庆网站建站价格网站超级链接怎么做
  • 100元网站建设可不可以用帝国cms做企业网站
  • 网站整体设计风格wordpress 8小时前
  • 廊坊网站建设制作最好旅游网站建设
  • 关于公司网站建设的申请一个人做网站设计兼职
  • 容桂网站制作效率好外贸黄页网站