什么网站做招聘收录好,微信的微网站模板下载,国内哪个应用商店app最全,杭州移动公司网站随谈模型部署
模型部署包含的内容很多#xff0c;来聊聊。
访存bottleneck
首先#xff0c;基于transformer的计算是访存密集型任务。
so?
过去#xff0c;我们表达模型的性能#xff0c;通常会用ops#xff0c;macs这些指标,也计算量来衡量模型的推理时间#xff…随谈模型部署
模型部署包含的内容很多来聊聊。
访存bottleneck
首先基于transformer的计算是访存密集型任务。
so?
过去我们表达模型的性能通常会用opsmacs这些指标,也计算量来衡量模型的推理时间这很容易理解计算的次数越多花的时间更久。但是对于基于transformer的大模型由于kqv映射矩阵的每一个元素都要参与计算脑补一下卷积的过程作对比会带来巨大的内存访问量。下列两张图用数字更量化的展示了这个问题。 你可能会说我用的是A10080G显存我兵强马壮。但实际上GPU的架构包含了sRAM和dRAM和CPU的sRAM和dRAM一样sram小但是快d 192KB 19TB/sdram/HBM大但是慢40-80GB with bandwidth 1.5-2.0TB/s。在计算时模型的权重需要dram转移到sram这部分的耗时有可能成为模型推理时间的瓶颈因此Flash attentiongroup atention等一系列优化就孕育而生。 剪枝pruning
剪枝是一个很出名的概念因为它翻译的很好你可以想象树上的枝叶被剪掉的场景就像linar曾映射的时候很多权重消失了.
如果它们“消失”了可以想象的是我们可以存储更少的权重需要更小的运算量。
想想当然激动但是你细想一下怎么定义“消失”的权重从数学上如果一个数值为0我们可以把它当作消失但是实际上我们表达模型的时候通常都是用矩阵来表示权重如果这些权重为0其实并不能减少计算量也不能减少模型大小。这就是剪枝这种方法雷声大雨点小的原因基于非稀疏的矩阵存储形式很难执行但是硬件厂商可以去支持通过支持稀疏矩阵的推理来实现它。 蒸馏
知识蒸馏KD是AI GodFather Hinton团队首先提出来的简单来说让student来学习teacher model怎么学有很多研究。 量化
是深度学习加速中最常用的一种技术早期主要是QATPTQ。但是随着大模型的兴起这一领域蓬勃发展。2 bit量化不是梦。。。 LMDeploy
核心功能
模型高效推理TurboMind包括LLaMa结构模型的支持continuous batch推理模式和可扩展的KV缓存管理器
模型量化压缩W4A16量化AWQ将FP16的模型权重量化为INT4。Weight Only是指仅量化权重数值计算依然采用FP16
服务化部署将LLM封装为HTTP API支持Triton拓展