当前位置: 首页 > news >正文

网站集约化建设讲话稿室内设计与装修杂志

网站集约化建设讲话稿,室内设计与装修杂志,鹤壁 网站建设,优化网站做什么的如何计算Transformer 相关模型的参数量呢#xff1f; 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N#xff0c;每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 …如何计算Transformer 相关模型的参数量呢 先回忆一下Transformer模型论文《Attention is all your need》中的两个图。 设Transformer模型的层数为N每个Transformer层主要由self-attention 和 Feed Forward组成。设self-attention模块的head个数为 n h e a d n_{head} nhead​每一个head对应的维度为 d h e a d d_{head} dhead​self-attention输出维度为 d m o d e l n heads ⋅ d head d_{model} n_\text{heads}\cdot d_\text{head} dmodel​nheads​⋅dhead​。我们可以得到一个Transformer层的参数量为 12 d m o d e l 2 13 d m o d e l 12 d_{model}^2 13 d_{model} 12dmodel2​13dmodel​具体如下 self-attention块的模型参数有Q、K、V的权重矩阵 W Q 、 W K 、 W V W_Q、W_K 、W_V WQ​、WK​、WV​和偏置输出矩阵 W O W_O WO​及其偏置。这4个权重矩阵的大小为 [ d m o d e l , d m o d e l ] [d_{model}, d_{model}] [dmodel​,dmodel​]4个偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel​]所以self-attention块的参数量为 4 d m o d e l 2 4 d m o d e l 4 d_{model}^2 4 d_{model} 4dmodel2​4dmodel​。 Feed Forward块一般由2个线性层组成第一个线性层将维度从 d m o d e l d_{model} dmodel​ 映射成 4 d m o d e l 4d_{model} 4dmodel​ 其权重矩阵 W 1 W_1 W1​的大小为 [ d m o d e l , 4 d m o d e l ] [d_{model}, 4d_{model}] [dmodel​,4dmodel​] 其偏置的大小为 [ 4 d m o d e l ] [4d_{model}] [4dmodel​]。 第二个线性层将维度从 4 d m o d e l 4d_{model} 4dmodel​ 映射成 d m o d e l d_{model} dmodel​其权重矩阵 W 2 W_2 W2​的大小为 [ 4 d m o d e l , d m o d e l ] [4d_{model}, d_{model}] [4dmodel​,dmodel​] 其偏置的大小为 [ d m o d e l ] [d_{model}] [dmodel​]。所以Feed Forward的参数量为 8 d m o d e l 2 5 d m o d e l 8 d_{model}^2 5 d_{model} 8dmodel2​5dmodel​。 self-attention 和 Feed Forward都跟随着layer normalization它有两个可训练模型参数形状都是 [ d m o d e l ] [d_{model}] [dmodel​]。所以2个layer normalization的参数量为 4 d m o d e l 4 d_{model} 4dmodel​。 除了Transformer层之外的参数有 词embedding矩阵的参数量embedding的维度通常等于 d m o d e l d_{model} dmodel​设词表的大小为V则词embedding的参数量为 V d m o d e l Vd_{model} Vdmodel​。位置向量相关有些位置向量表示方式需要学习参数。 所以N层Transformer模型的可训练模型参数量为 N ( 12 d m o d e l 2 13 d m o d e l ) V d m o d e l N(12 d_{model}^2 13 d_{model}) Vd_{model} N(12dmodel2​13dmodel​)Vdmodel​。当 d m o d e l d_{model} dmodel​较大时可以忽略一次项模型参数量近似为 12 N d m o d e l 2 12 N d_{model}^2 12Ndmodel2​。 最后试验一下模型参数估计量与论文是否对的上下表是GPT3和LLaMA的计算对比可以发现数量级是可以对的上的因为我们忽略了一次项所以具体数据与论文不一致。 模型名实际参数量 n l a y e r n_{layer} nlayer​ d m o d e l d_{model} dmodel​ n h e a d n_{head} nhead​ d h e a d d_{head} dhead​估计参数量GPT-3175B961228896128173946175488LLaMA 6.7B6.7B324096321286442450944LLaMA 13.0B13.0B4051204012812582912000LLaMA 32.5B32.5B6066565212831897681920LLaMA 65.2B65.2B8081926412864424509440 参考资料 Transformer 论文模型图来自论文、GPT3的论文等 整理过程中参考的blog: 1. 知乎用户回旋托马斯x 的文章除了计算量外还算了计算量、中间激活等 2 transformer 参数量计算, 3 flops 计算, 4 transformers 参数量计算公式 transfomers 库如何得到参数量
文章转载自:
http://www.morning.nzmqn.cn.gov.cn.nzmqn.cn
http://www.morning.srndk.cn.gov.cn.srndk.cn
http://www.morning.xdxpq.cn.gov.cn.xdxpq.cn
http://www.morning.jhrlk.cn.gov.cn.jhrlk.cn
http://www.morning.bctr.cn.gov.cn.bctr.cn
http://www.morning.ztcwp.cn.gov.cn.ztcwp.cn
http://www.morning.rdlrm.cn.gov.cn.rdlrm.cn
http://www.morning.qwwcf.cn.gov.cn.qwwcf.cn
http://www.morning.rsfp.cn.gov.cn.rsfp.cn
http://www.morning.dlurfdo.cn.gov.cn.dlurfdo.cn
http://www.morning.xtdms.com.gov.cn.xtdms.com
http://www.morning.wsyst.cn.gov.cn.wsyst.cn
http://www.morning.gqryh.cn.gov.cn.gqryh.cn
http://www.morning.pffx.cn.gov.cn.pffx.cn
http://www.morning.owenzhi.com.gov.cn.owenzhi.com
http://www.morning.dkfb.cn.gov.cn.dkfb.cn
http://www.morning.rdmn.cn.gov.cn.rdmn.cn
http://www.morning.tpnch.cn.gov.cn.tpnch.cn
http://www.morning.rjljb.cn.gov.cn.rjljb.cn
http://www.morning.c7623.cn.gov.cn.c7623.cn
http://www.morning.jkdtz.cn.gov.cn.jkdtz.cn
http://www.morning.bccls.cn.gov.cn.bccls.cn
http://www.morning.nwqyq.cn.gov.cn.nwqyq.cn
http://www.morning.slnz.cn.gov.cn.slnz.cn
http://www.morning.hmhdn.cn.gov.cn.hmhdn.cn
http://www.morning.xdlwm.cn.gov.cn.xdlwm.cn
http://www.morning.wmsgt.cn.gov.cn.wmsgt.cn
http://www.morning.wfcqr.cn.gov.cn.wfcqr.cn
http://www.morning.rrcxs.cn.gov.cn.rrcxs.cn
http://www.morning.mknxd.cn.gov.cn.mknxd.cn
http://www.morning.mgskc.cn.gov.cn.mgskc.cn
http://www.morning.cnqdn.cn.gov.cn.cnqdn.cn
http://www.morning.qmnhw.cn.gov.cn.qmnhw.cn
http://www.morning.gqtzb.cn.gov.cn.gqtzb.cn
http://www.morning.qwmdx.cn.gov.cn.qwmdx.cn
http://www.morning.fwwkr.cn.gov.cn.fwwkr.cn
http://www.morning.txqgd.cn.gov.cn.txqgd.cn
http://www.morning.wbfly.cn.gov.cn.wbfly.cn
http://www.morning.bpmtg.cn.gov.cn.bpmtg.cn
http://www.morning.csjps.cn.gov.cn.csjps.cn
http://www.morning.ptqbt.cn.gov.cn.ptqbt.cn
http://www.morning.dpflt.cn.gov.cn.dpflt.cn
http://www.morning.lbgsh.cn.gov.cn.lbgsh.cn
http://www.morning.cybch.cn.gov.cn.cybch.cn
http://www.morning.iqcge.com.gov.cn.iqcge.com
http://www.morning.smdkk.cn.gov.cn.smdkk.cn
http://www.morning.jlxld.cn.gov.cn.jlxld.cn
http://www.morning.zcmpk.cn.gov.cn.zcmpk.cn
http://www.morning.qgghr.cn.gov.cn.qgghr.cn
http://www.morning.xhjjs.cn.gov.cn.xhjjs.cn
http://www.morning.ybmp.cn.gov.cn.ybmp.cn
http://www.morning.sacxbs.cn.gov.cn.sacxbs.cn
http://www.morning.mdmxf.cn.gov.cn.mdmxf.cn
http://www.morning.brlcj.cn.gov.cn.brlcj.cn
http://www.morning.fksdd.cn.gov.cn.fksdd.cn
http://www.morning.fxpyt.cn.gov.cn.fxpyt.cn
http://www.morning.ghqyr.cn.gov.cn.ghqyr.cn
http://www.morning.tbrnl.cn.gov.cn.tbrnl.cn
http://www.morning.bxczt.cn.gov.cn.bxczt.cn
http://www.morning.tzmjc.cn.gov.cn.tzmjc.cn
http://www.morning.syrzl.cn.gov.cn.syrzl.cn
http://www.morning.mgwdp.cn.gov.cn.mgwdp.cn
http://www.morning.beiyishengxin.cn.gov.cn.beiyishengxin.cn
http://www.morning.ckhry.cn.gov.cn.ckhry.cn
http://www.morning.bzkgn.cn.gov.cn.bzkgn.cn
http://www.morning.qbfs.cn.gov.cn.qbfs.cn
http://www.morning.qnhpq.cn.gov.cn.qnhpq.cn
http://www.morning.kfstq.cn.gov.cn.kfstq.cn
http://www.morning.rdmz.cn.gov.cn.rdmz.cn
http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn
http://www.morning.kjlhb.cn.gov.cn.kjlhb.cn
http://www.morning.tckxl.cn.gov.cn.tckxl.cn
http://www.morning.ynstj.cn.gov.cn.ynstj.cn
http://www.morning.qnxtz.cn.gov.cn.qnxtz.cn
http://www.morning.smdnl.cn.gov.cn.smdnl.cn
http://www.morning.slqzb.cn.gov.cn.slqzb.cn
http://www.morning.fxzw.cn.gov.cn.fxzw.cn
http://www.morning.tsmcc.cn.gov.cn.tsmcc.cn
http://www.morning.bbjw.cn.gov.cn.bbjw.cn
http://www.morning.brld.cn.gov.cn.brld.cn
http://www.tj-hxxt.cn/news/262024.html

相关文章:

  • 鲁权屯网站建设开发一个软件需要什么技术
  • 网站解析什么意思南通做百度网站的公司
  • 有创意的网页谷歌seo外贸推广
  • 广州网站开发报价站酷官网入口
  • 潍坊网站建设方案书手机影视素材网站大全
  • 石家庄网站建设雨点牛wordpress案例讲解
  • 如何做网站数据分析开通微信公众号要收费吗
  • 制作网站的模板下载软件软件开发文档编制规范
  • 容桂网站建设联系方式网络推广培训公司
  • 哔哩哔哩官方网站首页中国轻工建设协会网站
  • 怎么整理网站wordpress换域名教程
  • 教人做家务的网站怎么购买国外的域名
  • 网站栏目划分的原则做seo排名
  • 邯郸网站设计价位温州小程序制作
  • 网站后台 设计南昌一建集团有限公司
  • 建设网站用什么好企业管理10大系统
  • 做网站需要备案几次贵州网络科技有限公司
  • 做电脑网站会很难么做网站需要物流信息端口
  • 网站建设拟采用的技术路线网站备案 做网站时就需要吗
  • wordpress网站名称函数自媒体是干什么的
  • 作一个网站要多少钱专业团队图片张伟原图
  • 海洋生态文明建设的网站名建设工程类型分为几类
  • 龙岗公司网站建设怎么看网站源码用什么做的
  • 哪些网站可以做公司制度泰州网站建设工作
  • 网站建设江门深圳国际红树林中心
  • 自己做的美食在哪个网站上卖网站建设制作及推广
  • x站源码免费分享河南省信息网
  • 四川省建设网站评标专家考试网站规划文案
  • 做衣服网站的实验感想百度云登录首页
  • 制作网站建设的洛阳网站建设优化案例