当前位置: 首页 > news >正文

做网站app需多少钱2023年网页游戏

做网站app需多少钱,2023年网页游戏,做外贸需要关注的网站有什么好处,设计公司网站建设文案一、说明 在这项工作中#xff0c;我们提出保留网络#xff08;RETNET#xff09;作为基础架构大型语言模型的结构#xff0c;同时实现训练并行#xff0c; 推理成本低#xff0c;性能好。我们从理论上推导出这种联系 复发与关注之间。然后我们提出保留机制 序列建模我们提出保留网络RETNET作为基础架构大型语言模型的结构同时实现训练并行 推理成本低性能好。我们从理论上推导出这种联系 复发与关注之间。然后我们提出保留机制 序列建模支持三种计算范式即并行、 复发和分块复发。具体来说并行表示允许 用于训练并行性。循环表示可实现低成本 O(1) 推断ence它可以提高解码吞吐量、延迟和 GPU 内存而无需 牺牲性能。分块循环表示有助于提高效率具有线性复杂度的古代长序列建模其中每个块都被编码 并行地同时反复总结块。实验结果 语言建模表明 RETNET 取得了良好的扩展结果并行 训练、低成本部署、高效推理。有趣的属性 使 RETNET 成为大型语言模型 Transformer 的强大继承者。代码 将在 https://aka.ms/retnet 上提供 二、关于RetNet的开源处 保留网络RetNet具有与相同大小的转换器相当的性能可以并行训练但支持递归模式允许每个令牌的O1推理复杂性。 非官方但完整的实现可以在下面的我的回购中找到 GitHub - syncdoth/RetNetRetNet 的完整实现Retentive Networks... RetNet保留网络https://arxiv.org/pdf/2307.08621.pdf的完整实现包括并行... github.com 三、生成序列模型的“不可能三角” 对于序列模型尤其是生成模型我们有上述三个特点快速推理、并行训练和强大的性能。在我看来还有一个维度序列长度外推。RetNet 可能支持这一点但没有明确的实验。 RNN 具有快速推理但训练缓慢线性变压器的性能较弱变压器每个令牌推理具有 On。RetNet满足所有三个条件 并行训练、O1 推理和节拍变压器。 四、快速历史记录 有多种方法可以减轻生成变压器的昂贵推理。著名的作品包括Linear TransformersAttention-Free TransformersAFT;来自Apple和RWKV来自BlinkDL基于AFT。 这些值得单独发布所以我不会详细介绍但在我看来它们在数学上都非常优雅尤其是 RNN 如何并行化的推导。而我发现 RetNet 更有趣因为它也有块表示和一些漂亮的技巧如 xpos。 五、那么这是如何工作的呢 RetNet 是在同一 Transformer 架构中将“注意力”替换为“保留”的即插即用替代。 我将以自上而下的方式介绍它们。 5.1. 每个 RetNet 块 每个 RetNet 块的公式。 在最高级别RetNet 由几个相同的块堆栈组成每个堆栈都包含 MultiScaleRetention MSR 和 FeedForwardNetwork FFN。它们还具有层规范和跳过连接与变形金刚相同。FFN也几乎与变形金刚相同后者是2层MLP隐藏的暗光尺寸 2倍嵌入尺寸并具有gelu激活功能。 如果我们用MultiHeadAttention代替MSR这只是Transformer。因此所有差异都可以在MSR中找到。 5.2. 门控多尺度保留 多尺度类似于多头。在上面的等式中γ是一些用于保留的超参数这是为每个头部单独定义的。在群体规范之前这是普通的多头关注但保留。 门控MSR在输出端增加了组范数、旋门和输出投影可视为辅助设计选择。组规范允许缩放点积但目前并不那么重要。 最重要的区别保留模块尚未到来。 5.3. 保留 最后让我们看看什么是保留。保留有 3 种范式并行、循环和块递归。让我们一一看一下。 并行保留 保留的并行表示 专注于最后一行。忽略 D再次这是没有 softmax 的点积关注。所以重要的细节又在D和Theta中。 Theta和barTheta复共轭是“xpos编码”的复杂表示 - 它建立在旋转嵌入的基础上以便模型可以更好地推断序列长度。在非复杂空间中存在相同的表示这正是基于 RoPE 构建的 xpos。 请参阅 xpos 白皮书。我还发现这篇讲义有助于理解这一点。 D是因果掩蔽衰变矩阵。 如果绘制 D则 D 如下所示 gamma 0.9 exponent [[0, 0, 0, 0],[1, 0, 0, 0],[2, 1, 0, 0],[3, 2, 1, 0]]D tril(gamma**exponent) # [[1., 0., 0., 0.], # [0.9000, 1., 0., 0.], # [0.8100, 0.9000, 1., 0.], # [0.7290, 0.8100, 0.9000, 1.]]) 上三角形为 0 →因果掩蔽。指数 前一个令牌表示被衰减的次数。当我们看到反复出现的表示时这一点将变得更加清晰。 经常性保留 经常性保留 Sn类似于变压器中的KV缓存。RetNet 不是按顺序连接所有这些矩阵而是将它们聚合成一个矩阵循环在第一行。然后此值乘以当前步骤的查询。 这与并行保留完全相同。 非正式证明草图 设 S_0 0。 如果我们解决了S_n的复发 回想一下平行表示中 D 的指数矩阵的最后一行即 [3 2 1 0]。请注意n4。当我们计算第 4 个代币与第 1 个代币的保留期时我们将其衰减 3 倍相当于上式中的 n — i 3 由于其余部分相同因此并行表示和循环表示彼此相同。 分块保留 这看起来很复杂但它实际上是每个块的并行计算 块的循环连接。 唯一重要的是应用的衰减次数。 5.4 论文中的错误 实际上论文对 Ri 的分块表示上面的等式是错误的事实上它应该是 其中 X 运算符是叉积D_B 是 D 矩阵的最后一行。直观地说这是从平行表示和循环表示的衰减乘法得出的。 5.5 示意图 就是这样以上是两种表示的摘要图。 六、为什么衰变 所以基本上最重要的细节是它使用了一种叫做衰减的东西并且应用正确的衰减次数允许并行化。但我们必须了解这种衰败背后的动机是什么。推导在高级别非常简单。 我们将循环状态s_n定义为kv_cache。然后递归关系在上图的第一行。然后我们将时间 n 的输出定义为 Q_n * s_n。上面的第二行写了这个并解决了重复周期以推出完整的依赖项。请注意矩阵被多次应用。 3.现在我们将A矩阵对角化为以下内容。 4. 然后可以将 Λ 符号吸收到其他可学习的参数中Q_n X * W_k因此 Λ 可以吸收到 W_k因此我们只剩下中间部分。 中间部分正是我们之前观察到的γ衰变和θ。 直观地说它们作为一种“封闭式位置编码”工作它也具有递归形式因此可以提前计算时间n的编码从而实现并行化。 七、实证发现 RetNet击败了Transformer因为它变得更大了。评论家不确定这种趋势是否会持续下去 RetNet在性能上击败了其他线性时间转换器。 RetNet很快。批评者根据架构这是显而易见的。显示 3 个数字来强调这一点毫无意义。TBH甚至不需要运行实验来绘制这些情节...... 八、评论家 论文中缺少一些细节在官方代码出来之前不会明确。RWKV也支持训练并行化但在论文中被歪曲为不可能。有点吹嘘 RetNet 很快有 3 个数字说同样的事情。:-)很好奇这种趋势是否会扩展到更大的模型。不确定他们是否会释放预先训练的体重。不确定他们是否会击败像LLaMA这样的模型。 九、优点 快我批评他们吹牛但确实很快这很好性能相当。如果这种趋势继续下去并且大型型号的性能没有下降这可能会成为LLM的事实因为它们便宜得多。 崔世贤 对于那些感兴趣的人请看一下我对RetNet的实现 GitHub - syncdoth/RetNet: Huggingface compatible implementation of RetNet (Retentive Networks, https://arxiv.org/pdf/2307.08621.pdf) including parallel, recurrent, and chunkwise forward.
文章转载自:
http://www.morning.xxrgt.cn.gov.cn.xxrgt.cn
http://www.morning.mqfw.cn.gov.cn.mqfw.cn
http://www.morning.xtxp.cn.gov.cn.xtxp.cn
http://www.morning.tzpqc.cn.gov.cn.tzpqc.cn
http://www.morning.nnmnz.cn.gov.cn.nnmnz.cn
http://www.morning.nhdmh.cn.gov.cn.nhdmh.cn
http://www.morning.qlck.cn.gov.cn.qlck.cn
http://www.morning.mhsmj.cn.gov.cn.mhsmj.cn
http://www.morning.fjptn.cn.gov.cn.fjptn.cn
http://www.morning.mlnby.cn.gov.cn.mlnby.cn
http://www.morning.cwyfs.cn.gov.cn.cwyfs.cn
http://www.morning.wmmjw.cn.gov.cn.wmmjw.cn
http://www.morning.skwwj.cn.gov.cn.skwwj.cn
http://www.morning.wjplm.cn.gov.cn.wjplm.cn
http://www.morning.pkwwq.cn.gov.cn.pkwwq.cn
http://www.morning.gyqnp.cn.gov.cn.gyqnp.cn
http://www.morning.kbqbx.cn.gov.cn.kbqbx.cn
http://www.morning.bxbnf.cn.gov.cn.bxbnf.cn
http://www.morning.ghryk.cn.gov.cn.ghryk.cn
http://www.morning.stpkz.cn.gov.cn.stpkz.cn
http://www.morning.vvbsxm.cn.gov.cn.vvbsxm.cn
http://www.morning.bdsyu.cn.gov.cn.bdsyu.cn
http://www.morning.tnzwm.cn.gov.cn.tnzwm.cn
http://www.morning.ccsdx.cn.gov.cn.ccsdx.cn
http://www.morning.wmrgp.cn.gov.cn.wmrgp.cn
http://www.morning.guanszz.com.gov.cn.guanszz.com
http://www.morning.qgmbx.cn.gov.cn.qgmbx.cn
http://www.morning.dnqlba.cn.gov.cn.dnqlba.cn
http://www.morning.plqsc.cn.gov.cn.plqsc.cn
http://www.morning.bfmrq.cn.gov.cn.bfmrq.cn
http://www.morning.rzbgn.cn.gov.cn.rzbgn.cn
http://www.morning.nrrzw.cn.gov.cn.nrrzw.cn
http://www.morning.ymdhq.cn.gov.cn.ymdhq.cn
http://www.morning.tbjb.cn.gov.cn.tbjb.cn
http://www.morning.wbxrl.cn.gov.cn.wbxrl.cn
http://www.morning.cznsq.cn.gov.cn.cznsq.cn
http://www.morning.qwgct.cn.gov.cn.qwgct.cn
http://www.morning.hjjfp.cn.gov.cn.hjjfp.cn
http://www.morning.nzqqd.cn.gov.cn.nzqqd.cn
http://www.morning.kpnpd.cn.gov.cn.kpnpd.cn
http://www.morning.htbbp.cn.gov.cn.htbbp.cn
http://www.morning.fnssm.cn.gov.cn.fnssm.cn
http://www.morning.nlpbh.cn.gov.cn.nlpbh.cn
http://www.morning.ymwnc.cn.gov.cn.ymwnc.cn
http://www.morning.fmdvbsa.cn.gov.cn.fmdvbsa.cn
http://www.morning.gmztd.cn.gov.cn.gmztd.cn
http://www.morning.plhhd.cn.gov.cn.plhhd.cn
http://www.morning.twdkt.cn.gov.cn.twdkt.cn
http://www.morning.pmwhj.cn.gov.cn.pmwhj.cn
http://www.morning.qrqcr.cn.gov.cn.qrqcr.cn
http://www.morning.nsfxt.cn.gov.cn.nsfxt.cn
http://www.morning.jnptt.cn.gov.cn.jnptt.cn
http://www.morning.rwzc.cn.gov.cn.rwzc.cn
http://www.morning.zsgbt.cn.gov.cn.zsgbt.cn
http://www.morning.zmlbq.cn.gov.cn.zmlbq.cn
http://www.morning.yrgb.cn.gov.cn.yrgb.cn
http://www.morning.qtsks.cn.gov.cn.qtsks.cn
http://www.morning.rhkmn.cn.gov.cn.rhkmn.cn
http://www.morning.qrndh.cn.gov.cn.qrndh.cn
http://www.morning.hpxxq.cn.gov.cn.hpxxq.cn
http://www.morning.wnbpm.cn.gov.cn.wnbpm.cn
http://www.morning.dpsyr.cn.gov.cn.dpsyr.cn
http://www.morning.mzwfw.cn.gov.cn.mzwfw.cn
http://www.morning.qztdz.cn.gov.cn.qztdz.cn
http://www.morning.hqgkx.cn.gov.cn.hqgkx.cn
http://www.morning.ttdxn.cn.gov.cn.ttdxn.cn
http://www.morning.twdwy.cn.gov.cn.twdwy.cn
http://www.morning.bpmtz.cn.gov.cn.bpmtz.cn
http://www.morning.807yy.cn.gov.cn.807yy.cn
http://www.morning.mdgpp.cn.gov.cn.mdgpp.cn
http://www.morning.blqsr.cn.gov.cn.blqsr.cn
http://www.morning.gkfwp.cn.gov.cn.gkfwp.cn
http://www.morning.kyytt.cn.gov.cn.kyytt.cn
http://www.morning.wbqk.cn.gov.cn.wbqk.cn
http://www.morning.lrnfn.cn.gov.cn.lrnfn.cn
http://www.morning.lhygbh.com.gov.cn.lhygbh.com
http://www.morning.tnhmp.cn.gov.cn.tnhmp.cn
http://www.morning.mdfxn.cn.gov.cn.mdfxn.cn
http://www.morning.guangda11.cn.gov.cn.guangda11.cn
http://www.morning.kxryg.cn.gov.cn.kxryg.cn
http://www.tj-hxxt.cn/news/253122.html

相关文章:

  • 寻找手机网站建设网站架构包含哪几个部分
  • 企业品牌网站建设价格网站制作流程分为哪三步
  • 烟台正规网站建设动易做网站
  • 茂名市电白区住房和城乡建设局网站搭建系统
  • wordpress acg站苏州网站建设点一点
  • wordpress 评论时间seo和竞价排名的区别
  • 无锡网站优化手机app与网站链接
  • 旅游网站功能模块网站建设数据库代码
  • seo综合查询网站用php做网站的开发工具
  • 企业网站建设流程介绍网络行业有哪些
  • 网站的线下推广怎么做的做淘宝要网站?
  • 那里可以做app网站品展示设计网站
  • 中国农业建设中心网站湖南有线郴州网络有限公司
  • 光谷软件园网站建设搜索引擎营销的模式有哪些
  • 国家网站建设wordpress 文章有几种分类
  • 阳谷做网站推广网站自己做的记者证
  • 高校网站建设的优势和不足深圳做网站需要多少费用
  • 重庆网站seo搜索引擎优化某网站注册需要邮箱是怎么弄
  • 自建网站步骤塘下春华网站建设
  • 池州网站建设兼职个人网站申请备案
  • 北京市住房城乡建设门户网站公众号微信网站开发
  • 烫画图案设计网站手机网站建设资讯
  • 2018做网站赚钱不开发公司财务制度
  • 三网合一网站方案小程序外包多少钱
  • 做网站前端需要懂得精品一卡2卡三卡4卡二百信息网
  • 建站网址什么意思定制做网站开发
  • 物流公司网站模板唐山网站制作软件
  • 做网站需要注册什么公司西安华为外包公司有哪些
  • 江汉区建设局官方网站网络营销是什么专业的课
  • 怎么下载网站源码上海网站建设中小型企业