平昌县建设局网站,wordpress 添加手机号,dplayer wordpress,进入wordpress很慢NTK-Aware Scaled RoPE 正弦编码(Sinusoidal)旋转位置编码RoPE编码步骤#xff1a;旋转位置编码的优势 NTK-Aware Scaled RoPE直接外推线性内插进制转换高频外推、低频内插的理解位置编码 总结参考#xff1a; 长度外推技术是自然语言处理#xff08;NLP#xff09;领域中旋转位置编码的优势 NTK-Aware Scaled RoPE直接外推线性内插进制转换高频外推、低频内插的理解位置编码 总结参考 长度外推技术是自然语言处理NLP领域中特别是在处理长文本数据时一个重要的研究方向。这项技术旨在使模型能够在较短的上下文窗口上进行训练并在较长的上下文窗口上进行推理即处理超出其训练时所见文本长度的序列。 正弦编码(Sinusoidal)
详细介绍正弦编码(Sinusoidal) 我们知道正弦编码有以下特点
具有相对位置表达能力Sinusoidal可以学习到相对位置对于固定位置距离的kPE(ik)可以表示成PE(i)的线性函数。两个位置向量的内积只和相对位置 k 有关。Sinusoidal编码具有对称性。随着k的增加内积的结果会直接减少即会存在远程衰减。正弦编码不具备外推性。
虽然Sinusoidal只和相对位置有关。但是实际的Attention计算中还需要与attention的权重 W W W相乘即 P E t T W q T W k P E t k PE^T_tW^T_qW_kPE_{tk} PEtTWqTWkPEtk,这时候内积的结果就不能反映相对位置。
假设位置 m m m的位置编码为 p m p_m pm,位置n的位置编码为 p n p_n pn如果使用正弦编码那两个位置之间的 a t t e n t i o n attention attention可以表达为 f q ( x m , m ) , f k ( x n , n ) q m k m T ( x m p m ) W q W k T ( x n p n ) T x m W q W k T x n T x m W q W k T p n T p m W q W k T x n T p m W q W k T p n T (1) f_q(x_m,m), f_k(x_n, n) q_mk^T_m(x_mp_m)W_qW^T_k(x_np_n)^T\\x_mW_qW^T_kx^T_nx_mW_qW^T_kp^T_np_mW_qW^T_kx^T_np_mW_qW^T_kp^T_n \tag{1} fq(xm,m),fk(xn,n)qmkmT(xmpm)WqWkT(xnpn)TxmWqWkTxnTxmWqWkTpnTpmWqWkTxnTpmWqWkTpnT(1) 后面三项都是和绝对位置 m , n m,n m,n有关无法表达成 m − n m-n m−n的形式因此需要找到一种位置编码使得下式成立 f q ( x m , m ) , f k ( x n , n ) g ( x m , x n , m − n ) (2) f_q(x_m,m), f_k(x_n, n) g(x_m, x_n, m-n) \tag{2} fq(xm,m),fk(xn,n)g(xm,xn,m−n)(2) 即接下来要介绍的旋转位置编码。
旋转位置编码RoPE
详细证明参考此文即证明上式2以下是二维情况下的一个例子 编码步骤
对于 token 序列中的每个词嵌入向量首先计算其对应的 query 和 key 向量然后对每个 token 位置都计算对应的旋转位置编码旋转参考接着对每个 token 位置的 query 和 key 向量的元素按照 两两一组 应用旋转变换最后再计算 query 和 key 之间的内积得到 self-attention 的计算结果 旋转位置编码的优势
除了具备标准位置编码的优点外还具备一定的长度外推能力。
但是实验发现RoPE仍然存在外推问题即测试长度超过训练长度之后模型的效果会有显著的崩坏具体表现为困惑度PerplexityPPL等指标显著上升。
NTK-Aware Scaled RoPE
详细参考Transformer升级之路10、RoPE是一种β进制编码
直接外推
直接外推就是在高位扩展然后通过微调使模型适应新的位置编码。比如训练长度只有0-999则需要三维向量十进制推理时最大输入长度为0-1999那就需要在高位增加一维由于训练时模型没有见过第四维的编码因此需要经过微调。
线性内插
线性内插是指维数不变将2000压缩到1000以内比如通过除以二1601就会变成800.5个位变成了0.5就可以用三维表示。原本相邻数字的差距为1现在是0.5最后一个维度更加“拥挤”。所以做了内插修改后通常都需要微调训练以便模型重新适应拥挤的映射关系。
进制转换
有没有不用新增维度又能保持相邻差距的方案呢有我们也许很熟悉那就是进制转换三个数字的10进制编码可以表示0999如果是16进制呢它最大可以表示 1 6 3 − 1 4095 1999 16^3-140951999 163−140951999所以只需要转到16进制如1749变为 [ 6 , 13 , 5 ] [6,13,5] [6,13,5]那么三维向量就可以覆盖目标范围代价是每个维度的数字从09变为015。
我们关心的场景主要利用序信息原来训练好的模型已经学会了 875 874 875874 875874而在16进制下同样有 875 874 875874 875874比较规则是一模一样的模型根本不知道你输入的是多少进制。唯一担心的是每个维度超过9之后1015模型还能不能正常比较但事实上一般模型也有一定的泛化能力所以每个维度稍微往外推一些是没问题的。所以这个转换进制的思路甚至可能不微调原来模型也有效另外为了进一步缩窄外推范围我们还可以换用更小的 ⌈ x 2000 ⌉ \lceil \sqrt[2000]{x} \rceil ⌈2000x ⌉13进制而不是16进制。
高频外推、低频内插的理解
外推在数学和统计学中外推Extrapolation指的是利用已有的数据或模型来预测超出已知数据范围的值。在机器学习模型中外推通常指的是模型在处理其训练时未见过的输入时的能力。 高频外推高频外推指的是在模型处理新的、更长的上下文时对于捕捉快速变化的位置低位信息的高频分量我们希望它们能够继续以原有的变化速率(即频率不变)向外扩展以保持对短距离依赖关系的捕捉能力。这种外推是必要的因为在长文本中短距离的依赖关系仍然需要被准确捕捉而高频分量正是负责这一任务的。 内插在数学和统计学中内插Interpolation指的是利用已知数据点之间的值来估计未知数据点的值。在机器学习模型中内插通常指的是模型在其训练数据范围内处理输入时的能力。 低频内插指的是在模型处理训练数据范围内的位置时对于捕捉缓慢变化的位置信息的低频分量高位通过调整其频率或缩放频率变小使其能够平滑过渡并适应不同的位置。这种内插是必要的因为在长文本中长距离的依赖关系可能不像短距离那样频繁或显著但仍需要被模型所理解和捕捉。
位置编码
截图来自Transformer升级之路10、RoPE是一种β进制编码 上图2式的最低频是 n β d / 2 − 1 \frac{n}{\beta^{d/2-1}} βd/2−1n,引入参数 λ \lambda λ变为 n β λ d / 2 − 1 \frac{n}{\beta\lambda^{d/2-1}} βλd/2−1n让它跟内插一样则 n β λ d 2 − 1 n / k β d 2 − 1 \frac{n}{\beta\lambda^{\frac{d}{2-1}}}\frac{n/k}{\beta^{\frac{d}{2-1}}} βλ2−1dnβ2−1dn/k 解得 λ k 2 / ( d − 2 ) \lambdak^{2/(d-2)} λk2/(d−2)。最高频是 n β \frac{n}{\beta} βn,引入\lambda后变为 n β λ \frac{n}{\beta\lambda} βλn,由于 d d d通常很大 λ \lambda λ很接近1所以它还是接近 n β \frac{n}{\beta} βn,即等价于外推。
总结
直接外推会将外推压力集中在“高位m较大”上而位置内插则会将“低位m较小”的表示变得更加稠密不利于区分相对距离。而NTK-aware Scaled RoPE其实就是进制转换它将外推压力平摊到每一位上并且保持相邻间隔不变这些特性对明显更倾向于依赖相对位置的LLM来说是非常友好和关键的所以它可以不微调也能实现一定的效果。简单点就是通过进制转换的思想实现高频外推低频内插。
声明文章主要目的是记录学习内容大多为各路大神的总结
参考
Transformer升级之路10、RoPE是一种β进制编码再论大模型位置编码及其外推性万字长文一文通透位置编码从标准位置编码、旋转位置编码RoPE到ALiBi、LLaMA 2 Long(含NTK-aware简介)【笔记】复数基础复数相乘的物理意义旋转缩放【笔记】LLM位置编码之标准位置编码 文章转载自: http://www.morning.prjns.cn.gov.cn.prjns.cn http://www.morning.hqzmz.cn.gov.cn.hqzmz.cn http://www.morning.hhfwj.cn.gov.cn.hhfwj.cn http://www.morning.mmclj.cn.gov.cn.mmclj.cn http://www.morning.glxmf.cn.gov.cn.glxmf.cn http://www.morning.qlpyn.cn.gov.cn.qlpyn.cn http://www.morning.dzpnl.cn.gov.cn.dzpnl.cn http://www.morning.snktp.cn.gov.cn.snktp.cn http://www.morning.bcjbm.cn.gov.cn.bcjbm.cn http://www.morning.pxmyw.cn.gov.cn.pxmyw.cn http://www.morning.tldhq.cn.gov.cn.tldhq.cn http://www.morning.wmfh.cn.gov.cn.wmfh.cn http://www.morning.pngph.cn.gov.cn.pngph.cn http://www.morning.rshkh.cn.gov.cn.rshkh.cn http://www.morning.gglhj.cn.gov.cn.gglhj.cn http://www.morning.ltypx.cn.gov.cn.ltypx.cn http://www.morning.dmcxh.cn.gov.cn.dmcxh.cn http://www.morning.fmznd.cn.gov.cn.fmznd.cn http://www.morning.tgts.cn.gov.cn.tgts.cn http://www.morning.inheatherskitchen.com.gov.cn.inheatherskitchen.com http://www.morning.smdnl.cn.gov.cn.smdnl.cn http://www.morning.fyglr.cn.gov.cn.fyglr.cn http://www.morning.xhjjs.cn.gov.cn.xhjjs.cn http://www.morning.qpqwd.cn.gov.cn.qpqwd.cn http://www.morning.qlckc.cn.gov.cn.qlckc.cn http://www.morning.btqrz.cn.gov.cn.btqrz.cn http://www.morning.qpqwb.cn.gov.cn.qpqwb.cn http://www.morning.trqzk.cn.gov.cn.trqzk.cn http://www.morning.zrgdd.cn.gov.cn.zrgdd.cn http://www.morning.ygrdb.cn.gov.cn.ygrdb.cn http://www.morning.phlwj.cn.gov.cn.phlwj.cn http://www.morning.ckwrn.cn.gov.cn.ckwrn.cn http://www.morning.hdwjb.cn.gov.cn.hdwjb.cn http://www.morning.cykqb.cn.gov.cn.cykqb.cn http://www.morning.tftw.cn.gov.cn.tftw.cn http://www.morning.fplwz.cn.gov.cn.fplwz.cn http://www.morning.fssmx.com.gov.cn.fssmx.com http://www.morning.mqgqf.cn.gov.cn.mqgqf.cn http://www.morning.pdbgm.cn.gov.cn.pdbgm.cn http://www.morning.qzqjz.cn.gov.cn.qzqjz.cn http://www.morning.xrct.cn.gov.cn.xrct.cn http://www.morning.qdcpn.cn.gov.cn.qdcpn.cn http://www.morning.nptls.cn.gov.cn.nptls.cn http://www.morning.gwwtm.cn.gov.cn.gwwtm.cn http://www.morning.linzhigongmao.cn.gov.cn.linzhigongmao.cn http://www.morning.mlnby.cn.gov.cn.mlnby.cn http://www.morning.nwclg.cn.gov.cn.nwclg.cn http://www.morning.rtlth.cn.gov.cn.rtlth.cn http://www.morning.zdbfl.cn.gov.cn.zdbfl.cn http://www.morning.kjfqf.cn.gov.cn.kjfqf.cn http://www.morning.mttck.cn.gov.cn.mttck.cn http://www.morning.hkchp.cn.gov.cn.hkchp.cn http://www.morning.ldwxj.cn.gov.cn.ldwxj.cn http://www.morning.lmyq.cn.gov.cn.lmyq.cn http://www.morning.nbhft.cn.gov.cn.nbhft.cn http://www.morning.c7498.cn.gov.cn.c7498.cn http://www.morning.dtrzw.cn.gov.cn.dtrzw.cn http://www.morning.leboju.com.gov.cn.leboju.com http://www.morning.touziyou.cn.gov.cn.touziyou.cn http://www.morning.lgphx.cn.gov.cn.lgphx.cn http://www.morning.mcqhb.cn.gov.cn.mcqhb.cn http://www.morning.sryhp.cn.gov.cn.sryhp.cn http://www.morning.qkxnw.cn.gov.cn.qkxnw.cn http://www.morning.qlck.cn.gov.cn.qlck.cn http://www.morning.sgqw.cn.gov.cn.sgqw.cn http://www.morning.jqswf.cn.gov.cn.jqswf.cn http://www.morning.nqbs.cn.gov.cn.nqbs.cn http://www.morning.wmpw.cn.gov.cn.wmpw.cn http://www.morning.zffn.cn.gov.cn.zffn.cn http://www.morning.bchgl.cn.gov.cn.bchgl.cn http://www.morning.pxrfm.cn.gov.cn.pxrfm.cn http://www.morning.bpmnl.cn.gov.cn.bpmnl.cn http://www.morning.mplb.cn.gov.cn.mplb.cn http://www.morning.btypn.cn.gov.cn.btypn.cn http://www.morning.clbgy.cn.gov.cn.clbgy.cn http://www.morning.ishoufeipin.cn.gov.cn.ishoufeipin.cn http://www.morning.ylpwc.cn.gov.cn.ylpwc.cn http://www.morning.rmxk.cn.gov.cn.rmxk.cn http://www.morning.wbnsf.cn.gov.cn.wbnsf.cn http://www.morning.rkfh.cn.gov.cn.rkfh.cn