产品销售类网站 模板,ppt模板免费素材,怎么拉人做推广,网络电商平台有哪些欲买桂花同载酒#xff0c;终不似#xff0c;少年游。 数学知识
秩#xff1a; 矩阵中最大线性无关的行/列向量数。行秩与列秩相等。 线性无关#xff1a;对于N个向量而言#xff0c;如果任取一个向量 v \textbf{v} v#xff0c;不能被剩下的N-1个向量通过线性组合的方式… 欲买桂花同载酒终不似少年游。 数学知识
秩 矩阵中最大线性无关的行/列向量数。行秩与列秩相等。 线性无关对于N个向量而言如果任取一个向量 v \textbf{v} v不能被剩下的N-1个向量通过线性组合的方式表示则称这N个向量为线性无关。
SliceGPT: Compress Large Language Models By Deleting Rows And Columns
主要剪枝的效果
将权重矩阵的尺寸缩小变成更小的矩阵。具体而言是乘以一个Deleting Matrix D \textbf{D} D。这个矩阵实际上是通过构造一个正交矩阵再做PCA删除一些行/列得到。减少embedding dimension。与权重矩阵的缩小对应。 可以参考Figure 1中右图 0. Introduction
目前许多权重剪枝的方法都需要RFTrecovery fine-tuning耗时并且可拓展性差。
SliceGPT无需RFT也能有良好的效果。
本文的三大Contributions
引入了计算不变性。对于transformer中的权重矩阵做正交变换。简而言之就是乘上一个正交矩阵和正交矩阵的转置计算结果不变。使用signal matrix计算正交阵利用PCA在其主成分方向做投影后与权重矩阵相乘移去部分columns和rows以达到权重剪枝的目的。在多个模型不同任务上做实验并证明效果良好。 1. Related Work
常见的稀疏化方法
magnitude-based移除绝对值较小的权重但性能损失较大。OBSoptimial brain surgeon使用Hessian矩阵来更新weight移除对loss函数影响最小的weight。但是计算Hessian的逆过于复杂尤其是大模型。针对OBS的问题 近似Hessian如WoodFisher逐层使用OBS比如OBCoptimal brain compression。 GPTQ量化权重矩阵。sparseGPT半结构化/非结构化剪枝仅使用Hessian的对角项对角近似
2. Transformer模型架构回顾。
相关信息可以参阅CSDN或知乎关于Transformer原文的详解也可以参考我的这篇文章内容比较简略Transformer架构笔记
一个典型的Transformer中Encoder的结构Figure 2所示作者把这样一个结构称为Transformer Block不同的Transformer实现可能有所不同
简要回顾一下Transformer的主要组件以及约定符号表示。 一个标准的Transformer Block包含Attention BlockFFN BlockLayerNorm层。Transformer在起始阶段有embedding层将sequence转为嵌入向量末尾有一个输出层,文中称为Language Modelling Head将embedding转为对下一个word的预测。 Embeddings层将sequence S S S转为embedding X ∈ R N × D \textbf{X} \in R^{N \times D} X∈RN×D。其中 N N N为序列长度 D D D为嵌入向量的长度同时一般也是模型当中统一的hidden dimension。 W embd ∈ R h × D W_\text{embd} \in R^{h \times D} Wembd∈Rh×D为该层的权重矩阵。 h h h为one-hot编码长度。 LN层LayerNorm标准的Transformer使用LN而作者使用RMSNorm原因是其具有计算不变性Computational Invariance。RMSNorm相比于LN而言计算更简单每个元素只除以RMS均方根并且这里求均方根时统计的是 X \textbf{X} X中的所有元素: 共 N × D N \times D N×D个这也是为什么后面要乘以一个 D \sqrt{D} D 的原因。LN是对每个样本做归一化即按行归一化即可LN与RMSNorm之间的关系如下 LayerNorm ( X ) RMSNorm ( X M ) diag ( α ) D 1 N β ⊤ (1) \text{LayerNorm}(\mathbf{X})\text{RMSNorm}(\mathbf{X}\mathbf{M})\text{diag}(\mathbf{\alpha})\sqrt{D}\mathbf{1}_N\beta^\top \tag1 LayerNorm(X)RMSNorm(XM)diag(α)D 1Nβ⊤(1)
其中 M I − 1 D 1 ⋅ 1 T s . t . I ∈ R D × D , 1 ∈ R D × 1 \textbf{M} I - \frac{1}{D}1 \cdot 1^T \quad s.t. \quad I \in \mathbb{R}^{D \times D}, \ 1 \in \mathbb{R}^{D \times 1} MI−D11⋅1Ts.t.I∈RD×D, 1∈RD×1
输入乘上 M \textbf{M} M相当于逐行减去mean。 d i a g ( α ) diag(\alpha) diag(α)为缩放系数 β \beta β为偏置项。 Attention Blocks使用多头注意力 W k , W q , W v , W o , \mathbf{W}_k,\mathbf{W}_q,\mathbf{W}_v\mathrm{,}\mathbf{W}_o, Wk,Wq,Wv,Wo,分别对应K, Q, V, Output的权重矩阵。output是一个Linear把各个head拼接后的embedding再映射回去。Attention Block用以下公式表示 σ ( W i n b i n ) W o u t b o u t (2) \sigma(\mathbf{W}_{\mathrm{in}}\boldsymbol{b}_{\mathrm{in}})\mathbf{W}_{\mathrm{out}}\boldsymbol{b}_{\mathrm{out}} \tag2 σ(Winbin)Woutbout(2) 作者把 W k , W q , W v \mathbf{W}_k,\mathbf{W}_q,\mathbf{W}_v Wk,Wq,Wv统称为 W i n W_{in} Win因为这几个矩阵对attention block的输入做线性变换把 W o \mathbf{W}_o Wo称为 W o u t \mathbf{W}_{out} Wout因为是attention中的输出层多头注意力中把concatenated embedding映射回原维度。 FFN Blocks: σ ( XW in ) W out \sigma(\textbf{XW}_\text{in})\textbf{W}_\text{out} σ(XWin)Wout。即MLP简而言之就是先后做两次线性变换先升维再还原维度。 LM Head XW head b head \textbf{XW}_\text{head} \textbf{b}_\text{head} XWheadbhead。其中 X \textbf{X} X为最后一个FFN Block的输出。LM Head输出即为最终的预测word。
Transformer整体的前向传播流程如Algorithm1所示
3.SliceGPT
Key IdeaComputational Invariance。即对线性层使用nn.Linear的层如AttentionFFN施加正交变换计算结果不变。
3.1 Transformer中的computational invariance的说明
正交矩阵的保范性假设 Q \textbf{Q} Q为正交矩阵则 Q Q T I \textbf{Q}\textbf{Q}^T \textbf{I} QQTI对于向量 x \textbf{x} x ∣ ∣ Qx ∣ ∣ x T Q T Qx x T x ∣ ∣ x ∣ ∣ ||\textbf{Q}\textbf{x}|| \sqrt{\textbf{x}^T\textbf{Q}^T\textbf{Q}\textbf{x}} \sqrt{\textbf{x}^T\textbf{x}} || \textbf{x} || ∣∣Qx∣∣xTQTQx xTx ∣∣x∣∣。即向量乘以正交阵不改变其范数。这里列出的是L2范数。
作者指出RMSNorm具有计算不变性如eq2所示作者在Appendix A.1给出了证明 R M S N o r m ( X ℓ Q ) Q ⊤ R M S N o r m ( X ℓ ) . (2) \mathrm{RMSNorm}(\mathbf{X}_\ell\mathbf{Q})\mathbf{Q}^\top\mathrm{RMSNorm}(\mathbf{X}_\ell) . \tag2 RMSNorm(XℓQ)Q⊤RMSNorm(Xℓ).(2)
3.1续定理一以及证明
定理一作者指出给Transformer当中的权重矩阵施加正交变换能够保证其计算不变性 W ~ e m b d W e m b d Q , (3) b ~ o u t ℓ b o u t ℓ Q , (6) W ~ i n ℓ Q ⊤ W i n ℓ , (4) W ~ h e a d Q ⊤ W h e a d . (7) W ~ o u t ℓ W o u t ℓ Q , (5) \begin{array}{crcr} \tilde{\mathbf{W}}_{embd}\mathbf{W}_{embd}\mathbf{Q}, \qquad \text{(3)} \qquad \tilde{\boldsymbol{b}}_{out}^{\ell}\boldsymbol{b}_{out}^{\ell} \mathbf{Q}, \qquad \text{(6)} \\ \tilde{\mathbf{W}}_{in}^{\ell}\mathbf{Q}^{\top}\mathbf{W}_{in}^{\ell}, \qquad \text{(4)} \qquad \tilde{\mathbf{W}}_{head}\mathbf{Q}^{\top}\mathbf{W}_{head} .\qquad \text{(7)} \\ \tilde{\mathbf{W}}_{out}^{\ell}\mathbf{W}_{out}^{\ell}\mathbf{Q}, \qquad \text{(5)} \end{array} W~embdWembdQ,W~inℓQ⊤Winℓ,W~outℓWoutℓQ,(3)(4)(5)b~outℓboutℓQ,W~headQ⊤Whead.(6)(7) 加波浪线的为变换后microsoft实现代码中称为rotate 即旋转
注原文中eq.6为 b ~ o u t ℓ Q ⊤ b o u t ℓ \tilde{\boldsymbol{b}}_{out}^{\ell}\mathbf{Q}^\top\boldsymbol{b}_{out}^{\ell} b~outℓQ⊤boutℓ好像有问题正在向作者咨询。注 b ~ i n ℓ b i n ℓ , b ~ h e a d b h e a d . \tilde{\boldsymbol{b}}_{in}^{\ell}\boldsymbol{b}_{in}^{\ell},\tilde{\boldsymbol{b}}_{head}\boldsymbol{b}_{head}. b~inℓbinℓ,b~headbhead.
在这里我们也可以简单证明一下。我们参考Algorithm 1中1-7行对前向传播的各个步骤给出对应的公式 1 : X ← S W e m b d 2 : X ← R M S N o r m 0 ( X ) 3 : f o r ℓ 1 … L d o 4 : Z ← σ ℓ ( X W i n ℓ b i n ℓ ) W o u t ℓ b o u t ℓ 5 : X ← R M S N o r m ℓ ( X Z ) 6 : end for 7 : return XW h e a d b h e a d \begin{aligned} 1\colon\mathbf{X} \leftarrow S\mathbf{W}_{\mathrm{embd}}\\ 2\colon\mathbf{X} \leftarrow \mathrm{RMSNorm}_0(\mathbf{X})\\ 3\colon\mathbf{for}\ell1\ldots L\mathbf{~do}\\ 4{:}\quad\mathbf{Z} \leftarrow \sigma_\ell(\mathbf{XW}_{\mathrm{in}}^\ell\boldsymbol{b}_{\mathrm{in}}^\ell)\mathbf{W}_{\mathrm{out}}^\ell\boldsymbol{b}_{\mathrm{out}}^\ell\\ 5{:}\quad\mathbf{X} \leftarrow \mathrm{RMSNorm}_\ell(\mathbf{X}\mathbf{Z})\\ 6{:}\textbf{ end for}\\ 7{:}\textbf{ return XW}_{\mathrm{head}}\mathbf{b}_{\mathrm{head}} \end{aligned} 1:X←SWembd2:X←RMSNorm0(X)3:forℓ1…L do4:Z←σℓ(XWinℓbinℓ)Woutℓboutℓ5:X←RMSNormℓ(XZ)6: end for7: return XWheadbhead 其中 S ∈ R N × h W e m b d ∈ R h × D W h e a d ∈ R D × h S \in R^{N \times h} \mathbf{W}_{\mathrm{embd}} \in R^{h \times D}\mathbf{W}_{\mathrm{head}} \in R^{D \times h} S∈RN×hWembd∈Rh×DWhead∈RD×h。为了简化统一认为 W i n , W o u t ∈ R D × D \mathbf{W}_{\mathrm{in}}, \mathbf{W}_{\mathrm{out}} \in R^{D \times D} Win,Wout∈RD×D。其中 N N N为序列长度 h h h为one-hot编码的长度 D D D为hidden dimension或者叫embedding dimension。
施加正交矩阵 Q \mathbf{Q} Q后的各步骤公式如下我们将 X , X ~ \mathbf{X}, \tilde{\mathbf{X}} X,X~分别表示为施加正交变换前正交变换后block的输入/输出 line1 : S W ~ e m b d S W e m b d Q X Q → X ~ \text{line1}: S\tilde{\mathbf{W}}_{\mathrm{embd}} S\mathbf{W}_{\mathrm{embd}}\mathbf{Q} \mathbf{XQ} \rightarrow \tilde{\mathbf{X}} line1:SW~embdSWembdQXQ→X~ line2 : RMSNorm ( X ~ ) RMSNorm ( X Q ) RMSNorm ( X ) Q → X ~ \text{line2}: \text{RMSNorm}(\tilde{\mathbf{X}}) \text{RMSNorm}(\mathbf{X}\mathbf{Q}) \text{RMSNorm}(\mathbf{X})\mathbf{Q} \rightarrow \tilde{\mathbf{X}} line2:RMSNorm(X~)RMSNorm(XQ)RMSNorm(X)Q→X~ line4 : σ ℓ ( X ~ W ~ i n ℓ b ~ i n ℓ ) W ~ o u t ℓ b ~ o u t ℓ σ ℓ ( X Q Q ⊤ W i n ℓ b i n ℓ ) W o u t ℓ Q b o u t ℓ Q ( σ ℓ ( X W i n ℓ b i n ℓ ) W o u t ℓ b o u t ℓ ) Q Z Q → Z ~ \text{line4}: \sigma_\ell(\mathbf{\tilde{X}\tilde{W}}_{\mathrm{in}}^\ell\boldsymbol{\tilde{b}}_{\mathrm{in}}^\ell)\mathbf{\tilde{W}}_{\mathrm{out}}^\ell\boldsymbol{\tilde{b}}_{\mathrm{out}}^\ell \sigma_\ell(\mathbf{X Q Q^\top W}_{\mathrm{in}}^\ell\boldsymbol{b}_{\mathrm{in}}^\ell)\mathbf{W}_{\mathrm{out}}^\ell \mathbf{Q}\boldsymbol{b}_{\mathrm{out}}^\ell \mathbf{Q} (\sigma_\ell(\mathbf{XW}_{\mathrm{in}}^\ell\boldsymbol{b}_{\mathrm{in}}^\ell)\mathbf{W}_{\mathrm{out}}^\ell\boldsymbol{b}_{\mathrm{out}}^\ell)\mathbf{Q} \mathbf{ZQ} \rightarrow \tilde{\mathbf{Z}} line4:σℓ(X~W~inℓb~inℓ)W~outℓb~outℓσℓ(XQQ⊤Winℓbinℓ)WoutℓQboutℓQ(σℓ(XWinℓbinℓ)Woutℓboutℓ)QZQ→Z~ line5 : RMSNorm ( X ~ Z ~ ) RMSNorm ( X Q Z Q ) RMSNorm ( X Z ) Q X Q → X ~ \text{line5}: \text{RMSNorm}(\tilde{\mathbf{X}} \tilde{\mathbf{Z}}) \text{RMSNorm}(\mathbf{XQ} \mathbf{ZQ}) \text{RMSNorm}(\mathbf{X} \mathbf{Z})\mathbf{Q} \mathbf{XQ} \rightarrow \mathbf{\tilde{X}} line5:RMSNorm(X~Z~)RMSNorm(XQZQ)RMSNorm(XZ)QXQ→X~ line7 : X ~ W ~ head b ~ head X Q Q ⊤ W head b head X W head b head → X ~ X \text{line7}: \mathbf{\tilde{X}}\mathbf{\tilde{W}}_\text{head} \boldsymbol{\tilde{b}}_\text{head} \mathbf{X Q Q^\top W_\text{head}} \boldsymbol{b}_\text{head} \mathbf{X W_\text{head}} \boldsymbol{b}_\text{head} \rightarrow \mathbf{\tilde{X}} \mathbf{X} line7:X~W~headb~headXQQ⊤WheadbheadXWheadbhead→X~X
发现 line7 \text{line7} line7 结果相等。综上可以证明变换前后输出不变。
3.2 Transformer中LN向RMSNorm的转换
根据eq.1我们可以知道LN与RMSNorm之间存在转换关系。其中最重要的两个就是mean-substraction: M \mathbf{M} M以及系数: diag ( α ) \text{diag}(\alpha) diag(α)。作者指出可以将LayerNorm中的这两个步骤分别放在前一个Block与后一个Block当中如Figure 3所示。可以对比一下Figure 2与Figure 3有哪些不同。
可以发现 W in \mathbf{W}_\text{in} Win都是左乘 diag ( α ) \text{diag}(\alpha) diag(α)而 W out \mathbf{W}_\text{out} Wout均为右乘 M \mathbf{M} M。除了考虑Figure 3中所包含的Attention Block以及FFN Block当中的 W in \mathbf{W}_\text{in} Win与 W out \mathbf{W}_\text{out} Wout以外考虑 W embd , W head \mathbf{W}_\text{embd}, \mathbf{W}_\text{head} Wembd,Whead应该分别左乘 diag ( α ) \text{diag}(\alpha) diag(α)、右乘 M \mathbf{M} M。这里其实很好理解因为embedding层位于第一个LN层的前面而LM Head层恰好在最后一个LN层的后面 用矩阵运算求均值乘以矩阵 M M M即可。对最后一个维度求均值对一行求均值 M I − 1 D 1 ⋅ 1 T s . t . I ∈ R D × D , 1 ∈ R D × 1 M I - \frac{1}{D}1 \cdot 1^T \quad s.t. \quad I \in \mathbb{R}^{D \times D}, \ 1 \in \mathbb{R}^{D \times 1} MI−D11⋅1Ts.t.I∈RD×D, 1∈RD×1 因此严格来说将LayerNorm中的均值相减操作融合至前一个block后似乎与原始的模型不太一致因为矩阵乘法不遵循交换律。但代码实现中直接对权重矩阵做了mean-substraction操作。本人理解可能是作者为了简便以及希望可以pre-compute W in \mathbf{W}_\text{in} Win 的一种权宜之计。这里加粗处存疑如有问题请大佬指正 3.3 Transformation Per Block
作者指出对不同的Block应该根据当前输入的signal matrix的不同计算得到不同的正交阵 Q \mathbf{Q} Q。但是Algorithm 1中 line 5 \text{line 5} line 5会存在等式不相等的情况 ( X ~ Z ~ ) ( X Q ℓ − 1 Z Q ℓ ) ≠ ( X Z ) Q ℓ . 因为不同Block正交阵不相等 (\tilde{\mathbf{X}} \tilde{\mathbf{Z}}) (\mathbf{X}\mathbf{Q}_{\ell - 1} \mathbf{Z}\mathbf{Q}_\ell) \neq (\mathbf{X} \mathbf{Z})\mathbf{Q}_\ell. \quad \text{因为不同Block正交阵不相等} (X~Z~)(XQℓ−1ZQℓ)(XZ)Qℓ.因为不同Block正交阵不相等 本质原因是存在Residual Connection。故每一个残差连接对应的 X \textbf{X} X应当右乘 Q ℓ − 1 Q ℓ \mathbf{Q}_{\ell - 1}\mathbf{Q}_\ell Qℓ−1Qℓ以保证 line 5 \text{line 5} line 5等式成立。
最终的经过变换后的Transformer Block示意图如Figure 4所示
3.3(续)如何构造正交阵Q
作者提出根据每一层不同的signal matrix分别构造不同的正交阵。公式如下 C ℓ ∑ i X ℓ , i ⊤ X ℓ , i (8) \mathbf{C}_{\ell}\sum_{i}\mathbf{X}_{\ell,i}^{\top}\mathbf{X}_{\ell,i} \tag8 Cℓi∑Xℓ,i⊤Xℓ,i(8) 其中 X ℓ , i \mathbf{X}_{\ell,i} Xℓ,i表示第 ℓ \ell ℓ个 RMSNorm \text{RMSNorm} RMSNorm层对于第 i i i个sequence的输出。 Q ℓ \mathbf{Q}_\ell Qℓ即为 C ℓ \mathbf{C}_{\ell} Cℓ经过特征分解后按特征值从大到小排列的所有特征向量所构成的矩阵。 注 C ℓ \mathbf{C}_{\ell} Cℓ为对称矩阵有什么意义首先实对称矩阵的特征值肯定为实数。
3.4 Slicing
类似PCA当中的操作选取 Q \mathbf{Q} Q的特征值最大的 D small D_\text{small} Dsmall个特征向量构造删除矩阵 D ∈ R D × D small \mathbf{D} \in R^{D \times D_\text{small}} D∈RD×Dsmall将 X \mathbf{X} X映射为一个低纬度的特征 Z \mathbf{Z} Z然后再经过正交阵的转置又变换回 X ~ \tilde{\mathbf{X}} X~相当于reconstruction的过程。如以下公式所示 Z X Q D , X ~ Z D ⊤ Q ⊤ . (9) \mathbf{Z}\mathbf{X}\mathbf{Q}\mathbf{D}\mathrm{~,~~~~}\tilde{\mathbf{X}}\mathbf{Z}\mathbf{D}^{\top}\mathbf{Q}^{\top}. \tag9 ZXQD , X~ZD⊤Q⊤.(9)
具体的slice过程如下图所示Figure 1的右图 多头注意力机制实现方法
第一种实现将输入向量降维成多个低维向量比如8个头embedding维度为512那么就有24个Linear(512, 64)其中8个作为 W q W_q Wq8个作为 W k W_k Wk8个作为 W v W_v Wv这里Linear(512, 64)即是权重矩阵也起到降维作用。然后8个降维后的向量各自做各自的attention得到attention中每个head的输出每个维度为64再把这8个输出拼接起来得到维度为512然后再经过一个线性层Linear(512,512)得到multi-head attention最终的输出。第二种实现还是8个头的注意力机制但是 W q W k W v W_qW_kW_v WqWkWv都只有一个为Linear(512,512)然后将 W q W k W v W_qW_kW_v WqWkWv输出的embedding reshape使用view函数把shape变换为[N, seq, head_num, head_dim]分别对应为样本数序列长度head数量每个head分得的维度数比如8个头则shape为[N, seq, 8, 64]然后直接做点乘最后再reshape将维度变换回去再经过线性层Linear(512,512)得到多头注意力机制的最终输出。 问题
如何做Fusion即如何将LN中的Linear operation融合至相邻线性层 Embedding层只做了mean substraction。其余层直接和LN层的参数做element-wise multiplication。相当于乘以了缩放系数这里没问题。如何求解正交矩阵 Q \mathbf{Q} Q对signal matrix指的是input / embedding使用PCAQR分解后续需补充QR分解和特征分解的关系。文中提到哪些部分不能pre-computed指的是 Q ℓ − 1 Q ℓ \mathbf{Q}_{\ell - 1}\mathbf{Q}_\ell Qℓ−1Qℓ可以从代码实现中看到该算法是一边forward一边剪枝也就是需要等当前的Block前向传播完毕后拿到当前Block的输出下一个Block的输入才能开始计算下一个Block的 Q \mathbf{Q} Q。比如当前是第 ℓ − 1 \ell - 1 ℓ−1个Block等这一个Block前向传播完毕后才能开始算 Q ℓ \mathbf{Q}_{\ell} Qℓ。Norm层的可学习参数是指的哪些指 γ β \gamma\beta γβ即缩放系数和偏移量: https://www.cnblogs.com/tian777/p/17911800.htmlConvolutional Layer是否也具有计算不变性LN层为什么不具备计算不变性解释RMSNorm为什么具备计算不变性 词语释义
cornerstone 基石 post-hoc after this 事后的adj./事后adv. complementary 补充的 undertaking 任务/项目 so long as 只要 whilst 与此同时 参考链接
SliceGPT原文链接SliceGPT源码LLM大模型压缩——ICLR 2024 SliceGPT原理详解SliceGPT概述Phi-2 Transformer模型代码 (作者的实验代码中给出了Phi-2对应的ModelAdapter以及LayerAdapter的实现)机器之心: SliceGPT