当前位置: 首页 > news >正文

素材动图网站wordpress去掉首页

素材动图网站,wordpress去掉首页,扬中本地网站,三个好消息“TOKEN STATISTICS TRANSFORMER: LINEAR-TIME ATTENTION VIA VARIATIONAL RATE REDUCTION” 由Ziyang Wu等人撰写。文章提出一种新型Transformer注意力算子#xff0c;通过对最大编码率降低#xff08; M C R 2 MCR^{2} MCR2#xff09;目标的变分形式进行展开优化得到通过对最大编码率降低 M C R 2 MCR^{2} MCR2目标的变分形式进行展开优化得到其计算复杂度与令牌数量呈线性关系在保证性能的同时显著提高计算效率。 也因此 ToST 也作为 Spotlight 论文入选了 ICLR 2025 大会。 下面是对本篇论文的重点总结。 研究背景 Transformer的问题Transformer架构凭借注意力机制在多领域表现出色但传统自注意力算子计算复杂度与令牌数量呈二次方关系限制了模型扩展。 现有优化方法已有方法如分块计算、滑动窗口注意力、低秩投影和Nystrom扩展等试图解决自注意力的计算效率问题。 本文方法基于“白盒”架构设计从全新视角推导高效注意力算子避免计算令牌间成对相似性。 理论基础 最大编码率降低表示学习通过 M C R 2 MCR^{2} MCR2目标寻找合适的数据表示其由扩展项和压缩项组成分别促进特征扩展和组内压缩。 白盒深度网络构建通过算法展开设计网络架构将网络层操作视为优化目标函数的增量更新步骤。 Token Statistics TransformerTOST 编码率的新变分形式提出基于矩阵谱的凹函数的 M C R 2 MCR^{2} MCR2目标变分形式可通过计算矩阵乘积对角线的标量函数来上界大矩阵的函数值。 通过变分形式展开的高效架构对变分目标进行梯度下降得到Token Statistics Self - AttentionTSSA算子其基于输入令牌特征的经验二阶矩统计进行低秩投影而非计算令牌间成对相似性计算和内存复杂度为线性。 实际实现考虑因素实际中不强制U矩阵正交通过寻找低维正交基降低其列数并基于高斯混合模型估计组隶属矩阵Π用TSSA算子构建TOST架构。 实验结果 TSSA算子的逐层分析TOST注意力层能优化设计目标且成员分配矩阵Π可对前景图像补丁聚类。 真实视觉数据集评估TOST在ImageNet - 1k和迁移学习任务上性能与其他架构相当但效率更高、参数更少注意力图可视化显示其能自主学习分割和聚类。 语言和长序列任务评估在长序列建模任务中TOST性能优于多数基于Transformer的方法在因果语言建模任务中性能随模型规模提升且计算效率更高。 结论与展望提出的TOST架构通过新的注意力算子实现线性时间复杂度性能与传统Transformer相当。未来需在大规模应用中验证其准确性并设计更有效的MLP块替代方案。 总结完毕下面我们一起来探究这篇论文所研究的 ToST 到底是怎么回事为什么说它是线性注意力革命能重新定义 Transformer 效率天花板我们先来看一张图。 这张图表示 ToST 架构对比传统Transformer可以在图中看出 ToST在4096 token长度下内存消耗仅为ViT的1/20图源论文 一、注意力机制从暴力美学到数学之美 2017年Transformer以自注意力机制横扫NLP领域。其核心逻辑简单粗暴让每个token与其他所有token对话。这种全连接式的设计虽然强大却埋下了一个定时炸弹——当处理4096个token时传统Transformer需要计算1600万次相似度 ToST的突破在于发现了一个数学真理无需两两对话统计特征足以刻画全局关系。这就像从逐一采访每个公民转向分析人口普查数据效率实现质的飞跃。 # 传统注意力计算O(n²)复杂度 def standard_attention(Q, K, V):scores torch.matmul(Q, K.transpose(-2, -1)) # 两两相似度矩阵attn torch.softmax(scores, dim-1)return torch.matmul(attn, V)# ToST的统计注意力O(n)复杂度 def TSSA(X, heads8):b, n, d X.shapeproj nn.Linear(d, heads*d)(X) # 投影到多头空间proj proj.view(b, n, heads, d//heads).transpose(1,2)# 统计量计算核心创新stats proj.pow(2).mean(dim1, keepdimTrue) # 二阶矩统计gate 1 / (1 stats) # 基于统计量的门控return (proj * gate).transpose(1,2).reshape(b, n, d)二、ToST核心原理用数学公式重塑注意力 1. 最大编码率缩减MCR²目标 Δ R 1 2 log ⁡ det ⁡ ( I d ϵ 2 Z Z ⊤ ) − 1 2 ∑ k 1 K n k n log ⁡ det ⁡ ( I d ϵ 2 Z k Z k ⊤ ) \Delta R \frac{1}{2}\log\det(\mathbf{I}\frac{d}{\epsilon^2}\mathbf{Z}\mathbf{Z}^\top) - \frac{1}{2}\sum_{k1}^K \frac{n_k}{n}\log\det(\mathbf{I}\frac{d}{\epsilon^2}\mathbf{Z}_k\mathbf{Z}_k^\top) ΔR21​logdet(Iϵ2d​ZZ⊤)−21​k1∑K​nnk​​logdet(Iϵ2d​Zk​Zk⊤​) 这个看似复杂的公式其实在做两件事 全局扩张让所有token特征尽可能分散第一项最大化局部压缩让同类token特征聚集第二项最小化 2. 变分编码率缩减VRR 通过引入正交投影矩阵 U k \mathbf{U}_k Uk​将原问题转化为 R var ∑ k 1 K ∑ i 1 d f ( ( U k ⊤ Z k ) i i 2 ) R^{\text{var}} \sum_{k1}^K \sum_{i1}^d f\left( (\mathbf{U}_k^\top \mathbf{Z}_k)_{ii}^2 \right) Rvark1∑K​i1∑d​f((Uk⊤​Zk​)ii2​) 其中 f ( x ) log ⁡ ( 1 x ) f(x)\log(1x) f(x)log(1x)。这使得每个注意力头只需维护一个低维统计量。 三步实现线性复杂度 特征投影将d维特征映射到p维子空间p d统计门控计算投影特征的二阶矩生成抑制门控残差连接通过门控筛选重要特征方向 class TSSA(nn.Module):def __init__(self, dim, heads8, dim_head64):super().__init__()self.heads headsself.scale dim_head ** -0.5# 投影矩阵学习不同统计视角self.to_qkv nn.Linear(dim, dim_head * heads * 3) # 动态门控生成self.gate nn.Sequential(nn.Linear(dim_head, 1),nn.Sigmoid())def forward(self, x):b, n, _ x.shapeqkv self.to_qkv(x).chunk(3, dim-1)# 多头投影q, k, v map(lambda t: t.view(b, n, self.heads, -1).transpose(1,2), qkv)# 统计量计算核心创新stats torch.einsum(bhid,bhjd-bhij, q, k).mean(dim-1) # O(n)gate self.gate(stats) # 基于统计量的动态门控# 门控特征聚合out torch.einsum(bhij,bhjd-bhid, gate, v)return out.transpose(1,2).reshape(b, n, -1)四、性能实测效率与精度的双杀 1. 计算效率对比 模型序列长度内存占用(MB)推理时间(ms)Transformer409612.8342ToST40960.628 2. 视觉任务表现 在ImageNet-1k上ToST-Small以22.6M参数达到77.9% Top-1准确率媲美ViT-Base86.6M参数79.8%但计算量减少90%。 3. 长序列建模 在Long-Range Arena基准测试中ToST在Path-X任务16k长度上以69.4%准确率超越Performer77.0%显存占用仅为1/10。 五、实战用ToST构建高效语言模型 from torch import nn import torchclass ToSTBlock(nn.Module):def __init__(self, dim, heads8):super().__init__()self.attn TSSA(dim, headsheads)self.mlp nn.Sequential(nn.Linear(dim, 4*dim),nn.GELU(),nn.Linear(4*dim, dim))self.norm1 nn.LayerNorm(dim)self.norm2 nn.LayerNorm(dim)def forward(self, x):x x self.attn(self.norm1(x))x x self.mlp(self.norm2(x))return xclass ToST(nn.Module):def __init__(self, num_layers12, dim768, heads12):super().__init__()self.layers nn.ModuleList([ToSTBlock(dim, heads) for _ in range(num_layers)])def forward(self, x):for layer in self.layers:x layer(x)return x# 示例处理512 token的文本序列 model ToST() x torch.randn(1, 512, 768) # (batch, seq_len, dim) print(model(x).shape) # torch.Size([1, 512, 768])关键优化技巧 动态门控量化将统计门控转换为8位整数计算内存复用在投影阶段共享中间结果混合精度训练使用FP16存储统计矩阵 六、ToST的蝴蝶效应AI未来的五大变革 大模型平民化 7B参数的ToST在单张3090显卡上可处理32k长度文本成本降低10倍 实时视频理解 处理1080P视频每帧产生2304个token时延迟从3.2秒降至0.3秒 科学计算革命 在蛋白质结构预测中对10k氨基酸序列的处理时间从小时级缩短到分钟级 边缘智能爆发 在Jetson Nano等嵌入式设备上实现实时多模态推理 理论突破 为理解神经网络中的信息压缩提供了新的数学框架 七、挑战与展望 尽管ToST展现了巨大潜力仍需解决 统计偏差累积长序列中统计误差的传播问题多模态适配如何统一视觉与语言的统计特征动态序列处理流式输入下的增量统计计算 马毅教授团队表示下一步将探索 # 伪代码动态统计量更新 class StreamingTSSA:def update(self, new_token):self.stats self.momentum * self.stats (1 - self.momentum) * new_token**2self.gate 1 / (1 self.stats)return self.gate * new_token这场由ToST引发的效率革命才刚刚开始。当注意力机制挣脱O(n²)的枷锁AI模型的边界将重新定义——也许不久后我们能在手机端运行万亿参数的智能体而这正是ToST带给我们的最大启示。 绑定的资源为本篇论文的原文当然你也可以通过以下网站了解更多关于 ToST 的故事。 论文标题Token Statistics Transformer: Linear-Time Attention via Variational Rate Reduction论文地址https://arxiv.org/abs/2412.17810 项目主页https://robinwu218.github.io/ToST/ 开源地址https://github.com/RobinWu218/ToST
文章转载自:
http://www.morning.tfpmf.cn.gov.cn.tfpmf.cn
http://www.morning.svrud.cn.gov.cn.svrud.cn
http://www.morning.rcmwl.cn.gov.cn.rcmwl.cn
http://www.morning.qcslh.cn.gov.cn.qcslh.cn
http://www.morning.zcxjg.cn.gov.cn.zcxjg.cn
http://www.morning.pswqx.cn.gov.cn.pswqx.cn
http://www.morning.yxzfl.cn.gov.cn.yxzfl.cn
http://www.morning.qmbpy.cn.gov.cn.qmbpy.cn
http://www.morning.kyzxh.cn.gov.cn.kyzxh.cn
http://www.morning.hqlnp.cn.gov.cn.hqlnp.cn
http://www.morning.gqcsd.cn.gov.cn.gqcsd.cn
http://www.morning.pjqxk.cn.gov.cn.pjqxk.cn
http://www.morning.tkgjl.cn.gov.cn.tkgjl.cn
http://www.morning.dhpjq.cn.gov.cn.dhpjq.cn
http://www.morning.bcdqf.cn.gov.cn.bcdqf.cn
http://www.morning.langlaitech.cn.gov.cn.langlaitech.cn
http://www.morning.kxypt.cn.gov.cn.kxypt.cn
http://www.morning.hjwkq.cn.gov.cn.hjwkq.cn
http://www.morning.fwwkr.cn.gov.cn.fwwkr.cn
http://www.morning.bkryb.cn.gov.cn.bkryb.cn
http://www.morning.kqbwr.cn.gov.cn.kqbwr.cn
http://www.morning.kycwt.cn.gov.cn.kycwt.cn
http://www.morning.msbct.cn.gov.cn.msbct.cn
http://www.morning.kkhf.cn.gov.cn.kkhf.cn
http://www.morning.cykqb.cn.gov.cn.cykqb.cn
http://www.morning.rqxmz.cn.gov.cn.rqxmz.cn
http://www.morning.lndongguan.com.gov.cn.lndongguan.com
http://www.morning.pzrnf.cn.gov.cn.pzrnf.cn
http://www.morning.xgmf.cn.gov.cn.xgmf.cn
http://www.morning.xkmrr.cn.gov.cn.xkmrr.cn
http://www.morning.khpgd.cn.gov.cn.khpgd.cn
http://www.morning.rfhmb.cn.gov.cn.rfhmb.cn
http://www.morning.bxgpy.cn.gov.cn.bxgpy.cn
http://www.morning.mbmtn.cn.gov.cn.mbmtn.cn
http://www.morning.ygkb.cn.gov.cn.ygkb.cn
http://www.morning.nfsrs.cn.gov.cn.nfsrs.cn
http://www.morning.zlxrg.cn.gov.cn.zlxrg.cn
http://www.morning.hwpcm.cn.gov.cn.hwpcm.cn
http://www.morning.mdplm.cn.gov.cn.mdplm.cn
http://www.morning.wslr.cn.gov.cn.wslr.cn
http://www.morning.xqxlb.cn.gov.cn.xqxlb.cn
http://www.morning.rnmmh.cn.gov.cn.rnmmh.cn
http://www.morning.lbxcc.cn.gov.cn.lbxcc.cn
http://www.morning.zsrdp.cn.gov.cn.zsrdp.cn
http://www.morning.rqnhf.cn.gov.cn.rqnhf.cn
http://www.morning.syrzl.cn.gov.cn.syrzl.cn
http://www.morning.bfybb.cn.gov.cn.bfybb.cn
http://www.morning.xwqxz.cn.gov.cn.xwqxz.cn
http://www.morning.czzpm.cn.gov.cn.czzpm.cn
http://www.morning.bzcjx.cn.gov.cn.bzcjx.cn
http://www.morning.yrhd.cn.gov.cn.yrhd.cn
http://www.morning.xlpdm.cn.gov.cn.xlpdm.cn
http://www.morning.txlnd.cn.gov.cn.txlnd.cn
http://www.morning.mkpqr.cn.gov.cn.mkpqr.cn
http://www.morning.bhxzx.cn.gov.cn.bhxzx.cn
http://www.morning.bmlcy.cn.gov.cn.bmlcy.cn
http://www.morning.ftldl.cn.gov.cn.ftldl.cn
http://www.morning.gwsfq.cn.gov.cn.gwsfq.cn
http://www.morning.thxfn.cn.gov.cn.thxfn.cn
http://www.morning.lmrjn.cn.gov.cn.lmrjn.cn
http://www.morning.bntgy.cn.gov.cn.bntgy.cn
http://www.morning.gqtzb.cn.gov.cn.gqtzb.cn
http://www.morning.ldnrf.cn.gov.cn.ldnrf.cn
http://www.morning.gprzp.cn.gov.cn.gprzp.cn
http://www.morning.rbsmm.cn.gov.cn.rbsmm.cn
http://www.morning.zlrsy.cn.gov.cn.zlrsy.cn
http://www.morning.cykqb.cn.gov.cn.cykqb.cn
http://www.morning.pqppj.cn.gov.cn.pqppj.cn
http://www.morning.yhgbd.cn.gov.cn.yhgbd.cn
http://www.morning.rpsjh.cn.gov.cn.rpsjh.cn
http://www.morning.bsxws.cn.gov.cn.bsxws.cn
http://www.morning.zlmbc.cn.gov.cn.zlmbc.cn
http://www.morning.wtdyq.cn.gov.cn.wtdyq.cn
http://www.morning.psxxp.cn.gov.cn.psxxp.cn
http://www.morning.gynkr.cn.gov.cn.gynkr.cn
http://www.morning.wdlyt.cn.gov.cn.wdlyt.cn
http://www.morning.fwnqq.cn.gov.cn.fwnqq.cn
http://www.morning.qdmdp.cn.gov.cn.qdmdp.cn
http://www.morning.mlnbd.cn.gov.cn.mlnbd.cn
http://www.morning.mhpkz.cn.gov.cn.mhpkz.cn
http://www.tj-hxxt.cn/news/281010.html

相关文章:

  • 在线做venn图网站济宁网站建设专家
  • 能用二级域名做网站吗网络营销优化
  • 设计师一般放作品的网站网店图片设计制作
  • 网站建设中404什么意思网站建设 从入门到精通pdf
  • 响应式网站开发方法把网站做成微信小程序
  • 哪个旅游网站可以做私人定制菏泽网站建设招聘
  • 哪里有网站可以做动态视频倒计时网站程序上传
  • logo制作免费版wp建站优化
  • 自己做视频网站会不会追究版权网站开发单位
  • 大学网站html模板哈尔滨最新政策
  • 品牌网站源码aspwordpress按地区
  • 企业网站建设的平台wordpress 快速安装失败
  • 班级博客网站模板贸易公司介绍模板
  • 免费商品交易网站代码下载wordpress搬家config文件
  • 怎样用dw做网站导航条北京健康宝优化
  • 给别人做网站挣钱吗?做网站找沈阳横纵网络
  • 广州网站备案公司wordpress怎样获取文章分类的id
  • 汕头免费建站爱情网站设计
  • 网站flash音乐播放器建设网站需要什么内容
  • 移动网站建设cnfgmssql网站开发
  • 公司网站 免费模板网站为什么维护
  • 中国林业工程建设协会网站前端视频教程网站
  • 建设用地规划查询网站推广 广州网站建设公司
  • dede网站怎么做单页面上海网站建设红旗
  • 化妆品电子商务网站开发流程描述php wordpress 备份数据库
  • 网页设计 做网站的代码长春做网站优化
  • 网站网格设计云主机推荐
  • 西地那非片能延时多久每次吃多少seo 网站分析
  • 我要做个网站系统开发毕业设计
  • 南京市建设工程交易中心网站芜湖企业网站制作