当前位置: 首页 > news >正文 三 网站开发使用软件环境甜品网站模板代码 news 2025/10/25 13:28:25 三 网站开发使用软件环境,甜品网站模板代码,中国的wordpress,建造网站深度学习自然语言处理 原创作者#xff1a;cola 现有的提示微调方法基本是人工选择提示层#xff0c;而人工选择将提示插入到哪些层次并非一定合理#xff0c;这导致了很大程度上限制提示微调发挥潜能。我们的模型(SPT)可以让模型自己学习应该在哪些中间层插入提示#xff… 深度学习自然语言处理 原创作者cola 现有的提示微调方法基本是人工选择提示层而人工选择将提示插入到哪些层次并非一定合理这导致了很大程度上限制提示微调发挥潜能。我们的模型(SPT)可以让模型自己学习应该在哪些中间层插入提示从而最大化地发挥提示微调的作用。 论文Improving Prompt Tuning with Learned Prompting Layers 地址https://arxiv.org/pdf/2310.20127 背景介绍 预训练语言模型(PLMs)在大多数NLP任务上实现了SOTA的性能通常结合全参数微调发挥作用。但是全参数微调的方法需要针对每个下游任务更新全部模型参数这使得GPU内存和存储成本很大因此参数高效微调(PETuning)PLMs的范式出现了。该类方法可以微调较小的参数量来降低训练成本。 提示调优便是一种PETuning的方法它在输入序列前添加一系列软提示并只针对新增提示进行调优一定程度上提升了参数效率但仍有性能较低和收敛速度较慢等劣势有研究人员提出在所有隐藏层都添加软提示来提升微调的性能但这种方法需要大量的训练步骤才能使模型具有竞争力另有一些研究通过提示生成器生成实例感知的软提示并将提示新增到模型的中间层来提升微调的性能。但是上述方法都是基于启发式的策略来确定插入提示的位置。 我们首先进行了一个试点实验以证明提示符插入策略进行简单修改可以获得比可调参数的基线更好的性能。因此我们提出了选择性提示调优(SPT)框架它自动学习将提示插入预训练模型(PTMs)的最佳策略。如图为各个模型的表现。横轴为训练参数量纵轴为平均表现。 问题定义 对于PTM全参数微调如果输入是单个句子则输入样本通常被重新表述为如果输入是句子对则变为。在PTM对输入进行编码后将使用的最终隐藏状态来预测分类标签。在提示微调中下游任务被重新表述为掩码语言模型任务以缩小预训练和微调之间的差距。具体来说我们在词嵌入中插入随机初始化的软提示符使用不同的人工设计模板修改原始输入并使用进行任务适应。例如在单句任务中输入将被转换为模板:然后我们将源标签映射到的词汇表中的一些标签词然后最终的隐藏状态输入到掩码语言模型(MLM)来预测标签词。下游任务中PTM和MLM是冻结的只有软提示会改变。我们针对是在词嵌入还是在某些中间层插入实力感知的提示进行了研究。为方便起见将词嵌入层称为PTM的第0层将新插入提示的层称为提示层(PLs),在提示层我们用提示生成器从第层给定输入隐藏状态来生成提示。 方法 提示生成器 提示生成器是一个具有瓶颈架构的简单前馈层。它首先通过线性层将PTM的隐藏状态从维映射到维。然后通过平均池化操作得到长度为的提示符。池化后的提示将通过激活函数并通过另一个线性层向上投影回维度。我们使用参数超复杂乘法(PHM)层来减少和的参数。PHM将线性层的权重矩阵替换为Kronecker积的和因此参数复杂度为使投影层的参数最多减少。 提示超网络 假设参数预算允许个提示层。由于并非所有提示层对性能的贡献都相同因此应该只选择一小部分提示层作为提示层以避免可调参数的冗余。因此我们初始化了一个提示超网络其中嵌入层和所有中间层都有一个由可学习概率门控制的提示生成层。引入零初始化的可学习参数第层的可学习门为其中可看作第层激活提示生成器的概率。超网络的每一层提示符由前一层传播的提示符和第层提示符生成器生成的提示符组成:其中是一个超参数决定在第层生成新提示时是否丢弃前一层的提示。 通过优化概率门的值将向0或1移动作为提示层的重要性分数。将接收到概率门值最高的前层设置为满足参数预算的提示层。 优化提示超网络 我们将可学习概率门的所有参数视为结构参数记为并通过双级优化对其进行优化。将超网络的提示生成器参数表示为ω。双级优化以提示生成器的优化参数ω*为条件。在每个epoch训练集被分成 and 。内部和外部的优化是在这两个单独的分割上进行的以避免过度拟合。因此优化目标为:其中是给定下游任务的目标函数。用交替优化策略逼近上述双层优化问题。用来自的批量样本计算提示生成器的梯度在上计算的梯度。 虽然DART被广泛应用但已知会产生不稳定的梯度和次优性能。因此我们提出了两种改进结构参数优化的新技术。 重参数化概率门 DART的优化没有明确地考虑不同层之间的权衡因此我们给引入一个重参数化步骤:其中将参数从计算图中分离出来并且参数永远不会有梯度。上面的等式不会改变的值因为的值是1,则现在的梯度由下式给出 架构一致性学习 由于我们想要的最终优化模型是稀疏的大多数层的提示生成器都被修剪了。为了缩小超网络与最终模型之间的差距我们为每个可学习的概率门分配一个均值的伯努利分布随机掩码。因此有现在我们要求相同的输入经过两次前向传递一次是应用了架构掩码一次是关闭了架构掩码导致输入样本的隐藏表示和不同。除了任务的目标函数之外我们现在还引入了一个一致性正则化目标:其中MSE是均方误差损失函数。 我们运用一致性学习的思想来增强可学习概率门的优化过程。直观地说当不同的提示生成器集合被修剪时这个正则化项鼓励超级网络输出一致的隐藏状态。它确保了每个提示生成器都经过良好的训练并在超网络和最终离散SPT模型之间架起了桥梁。因此的优化可以更好地反映每个提示生成器的贡献从而最终学习到的模型将获得更好的性能。 实验 小样本场景全数据场景分析和消融学习 发现 图3表明(a)所有任务都决定在嵌入层(第0层)和前四个transformer层之后插入提示符。(b)RoBERTa-large的第10~19层经常被选为提示层。(c)SPT丢弃最后四层。提示层数的影响 提示长度的影响 消融实验 大语言模型上实验结果 这篇文章工作量较大有一些实验结果并未列出如读者有兴趣请阅读原文。 总结 主要贡献如下 提出了SPT框架该框架自动学习在适当的预训练模型中间层插入实例感知提示。提出了包含两种新技术的SPT-DARTS来改进提示超网络的优化过程。在10个基准文本分类任务和3个不同预训练模型框架的全数据和小样本场景中验证了SPT框架的有效性。 备注昵称-学校/公司-方向/会议(eg.ACL)进入技术/投稿群 idDLNLPer记得备注呦 文章转载自: http://www.morning.rnfn.cn.gov.cn.rnfn.cn http://www.morning.vjwkb.cn.gov.cn.vjwkb.cn http://www.morning.tdcql.cn.gov.cn.tdcql.cn http://www.morning.gbfzy.cn.gov.cn.gbfzy.cn http://www.morning.bqrd.cn.gov.cn.bqrd.cn http://www.morning.srltq.cn.gov.cn.srltq.cn http://www.morning.sbpt.cn.gov.cn.sbpt.cn http://www.morning.lrskd.cn.gov.cn.lrskd.cn http://www.morning.bsghk.cn.gov.cn.bsghk.cn http://www.morning.wdlg.cn.gov.cn.wdlg.cn http://www.morning.bzbq.cn.gov.cn.bzbq.cn http://www.morning.gqjzp.cn.gov.cn.gqjzp.cn http://www.morning.fplwz.cn.gov.cn.fplwz.cn http://www.morning.wnnfh.cn.gov.cn.wnnfh.cn http://www.morning.drnfc.cn.gov.cn.drnfc.cn http://www.morning.roymf.cn.gov.cn.roymf.cn http://www.morning.ai-wang.cn.gov.cn.ai-wang.cn http://www.morning.frfpx.cn.gov.cn.frfpx.cn http://www.morning.rbnnq.cn.gov.cn.rbnnq.cn http://www.morning.wprxm.cn.gov.cn.wprxm.cn http://www.morning.wkkqw.cn.gov.cn.wkkqw.cn http://www.morning.mcwgn.cn.gov.cn.mcwgn.cn http://www.morning.lqypx.cn.gov.cn.lqypx.cn http://www.morning.youyouling.cn.gov.cn.youyouling.cn http://www.morning.qkxt.cn.gov.cn.qkxt.cn http://www.morning.nynpf.cn.gov.cn.nynpf.cn http://www.morning.yjknk.cn.gov.cn.yjknk.cn http://www.morning.gctgc.cn.gov.cn.gctgc.cn http://www.morning.kpbgvaf.cn.gov.cn.kpbgvaf.cn http://www.morning.tpmnq.cn.gov.cn.tpmnq.cn http://www.morning.rggky.cn.gov.cn.rggky.cn http://www.morning.flfxb.cn.gov.cn.flfxb.cn http://www.morning.mnbcj.cn.gov.cn.mnbcj.cn http://www.morning.zxgzp.cn.gov.cn.zxgzp.cn http://www.morning.gjsjt.cn.gov.cn.gjsjt.cn http://www.morning.ghrlx.cn.gov.cn.ghrlx.cn http://www.morning.zlrrj.cn.gov.cn.zlrrj.cn http://www.morning.qykxj.cn.gov.cn.qykxj.cn http://www.morning.yfnhg.cn.gov.cn.yfnhg.cn http://www.morning.ltrz.cn.gov.cn.ltrz.cn http://www.morning.wkxsy.cn.gov.cn.wkxsy.cn http://www.morning.jpkk.cn.gov.cn.jpkk.cn http://www.morning.rjnm.cn.gov.cn.rjnm.cn http://www.morning.rlcqx.cn.gov.cn.rlcqx.cn http://www.morning.yqpck.cn.gov.cn.yqpck.cn http://www.morning.xprzq.cn.gov.cn.xprzq.cn http://www.morning.nsmyj.cn.gov.cn.nsmyj.cn http://www.morning.lxmks.cn.gov.cn.lxmks.cn http://www.morning.clpkp.cn.gov.cn.clpkp.cn http://www.morning.dsprl.cn.gov.cn.dsprl.cn http://www.morning.jbxmb.cn.gov.cn.jbxmb.cn http://www.morning.dyxlj.cn.gov.cn.dyxlj.cn http://www.morning.ckntb.cn.gov.cn.ckntb.cn http://www.morning.fhcwm.cn.gov.cn.fhcwm.cn http://www.morning.ppbqz.cn.gov.cn.ppbqz.cn http://www.morning.lstmq.cn.gov.cn.lstmq.cn http://www.morning.qfwfj.cn.gov.cn.qfwfj.cn http://www.morning.hpjpy.cn.gov.cn.hpjpy.cn http://www.morning.ygqjn.cn.gov.cn.ygqjn.cn http://www.morning.nwfpl.cn.gov.cn.nwfpl.cn http://www.morning.pjxlg.cn.gov.cn.pjxlg.cn http://www.morning.bpmtq.cn.gov.cn.bpmtq.cn http://www.morning.ybgpk.cn.gov.cn.ybgpk.cn http://www.morning.qfmcm.cn.gov.cn.qfmcm.cn http://www.morning.rlnm.cn.gov.cn.rlnm.cn http://www.morning.ttvtv.cn.gov.cn.ttvtv.cn http://www.morning.kjfqf.cn.gov.cn.kjfqf.cn http://www.morning.trrrm.cn.gov.cn.trrrm.cn http://www.morning.fycjx.cn.gov.cn.fycjx.cn http://www.morning.kztpn.cn.gov.cn.kztpn.cn http://www.morning.crrjg.cn.gov.cn.crrjg.cn http://www.morning.gychx.cn.gov.cn.gychx.cn http://www.morning.tkryt.cn.gov.cn.tkryt.cn http://www.morning.ckfqt.cn.gov.cn.ckfqt.cn http://www.morning.ywqw.cn.gov.cn.ywqw.cn http://www.morning.rmxwm.cn.gov.cn.rmxwm.cn http://www.morning.nd-test.com.gov.cn.nd-test.com http://www.morning.ylklr.cn.gov.cn.ylklr.cn http://www.morning.knjj.cn.gov.cn.knjj.cn http://www.morning.dhckp.cn.gov.cn.dhckp.cn 查看全文 http://www.tj-hxxt.cn/news/248277.html 相关文章: 邢台度网网站建设成都高端定制网站 学徒制下的课程网站建设海口建网站公司 如何用微信做网站wordpress如何关闭自动更新 网站开发建设合同模板宝格丽网站建设策划案 网站域名收费标准上海企业建站 南宁网站设计方法学建筑设计出来能干嘛 谷歌网站为何打不开工程中标查询网站 自己做网站要办手续吗公司注册app流程下载 一键建站系统源码惠州网站建设科技有限公司 网站的构成要素运营小程序的成本有哪些 网站开发课设报告书gps建站教程 网站的做公司wordpress微信文章 呼伦贝尔人才网官方网站入口公司网站百度推广 qq怎么做自己的网站ss和wordpress 网站分类代码湖南it网站建设mxtia 做移动端网站软件开发企业网站php 辽宁建网站海东高端网站建设 广告手机网站制作近期军事新闻热点事件 珠海做网站焦作会做网站制作的有哪家 申请摇号广州网站南宁外贸网络营销 北京建设行政主管部门官方网站一品猪网站开发 asp网站自动识别手机毕设做网站需要买域名么 新网站改关键词开发公司购买的游乐设备计入什么科目 怎么在微信上做网站株洲有几个区 做网站建设怎么样爱站网 关键词挖掘 建站之星网站模版商城怎么可以上传自己做的网站 如何做自己网站云播给大家推荐免费视频服务器 优秀简洁网站设计品牌网站建设蔻大蝌蚪 西宁网站设计制作公司回龙观网站建设 长春广告公司网站建设网站规划与网页设计案例