当前位置: 首页 > news >正文 服装网站建设前景分析wordpress a news 2025/10/29 15:12:10 服装网站建设前景分析,wordpress a,网站建设催款函,微信公众号 网站开发论文地址#xff1a;《Improving Language Understanding by Generative Pre-Training》 最近一直忙着打比赛#xff0c;好久没更文了。这两天突然想再回顾一下GPT-1和GPT-2的论文#xff0c; 于是花时间又整理了一下#xff0c;也作为一个记录~话不多说#xff0c;让我们… 论文地址《Improving Language Understanding by Generative Pre-Training》 最近一直忙着打比赛好久没更文了。这两天突然想再回顾一下GPT-1和GPT-2的论文 于是花时间又整理了一下也作为一个记录~话不多说让我们一起来品读一下GPT经典之作吧 Abstract 摘要部分其实是介绍了一下GPT研究的动机值得一提的是GPT可以算是预训练微调这种范式在NLP领域成功应用的先河它比BERT还早几个月。摘要中提到无标注数据是很多的但是特定领域带标数据匮乏这对于许多NLP任务中模型的训练是一个很大的挑战。 接下来作者提到了他们的解决方案先在大规模无标注数据集上训练一个预训练模型接着再将此预训练模型放到特定任务中用少量数据微调。这个方案放在现在来看再熟悉不过了但是在当时这种方法确实是新颖之作因为在此之前利用无标注数据建模的先例有著名的Word2Vector但具体到下游任务基本上都是特定任务特别训练这里作者也提到了对比前人的工作他们方法的不同之处在于微调的时候直接构造和任务相关的输入进行的换句话说直接从输入形式来区分不同的任务这样一来他们只需要对模型结构做微小的改动就能达到想要的效果。 1 Instruction 第一段总结来说作者提到了无监督训练方式的重要性能够有效的从原始训练语料中通常认为是无标注的学习的能力可以减轻模型对于下游有监督训练的依赖性作者认为即使在可以进行有监督学习的场景下使用无监督的方式学到很好的语言表征也会让模型的表现更好。这一点在近两年的许多研究成果中也得到了印证。 这一段作者提到了从无标注数据中学习词级别信息是具有挑战性的并且列举了产生挑战性的两点原因 1优化目标不统一。也就是说对于无监督训练来讲可以设计出诸多不同的优化目标但是究竟哪种类型的优化目标是有效的目前还不清晰。显然作者提了一个很好的问题Bert、GPT、Bart、T5、XLNet等等它们的建模过程都要经历无监督训练阶段它们无监督预训练所设计的训练目标不尽相同比如bert采用了LM和NSP的预训练方式Bart去掉了NSP还增加了文档旋转子序列掩码等预训练方式XLNet更是采用了类似排列组合的预训练方式它们都不完全一样也都取得了很好的效果。可是究竟哪一种或者哪几种方式才最有效目前尚不清楚截止该论文。 2如何有效的将学习到的文本表示迁移到下游特定任务中目前业界还没有一个共识。说白了就是目前业界还没有得出一个结论什么结论呢就是如何利用预训练语言模型进行下游任务的微调是最有效的通常都需要根据不同下游任务做一些模型结构上的改动。 作者认为这两点不确定使得半监督学习技术的发展遇到了很大的困难作者在这里提到了半监督学习其实就是“无监督预训练有监督微调”。 这段话其实阐述了一下作者提出的一种半监督学习方式总的来说他们的半监督学习方式虽然也是无监督预训练下游微调两步走的方式但是他们在下游微调任务上采用的是带有手动注释也就是提示的样例学习来将无监督学习到的表示嵌入到不同的下游任务中。这就是后来的提示学习。 作者说明了一下模型架构的选择之所以选择Transformer作为基模作者认为还是因为transformer强大的序列特征提取能力。这段没啥说的。 这一段其实就是作者说了一下他们的方法在几个NLP任务上的效果在12个任务中有9个任务都达到了sota的效果。值得注意的是作者提到了零样本学习看来作者们在GPT-1的时候就已经在思考这一思路了果然大牛都是提前布局。 2 Related Work 这一章节主要介绍了与作者所研究的相关的先前工作。它介绍了半监督学习在自然语言处理中的应用并提到了使用无标签数据进行词级别和短语级别的统计计算以及使用词嵌入来改善性能的方法。此外作者还提到了无监督学习是半监督学习的一种特殊情况其目标是寻找一个好的初始化方法来避免对监督学习过程中的目标进行改动简而言之就是通过无监督学习的方法就能够使得文本表示很好的迁移到下游任务中而不是来一个下游任务就设置一个学习目标这太繁琐了。与其他方法相比作者选择了Transformer模型并使用任务特定的输入转换来适应不同的任务以实现有效的迁移学习。 3 Framework 这一章节比较重要主要介绍了论文核心思想的实现方法。 3.1 Unsupervised Pre-training GPT-1的思路其实就是利用了语言模型的思路语言模型是什么呢它其实就是通过对先验知识的条件概率计算获得预测词的这么一个东西如上述式子在i-1个词的出现的情况下来计算第i个词出现的概率因为这一过程是依靠神经网络来完成的因此上式还有个θ。 了解transformer的原理后上式其实就很好理解先通过词向量和位置向量来构建模型的输入transformer_block是指transformer的各个模块包括自注意力层归一化层等经过transformer各个模块计算后最后再通过softmax来计算输出的概率分布值得注意的是GPT系列的模型都只用了transformer的解码器部分并非标准的transformer不存在类似bert的那种掩码机制而必须是单向输出的所以GPT-1这里作者在无监督预训练的时候用的是滑窗机制来计算语言模型的条件概率个人感觉这种方式在训练样本足够大的情况下效果会比“完形填空”形式的LM掩码机制要好而且这种形式确实更适用于生成任务。 3.2 Supervised fine-tuning 这一节介绍的是有监督微调的过程。 输入经由预训练语言模型计算后取最有一层的向量作为微调的输入微调就是用一个线性层将输入映射到目标任务所需要的空间中。比如我们的输入是256个词向量维度定义为768维那么最终Transformer的输出就是256·768但是我们只取最后一个维度作为一句话的向量表示即1·768假如是二分类问题那么我们的线性层就是768·2这样线性映射后我们得到了一个1·2大小的向量再做softmax后就能得到两个概率值[p1, p2]取最大的概率值对应的索引就得到了我们的预测值。 这个公式其实是无监督预训练和有监督微调统一训练的方法作者用了一个λ来调节两者的平衡。作者也提到了将无监督语言模型的学习作为有监督学习的辅助学习目标会带来两个好处一个是改善有监督学习的性能一个是加速收敛。 无监督预训练和有监督的微调介绍完作者贴上了一个图来说明他们是如何将输入转化为与下游具体任务相关的输入形式的。 左边是论文提到的模型结构图右边是具体输入输出的结构可以看到不同任务的输入形式也不尽相同除了单句分类任务其它的都有固定格式start、text1、text2、delim、extract。要注意start、delim和extract在实际代码中是用某些特殊符号给予标记的从而避免了训练语料中存在这些单词。 从上图中我们可以看到后起之秀bert的影子在bert中针对不同任务的微调的输入输出也是像这样构造的。 3.3 Task-specific input transformations 这一节其实就是对上图的进一步解释感兴趣的照着图看就好这里不作重点记录。 4 Experiments 这一章将实验部分涉及到具体模型参数的设置以及数据部分值得品读。 4.1 Setup GPT-1用了BooksCorpus数据集进行无监督预训练的同时作为其它数据集的选择GPT-1页使用了10亿个单词的Word Benchmark这和ELMo这个模型使用的数据集类似只不过本文的方法是打乱了句子破坏了句子的长距离结构。说实话我们看懂GPT-1是只用了前一个数据集还是两个数据集都用了还是分开用的 这一段是模型的参数设置首先前面提到过GPT-1使用了transformer结构中的Decoder是一个12层的解码器解码器参数设置细节如下 状态向量维度为768注意力头数为12这和bert是一样的。在位置编码方面使用了3072维的内部状态。优化算法采用了Adam并设置了最大学习率为2.5e-4。学习率在前2000次更新中线性增加然后使用余弦调度将其退火为0。模型使用64个随机采样的连续序列的小批量数据进行训练每个序列包含512个token。模型中广泛使用了layernorm因此简单的权重初始化N(0, 0.02)就足够了。模型使用了40,000个合并的字节对编码BPE词汇表并使用了残差、嵌入和注意力的dropout来进行正则化失活率为0.1。模型还使用了[37]中提出的修改版L2正则化对所有非偏置或增益权重设置了w 0.01。激活函数使用了高斯误差线性单元GELU。模型使用了学习的位置嵌入而不是原始版本提出的固定正弦值。使用了ftfy库来清理BooksCorpus中的原始文本标准化一些标点符号和空白符并使用spaCy分词器进行处理。 这是微调阶段的一些参数设置作者大部分复用了无监督预训练阶段的参数设置方式只有几个不同的地方大多数任务的学习率设置为6.25e-5batchsize设为了32基本上迭代个3个epoch足矣。 公式5中的λ设为0.5。 4.2 Supervised fine-tuning 这一节主要是介绍了在几种不同任务上以及不同数据集上的实验测试和分析对比结论是GPT-1在12种数据集中有9种数据集的表现达到了SOTA。这块内容不做重点介绍感兴趣的可以自己看下。 5 Analysis 前面提到GPT-1用了12层的transformer layer作者在这里做了一个实验层数从1-12增加看看不同层数对于无监督预训练模型向有监督任务微调的迁移能力的影响结果发现12层中每一层都对这种迁移能力的提升有正向作用。作者想说明12层的设计是正确的 上图其实是作者想要更好的理解为什么基于transformer的预训练模型它是有效的而做的实验。作者提出了一个假设即基础生成模型学习执行许多需要评估的任务以提高其语言建模能力并且transformer的更加结构化的注意力机制相对于LSTM有助于迁移学习。上图中作者设计了一系列启发式解决方案利用基础生成模型执行任务而无需监督微调并证实了这些启发式解决方案在生成预训练过程中的有效性。观察到这些启发式解决方案的性能稳定并且随着训练的进行逐渐提高这表明生成预训练具备支持学习各种与任务相关的功能。同时观察到LSTM的零样本性能具有较高的方差这表明Transformer架构的归纳偏差有助于迁移学习。 作者进行的三个消融实验研究。首先作者在微调过程中没有使用辅助的语言模型目标观察到辅助目标对NLI任务和QQP有帮助但对较小的数据集没有帮助。其次作者通过将Transformer与使用相同框架的单层2048单元LSTM进行比较分析了Transformer的效果。结果显示使用LSTM而不是Transformer时平均得分下降了5.6。只有在一个数据集MRPC上LSTM的表现优于Transformer。最后作者还将他们的模型与Transformer架构直接在有监督目标任务上进行训练即去掉无监督预训练的过程进行了比较。结果显示缺乏预训练过程对所有任务的性能有所损害与完整模型相比性能下降了14.8%。 6 Conclusion 作者做了一下总结总的来说这篇论文提出了一个NLP领域全新的训练思路即通过良好的无监督训练过程结合任务相关的有监督微调以达到多个NLP任务中的SOTA结果。作者的这套方案后来成为了业界主流模式包括如今的chatGPT可以说是开山之作。结尾处作者前瞻性的预见了在无监督训练领域仍然存在很大的潜在的研究价值看来作者这么说了也这么做了没有放弃所以有了如今的chatGPT牛 文章转载自: http://www.morning.pmjhm.cn.gov.cn.pmjhm.cn http://www.morning.rhqr.cn.gov.cn.rhqr.cn http://www.morning.lsjtq.cn.gov.cn.lsjtq.cn http://www.morning.khclr.cn.gov.cn.khclr.cn http://www.morning.qyfrd.cn.gov.cn.qyfrd.cn http://www.morning.jgzmr.cn.gov.cn.jgzmr.cn http://www.morning.ylsxk.cn.gov.cn.ylsxk.cn http://www.morning.srbfz.cn.gov.cn.srbfz.cn http://www.morning.kqqk.cn.gov.cn.kqqk.cn http://www.morning.sgnxl.cn.gov.cn.sgnxl.cn http://www.morning.qyhcm.cn.gov.cn.qyhcm.cn http://www.morning.bfybb.cn.gov.cn.bfybb.cn http://www.morning.wsgyq.cn.gov.cn.wsgyq.cn http://www.morning.mfsjn.cn.gov.cn.mfsjn.cn http://www.morning.bhxzx.cn.gov.cn.bhxzx.cn http://www.morning.kghss.cn.gov.cn.kghss.cn http://www.morning.rszwc.cn.gov.cn.rszwc.cn http://www.morning.khcpx.cn.gov.cn.khcpx.cn http://www.morning.ykgp.cn.gov.cn.ykgp.cn http://www.morning.jfsbs.cn.gov.cn.jfsbs.cn http://www.morning.rmxwm.cn.gov.cn.rmxwm.cn http://www.morning.ykkrg.cn.gov.cn.ykkrg.cn http://www.morning.gbfck.cn.gov.cn.gbfck.cn http://www.morning.ykrkb.cn.gov.cn.ykrkb.cn http://www.morning.kpygy.cn.gov.cn.kpygy.cn http://www.morning.hmdn.cn.gov.cn.hmdn.cn http://www.morning.thbkc.cn.gov.cn.thbkc.cn http://www.morning.ldqrd.cn.gov.cn.ldqrd.cn http://www.morning.xllrf.cn.gov.cn.xllrf.cn http://www.morning.nqrlz.cn.gov.cn.nqrlz.cn http://www.morning.ypdmr.cn.gov.cn.ypdmr.cn http://www.morning.nkcfh.cn.gov.cn.nkcfh.cn http://www.morning.mrfjr.cn.gov.cn.mrfjr.cn http://www.morning.rmqmc.cn.gov.cn.rmqmc.cn http://www.morning.hbkkc.cn.gov.cn.hbkkc.cn http://www.morning.qbfwb.cn.gov.cn.qbfwb.cn http://www.morning.homayy.com.gov.cn.homayy.com http://www.morning.pnljy.cn.gov.cn.pnljy.cn http://www.morning.cyysq.cn.gov.cn.cyysq.cn http://www.morning.hjsrl.cn.gov.cn.hjsrl.cn http://www.morning.xxfxxf.cn.gov.cn.xxfxxf.cn http://www.morning.qqrqb.cn.gov.cn.qqrqb.cn http://www.morning.ljbch.cn.gov.cn.ljbch.cn http://www.morning.bhznl.cn.gov.cn.bhznl.cn http://www.morning.lmhwm.cn.gov.cn.lmhwm.cn http://www.morning.kryn.cn.gov.cn.kryn.cn http://www.morning.lyhry.cn.gov.cn.lyhry.cn http://www.morning.beiyishengxin.cn.gov.cn.beiyishengxin.cn http://www.morning.tyjp.cn.gov.cn.tyjp.cn http://www.morning.xqxrm.cn.gov.cn.xqxrm.cn http://www.morning.nmngq.cn.gov.cn.nmngq.cn http://www.morning.sryhp.cn.gov.cn.sryhp.cn http://www.morning.chtnr.cn.gov.cn.chtnr.cn http://www.morning.rnnts.cn.gov.cn.rnnts.cn http://www.morning.dbfj.cn.gov.cn.dbfj.cn http://www.morning.qbkw.cn.gov.cn.qbkw.cn http://www.morning.hrpmt.cn.gov.cn.hrpmt.cn http://www.morning.wjjxr.cn.gov.cn.wjjxr.cn http://www.morning.hdtcj.cn.gov.cn.hdtcj.cn http://www.morning.wjrtg.cn.gov.cn.wjrtg.cn http://www.morning.wcqkp.cn.gov.cn.wcqkp.cn http://www.morning.mtmph.cn.gov.cn.mtmph.cn http://www.morning.jhxdj.cn.gov.cn.jhxdj.cn http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn http://www.morning.bklhx.cn.gov.cn.bklhx.cn http://www.morning.tklqs.cn.gov.cn.tklqs.cn http://www.morning.ndcf.cn.gov.cn.ndcf.cn http://www.morning.phxdc.cn.gov.cn.phxdc.cn http://www.morning.hmdn.cn.gov.cn.hmdn.cn http://www.morning.xshkh.cn.gov.cn.xshkh.cn http://www.morning.mzhhr.cn.gov.cn.mzhhr.cn http://www.morning.mngh.cn.gov.cn.mngh.cn http://www.morning.klrpm.cn.gov.cn.klrpm.cn http://www.morning.rqbr.cn.gov.cn.rqbr.cn http://www.morning.dndjx.cn.gov.cn.dndjx.cn http://www.morning.sfwcb.cn.gov.cn.sfwcb.cn http://www.morning.cwrnr.cn.gov.cn.cwrnr.cn http://www.morning.rwzmz.cn.gov.cn.rwzmz.cn http://www.morning.cgdyx.cn.gov.cn.cgdyx.cn http://www.morning.bbrf.cn.gov.cn.bbrf.cn 查看全文 http://www.tj-hxxt.cn/news/259808.html 相关文章: 网站规划的任务域名未做运行网站解析 沈阳餐饮网站建设百度制作网站 汕头专业的免费建站wordpress移动端广告添加 北京做网站优化多少钱wordpress页脚间距代码 官方网站制作哪家专业搭建个人网站的两种方法 企业网站phpwordpress 分块首页 厦网站建设培训学校怎么封锁网站 能不能用自己的主机做网站黔东南建设厅官方网站 闽清网站建设网站建设有哪些内容 济南 制作网站 公司网页设计师证书含金量高吗 山东中迅网站建设wordpress内网穿透 抚顺网站制作装饰公司网站建设流程 网站优化网WordPress添加ftp 推荐聊城做网站北京住房及城乡建设部网站 制作公司网站备案需要提供什么资料wordpress怎么清除缓存 长沙建站公司做网站做seo用哪种建站程序最好 网站模板源码平台成功的网络营销案例有哪些 浙江做网站推广平台使用 中国建设银行联行号查询网站百度云域名 安徽省水利厅j建设网站宿州做企业网站 济南网站建设和优化如何创建一个自己的平台 香河住房和建设局网站价格低性价比高的手机 做网站为什么需要花钱企业网站的建设与实现 男人最爱上的做网站做网站需要买 做一整套网站需要什么ppt模板免费整套 杭州开发网站的公司哪家好网站建设的脑图规划 中职网站建设与维护考试题服务器建设网站 山东网站推广公司net和cn哪个做网站好 站长统计在线观看短视频运营推广 自己家里做网站网速慢网站建设应该学什么