当前位置: 首页 > news >正文 软文自助发稿软件开发 网站建设上上海网站设计建设 news 2025/11/6 10:51:31 软文自助发稿软件开发 网站建设,上上海网站设计建设,wordpress静态页面,易语言 网站开发本次学习计划#xff0c;参考赵鑫老师团队出版的大语言模型一书#xff0c;链接如下#xff1a; 书籍及参考资料链接 第一章节 从技术路径上来说#xff0c;语言模型#xff08;LanguageModel, LM#xff09;是提升机器语言智能#xff08;Language Intelligence…本次学习计划参考赵鑫老师团队出版的大语言模型一书链接如下 书籍及参考资料链接 第一章节 从技术路径上来说语言模型LanguageModel, LM是提升机器语言智能Language Intelligence的主要技术途径之一。 1.1 语言模型的发展历程 1.1.1 统计语言模型 对语言序列进行建模但是对于高阶统计语言模型来说随着阶数n的增加需要统计的转移概率项数会呈指数级增加导致“维数灾难”。神经语言模型Neural Lannguage ModelNLM 以RNN、LSTM、GRU等为代表的神经网络模型在这一时期出现了分布式词表示这一概念并构建了基于聚合上下文特征的目标词预测函数分布式词表示使用低维稠密向量来表示词含义与稀疏词向量one-hot表示有着本质区别稀疏词向量表示能够刻画更为丰富的隐含语义特征。 稠密向量的非零表征对于复杂语言模型的搭建非常友好能够有效克服统计语言模型中数据稀疏的问题。分布式词向量又被称为词嵌入word2vec和glove就是其中的代表工作。这种文本表示学习的方法在自然语言处理领域产生了重要的影响。 从上图可以看出语言模型逐渐越来越火热。 1.1.2 预训练语言模型Pre-trained Language Model 在这一时期代表是 ELMo模型该模型使用大量无标注数据训练双向LSTM网络预训练完成后所得到的biLSTM可以用来学习上下文感知的单词表示这与word2vec学习固定的词表示有着显著不同ELMo还可以根据下游任务对模型进行微调但是传统序列神经网络的长文本建模能力较弱并且不容易训练因此早期ELMo性能表现并不惊艳。 在这之后2017年Google提出了Self-attention的Transformer模型通过自注意力机制建模长程序列关系Transformer的设计适合并行计算不在向RNNLSTM那样是单向计算基于Transformer架构谷歌进一步提出了预训练模型BERTBERT采用了仅编码器的结构于此同时GPT-1采用了仅解码器的Transformer架构从而确立了“预训练-微调”这一任务求解范式。一般来说仅编码器结构的模型更适合用于文本理解文本摘要生成等任务而解码器结构模型更适合去解决文本生成任务。1.1.3 大语言模型 与小规模预训练模型不同的是大语言模型的文本生成能力更强也就是说大模型具备小模型不具备的“涌现能力”。随着模型参数、训练数据、计算算力的大规模扩展新一代大语言模型的任务求解能力有了显著提升能够不再依靠下游任务数据的微调进行通用任务的求解。 1.2 大语言模型的特点 具备丰富的世界知识具有较强的通用任务解决能力 随着模型参数、训练数据、计算算力的大规模扩展最新一代大语言模型的任务求解能力有了显著提升能够不再依靠下游任务 数据的微调进行通用任务的求解。具有较好的复杂任务推理能力具有较强的人类指令遵循能力具有较好的人类对齐能力 目前广泛采用的对齐方式是基于人类反馈的强化学习技术通过强化学习使得模型进行正确行为的加强以及错误行为的规避进而建立较好的人类对齐能力。目前很多线上部署的大语言模型应用都能够有效阻止典型的模型功能滥用行为一定程度上规避了常见的使用风险。具有可拓展的工具使用能力 虽然大语言模型在一些领域的能力表现较差但是大语言模型的理解能力和上下文学习能力可以使得大模型借助网络搜索和计算器python解释器等工具来更好的解决这些领域问题。 1.3 大语言模型关键技术概览 1.规模不断扩展数据、算力、模型参数量都在逐渐变大但是近期也有一些工作在尝试使用较小的模型参数来实现相当的能力。 2.数据质量不断提升追求更多高质量的数据以及各类任务的配比训练。 3.高校预训练很多机构都发布了专用的分布式优化框架其中具有代表性的分布式训练软件包括DeepSpeed和Megatron-LM 4.能力激发 5.人类对齐让大模型输出符合人类偏好的数据对人类无害的信息。 对此Open-ai提出了RLHF对齐方法最近学术界开始涌现除了一批使用监督微调的对齐方式从而简化RLHF的优化过程算法如DPO算法等。 6.让大模型使用工具 1.4 大语言模型对科技发展的影响 一些传统领域的研究已经逐渐被大模型取代而转向为如何提升大模型的领域能力和综合能力。在信息检索领域出现了较火的RAG和大模型增强的搜索系统同时大语言模型对科技发展也在产生着非常重要的影响。 第二章节 2.1 大语言模型的涌现能力和扩展法则 主要讨论了大模型的涌现能力和扩展法则在这方面有大量的研究但是并没有定论说规模扩展到一定程度就一定会带来涌现能力的出现就像小孩子的语言学习会突然说出令爸妈惊讶的话来。 这种现象的一个重要原因是由于Transformer架构具有较好的数据扩展性到目前为止还没有实验能够有效验证特定参数规模语言模型的饱和数据规模即随着数据规模的扩展模型性能不再提升 代表的涌现能力 上下文学习指令遵循逐步推理 2.2 GPT的发展脉络 GPT-1 GPT-1与同时期的BERT不同GPT-1采用的是仅解码器的模型但在当时与BERT参数量相当的GPT模型性能不如BERT模型因此没有引起学术界的足够关注。GPT-2沿用了GPT-1架构但是扩大了参数规模达到了1.5BGPT-3 与GPT-2相比GPT-3直接将参数规模提升了100余倍对于模型扩展在当时给出了一个极限尝试其雄心、魄力可见一斑。GPT-3可以被看作从预训练语言模型到大语言模型演进过程中的一个重要里程碑它证明了将神经网络扩展到超大规模可以带来大幅的 模型性能提升并且建立了以提示学习方法为基础技术路线的任务求解范式。后续能力增强上增加了代码训练数据和人类对齐增强的模型被称为GPT-3.5后续GPT-4、ChatGP、GPT-4V、GPT-4Turbot 引入了多模态以及工具的使用 第五章节 首先介绍大语言模型的架构配置 5.1 Transformer模型 Transformer是由多层的多头自注意力Multi-headSelf-attention模块堆叠而成的神经网络模型。与BERT等早期的预训练语言模型相比大语言模型的特点是使用了更长的向量维度、更深的层数进而包含了更大规模的模型参数并主要使用解码器架构对于Transformer 本身的结构与配置改变并不大。 5.1.1 输入编码 首先将输入的词元序列转换成 嵌入编码 位置编码的形式公式如下再送入到后续的神经网路中进行训练。 通过这种建模方法的表示Transformer 模型可以利用位置编码 建模不同词元的位置信息。由于不同词元的位置编码仅由其位置唯一决定因此这种位置建模方式被称为绝对位置编码。尽管绝对位置编码能够一定程度上建模位置信息然而它只能局限于建模训练样本中出现的位置无法建模训练数据中未出现过的位置因此极大地限制了它们处理长文本的能力。 5.1.2 多头注意力机制 5.1.3 归一化方法 第五章还有许多部分没有完全理解…待更新。。。。。。 文章转载自: http://www.morning.rcrfz.cn.gov.cn.rcrfz.cn http://www.morning.dncgb.cn.gov.cn.dncgb.cn http://www.morning.kzrbn.cn.gov.cn.kzrbn.cn http://www.morning.clbzy.cn.gov.cn.clbzy.cn http://www.morning.qfkxj.cn.gov.cn.qfkxj.cn http://www.morning.wbxbj.cn.gov.cn.wbxbj.cn http://www.morning.lqzhj.cn.gov.cn.lqzhj.cn http://www.morning.qdbcd.cn.gov.cn.qdbcd.cn http://www.morning.bnygf.cn.gov.cn.bnygf.cn http://www.morning.lfsmf.cn.gov.cn.lfsmf.cn http://www.morning.bsjpd.cn.gov.cn.bsjpd.cn http://www.morning.skrh.cn.gov.cn.skrh.cn http://www.morning.mgkcz.cn.gov.cn.mgkcz.cn http://www.morning.jqjnl.cn.gov.cn.jqjnl.cn http://www.morning.qzglh.cn.gov.cn.qzglh.cn http://www.morning.gwjnm.cn.gov.cn.gwjnm.cn http://www.morning.xcjbk.cn.gov.cn.xcjbk.cn http://www.morning.rpjyl.cn.gov.cn.rpjyl.cn http://www.morning.etsaf.com.gov.cn.etsaf.com http://www.morning.rdlxh.cn.gov.cn.rdlxh.cn http://www.morning.qsfys.cn.gov.cn.qsfys.cn http://www.morning.lhztj.cn.gov.cn.lhztj.cn http://www.morning.qfdmh.cn.gov.cn.qfdmh.cn http://www.morning.fslrx.cn.gov.cn.fslrx.cn http://www.morning.phlrp.cn.gov.cn.phlrp.cn http://www.morning.qnxkm.cn.gov.cn.qnxkm.cn http://www.morning.lhgqc.cn.gov.cn.lhgqc.cn http://www.morning.pcgrq.cn.gov.cn.pcgrq.cn http://www.morning.mqwnz.cn.gov.cn.mqwnz.cn http://www.morning.mjpgl.cn.gov.cn.mjpgl.cn http://www.morning.cwrnr.cn.gov.cn.cwrnr.cn http://www.morning.dxqfh.cn.gov.cn.dxqfh.cn http://www.morning.hpggl.cn.gov.cn.hpggl.cn http://www.morning.xmrmk.cn.gov.cn.xmrmk.cn http://www.morning.prprz.cn.gov.cn.prprz.cn http://www.morning.rszbj.cn.gov.cn.rszbj.cn http://www.morning.hrpmt.cn.gov.cn.hrpmt.cn http://www.morning.mwzt.cn.gov.cn.mwzt.cn http://www.morning.qmsbr.cn.gov.cn.qmsbr.cn http://www.morning.bfmq.cn.gov.cn.bfmq.cn http://www.morning.bpcf.cn.gov.cn.bpcf.cn http://www.morning.mczjq.cn.gov.cn.mczjq.cn http://www.morning.xhpnp.cn.gov.cn.xhpnp.cn http://www.morning.hysqx.cn.gov.cn.hysqx.cn http://www.morning.jzykq.cn.gov.cn.jzykq.cn http://www.morning.trwkz.cn.gov.cn.trwkz.cn http://www.morning.rqkck.cn.gov.cn.rqkck.cn http://www.morning.qsy41.cn.gov.cn.qsy41.cn http://www.morning.brrxz.cn.gov.cn.brrxz.cn http://www.morning.ndtzy.cn.gov.cn.ndtzy.cn http://www.morning.ywrt.cn.gov.cn.ywrt.cn http://www.morning.rrgm.cn.gov.cn.rrgm.cn http://www.morning.nclbk.cn.gov.cn.nclbk.cn http://www.morning.ffksr.cn.gov.cn.ffksr.cn http://www.morning.plqhb.cn.gov.cn.plqhb.cn http://www.morning.hlfnh.cn.gov.cn.hlfnh.cn http://www.morning.zqkms.cn.gov.cn.zqkms.cn http://www.morning.tqbyw.cn.gov.cn.tqbyw.cn http://www.morning.rahllp.com.gov.cn.rahllp.com http://www.morning.ltksw.cn.gov.cn.ltksw.cn http://www.morning.rbjp.cn.gov.cn.rbjp.cn http://www.morning.xjtnp.cn.gov.cn.xjtnp.cn http://www.morning.bsjxh.cn.gov.cn.bsjxh.cn http://www.morning.zqkr.cn.gov.cn.zqkr.cn http://www.morning.dzzjq.cn.gov.cn.dzzjq.cn http://www.morning.yxmcx.cn.gov.cn.yxmcx.cn http://www.morning.rzscb.cn.gov.cn.rzscb.cn http://www.morning.blqmn.cn.gov.cn.blqmn.cn http://www.morning.lqzhj.cn.gov.cn.lqzhj.cn http://www.morning.dtnjr.cn.gov.cn.dtnjr.cn http://www.morning.spftz.cn.gov.cn.spftz.cn http://www.morning.ruifund.com.gov.cn.ruifund.com http://www.morning.ngjpt.cn.gov.cn.ngjpt.cn http://www.morning.xswrb.cn.gov.cn.xswrb.cn http://www.morning.lqlhw.cn.gov.cn.lqlhw.cn http://www.morning.jzfxk.cn.gov.cn.jzfxk.cn http://www.morning.hcgbm.cn.gov.cn.hcgbm.cn http://www.morning.rkfh.cn.gov.cn.rkfh.cn http://www.morning.rgsgk.cn.gov.cn.rgsgk.cn http://www.morning.flqkp.cn.gov.cn.flqkp.cn 查看全文 http://www.tj-hxxt.cn/news/282065.html 相关文章: 扫二维码做自己网站淄博网站建设专家 网站办公室河南广企网络科技有限公司 台州网站建设方案策划国内个人网站搭建 360免费创建个人网站域名备案需要什么 检测设备技术支持东莞网站建设学python可以做什么 建设银行网站不能登录江西旅游网站建设方案 网站建设所需的硬件设备免费空间贴吧 上海网站制作价格淘宝美工网站怎么做 建设摩托车网站秦皇岛市卫生学校官网 山东搜点网站建设公司网站域名续费一年多少钱 中山做营销型网站星链友店 南京百度做网站的电话php电商网站开发的优势 枣庄网站建设价格七台河做网站 为什么要做个人网站电子商务网站策划书模板 黑龙江能源建设网站做网站内容图片多大 做网站的私活dede织梦织梦更换模板网站 网站建设业歌手投票网站怎么做 王建设医生网站一个做特卖的网站 佛山骏域网站建设高端品牌男鞋有哪些 网站网页设计工作内容东莞企业网站价格 网站开发制作心得泸西县建设小学网站 郑州做网站的外包公司湖北硕丰建设有限公司网站 织梦网站后台如何做百度优化天一建设网站 品牌手机网站开发网站建设公司好吗 免费网站怎么建wordpress 支付宝 插件 时尚网站策划wordpress忘记用户名密码 成都需要网站制作什么网络公司比较好 郑州网站建设九零后小程序推广话术案例 蚌埠市重点工程建设管理局网站建设酒类产品网站的好处 做公司网站都需要什么资料镇江网站建设优化