当前位置: 首页 > news >正文 西安长安网站建设制作网站搭建素材群 news 2025/11/3 18:56:37 西安长安网站建设制作,网站搭建素材群,外链seo服务,企业网站优化托管导读#xff1a;大型预训练模型是一种在大规模语料库上预先训练的深度学习模型#xff0c;它们可以通过在大量无标注数据上进行训练来学习通用语言表示#xff0c;并在各种下游任务中进行微调和迁移。随着模型参数规模的扩大#xff0c;微调和推理阶段的资源消耗也在增加。… 导读大型预训练模型是一种在大规模语料库上预先训练的深度学习模型它们可以通过在大量无标注数据上进行训练来学习通用语言表示并在各种下游任务中进行微调和迁移。随着模型参数规模的扩大微调和推理阶段的资源消耗也在增加。针对这一挑战可以通过优化模型结构和训练策略来降低资源消耗。 一般来说研究者的优化方向从两个方面共同推进 一方面针对训练参数过多导致资源消耗巨大的情况可以考虑通过固定基础大型语言模型的参数引入部分特定参数进行模型训练大大减少了算力资源的消耗也加速了模型的训练速度。比较常用的方法包括前缀调优、提示调优等。 另一方面还可以通过固定基础大型语言模型的架构通过增加一个“新的旁路”来针对特定任务或特定数据进行微调当前非常热门的LoRA就是通过增加一个旁路来提升模型在多任务中的表现。 接下来我们将详细介绍11种高效的大型语言模型参数调优的方法。 文章目录 1. 前缀调优2. 提示调优3. P-Tuning v24. LoRA5. DyLoRA6. AdaLoRA7. QLoRA8. QA-LoRA9. LongLoRA10. VeRA11. S-LoRA12. 总结13. 购买链接 1. 前缀调优 前缀调优Prefix Tuning是一种轻量级的微调替代方法专门用于自然语言生成任务。前缀调优的灵感来自于语言模型提示前缀就好像是“虚拟标记”一样这种方法可在特定任务的上下文中引导模型生成文本。 前缀调优的独特之处在于它不改变语言模型的参数而是通过冻结LM参数仅优化一系列连续的任务特定向量即前缀来实现优化任务。前缀调优的架构如图1所示。 图1 前缀调优的架构 由于在训练中只需要为每个任务存储前缀前缀调优的轻量级设计避免了存储和计算资源的浪费同时保持了模型的性能具有模块化和高效利用空间的特点有望在NLP任务中提供高效的解决方案。 2. 提示调优 提示调优Prompt Tuning方法是由Brian Lester在论文“The Power of Scale for Parameter-Efficient Prompt Tuning”中提出的。 提示调优采用“软提示”Soft Prompt的方式通过冻结整个预训练模型只允许每个下游任务在输入文本前面添加k个可调的标记Token来优化模型参数赋予语言模型能够执行特定的下游任务的能力。提示调优的架构如图2所示。 图2 提示调优的架构 在论文的实验对比中对于T5-XXL模型每个经过调整的模型副本需要110亿个参数相较于为每个下游任务制作特定的预训练模型副本提示调优需要的参数规模仅为20480个参数。该方法在少样本提示方面表现出色。 3. P-Tuning v2 尽管提示调优在相应任务上取得了一定的效果但当底座模型规模较小特别是小于1000亿个参数时效果表现不佳。为了解决这个问题清华大学的团队提出了针对深度提示调优的优化和适应性实现——P-Tuning v2方法。 该方法最显著的改进是对预训练模型的每一层应用连续提示而不仅仅是输入层。这实际上是一种针对大型语言模型的软提示方法主要是将大型语言模型的词嵌入层和每个Transformer网络层前都加上新的参数。深度提示调优增加了连续提示的功能并缩小了在各种设置之间进行微调的差距特别是对于小型模型和困难的任务。 实验表明P-Tuning v2在30亿到100亿个参数的不同模型规模下以及在提取性问题回答和命名实体识别等NLP任务上都能与传统微调的性能相匹敌且训练成本大大降低。 4. LoRA LoRA的核心思想是通过冻结预训练模型的权重并将可训练的秩分解矩阵注入Transformer架构的每一层从而显著减少下游任务中可训练参数的数量。在训练过程中只需要固定原始模型的参数然后训练降维矩阵A和升维矩阵B。LoRA的架构如图3所示。 图3 LoRA的架构_ 具体来看假设预训练的矩阵为 它的更新可表示为 其中 。 与使用Adam微调的GPT-3 175B相比LoRA可以将可训练参数的数量减少10000倍并将GPU内存需求减少3倍。尽管LoRA的可训练参数较少训练吞吐量较高但与RoBERTa、DeBERTa、GPT-2和GPT-3等模型相比LoRA在模型质量性能方面与微调相当甚至更好。 5. DyLoRA 但随着研究的深入LoRA块存在两大核心问题 一旦训练完成后LoRA块的大小便无法更改若要调整LoRA块的秩则需重新训练整个模型这无疑增加了大量时间和计算成本 LoRA块的大小是在训练前设计的固定超参优化秩的过程需要精细的搜索与调优操作仅设计单一的超参可能无法有效提升模型效果。 为解决上述问题研究者引入了一种全新的方法—DyLoRA动态低秩适应。 研究者参考LoRA的基本架构针对每个LoRA块设计了上投影Wup和下投影Wdw矩阵及当前LoRA块的规模范围R。为确保增加或减少秩不会明显阻碍模型的表现在训练过程中通过对LoRA块对不同秩的信息内容进行排序再结合预定义的随机分布中进行抽样来对LoRA块镜像上投影矩阵和下投影矩阵截断最终确认单个LoRA块的大小。DyLoRA的架构如图4所示。 图4 DyLoRA的架构 研究结果表明与LoRA相比使用DyLoRA训练出的模型速度可提升47倍且性能几乎没有下降。此外与LoRA相比该模型在更广泛的秩范围内展现出了卓越的性能。 6. AdaLoRA 正如DyLoRA优化方法一样提出AdaLoRA的研究者也发现当前LoRA存在的改进方向 由于权重矩阵在不同LoRA块和模型层中的重要性存在差异因此不能提前制定一个统一规模的秩来约束相关权重信息需要设计可以支持动态更新的参数矩阵 需要设计有效的方法来评估当前参数矩阵的重要性并根据重要性程度为重要性高的矩阵分配更多参数量以提升模型效果对重要性低的矩阵进行裁剪进一步降低计算量。 根据上述思想研究者提出了AdaLoRA方法可以根据权重矩阵的重要性得分在权重矩阵之间自适应地分配参数规模。在实际操作中AdaLoRA采用奇异值分解SVD的方法来进行参数训练根据重要性指标剪裁掉不重要的奇异值来提高计算效率从而进一步提升模型在微调阶段的效果。 7. QLoRA Tim Dettmers等研究者在论文“QLoRA: Efficient Finetuning of Quantized LLMs”中提出了一种高效的模型微调方法——QLoRA。 QLoRA的架构如图5所示。 图5 QLoRA的架构 QLoRA的创新内容主要如下 4bit NormalFloatNF4。NF4是一种新型数据类型它对正态分布的权重来说是信息理论上的最优选择。 双重量化技术。双重量化技术减少了平均内存的使用它通过对已量化的常量进行再量化来实现。 分页优化器。分页优化器有助于管理内存峰值防止梯度检查点时出现内存不足的错误。 实验表明QLoRA技术使得研究者能够在单个48GB GPU上微调650亿个参数规模的模型同时维持16bit精度任务的完整性能。例如在训练Guanaco模型时仅需在单个GPU上微调24h即可达到与ChatGPT相当的99.3%性能水平。通过QLoRA微调技术可以有效降低模型微调时的显存消耗。 8. QA-LoRA 大型语言模型取得了迅猛发展尽管在许多语言理解任务中表现强大但由于巨大的计算负担尤其是在需要将它们部署到边缘设备时应用受到了限制。具体而言预训练权重矩阵的每一列只伴随一个缩放和零参数对但有很多LoRA参数。这种不平衡不仅导致了大量的量化误差对LLM的准确性造成损害而且使得将辅助权重整合到主模型中变得困难。 在论文“QA-LoRA: Quantization-aware Low-rank Adaptation of large language models”中研究者提出了一种量化感知的低秩适应QA-LoRA算法。该方法来源于量化和适应的自由度不平衡的思想。 研究者提出采用分组运算符的方式旨在增加量化自由度的同时减少适应自由度。 QA-LoRA的实现简便仅需几行代码同时赋予原始的LoRA两倍的能力 在微调过程中LLM的权重被量化如INT4以降低时间和内存的使用 微调后LLM和辅助权重能够自然地集成到一个量化模型中而不损失准确性。 通过在LLaMA和LLaMA2模型系列的实验中证明QA-LoRA在不同的微调数据集和下游场景中验证了其有效性。 如图6所示与之前的适应方法LoRA和QLoRA相比QA-LoRA在微调和推理阶段都具有更高的计算效率。更重要的是由于不需要进行训练后量化因此它不会导致准确性损失。在图6中展示了INT4的量化但QA-LoRA可以推广到INT3和INT2。 图6 LoRA、QLoRA、QA-LoRA的架构对比 9. LongLoRA 通常情况下用较长的上下文长度训练大型语言模型的计算成本较高需要大量的训练时间和GPU资源。 为了在有限的计算成本下扩展预训练大型语言模型的上下文大小研究者在论文“LongLoRA: Efficient Fine-tuning of Long-Context Large Language Models”中提出了LongLoRA的方法整体架构如图7所示。 图7 LongLoRA的整体架构 LongLoRA在两个方面进行了改进 虽然在推理过程中需要密集的全局注意力但通过采用稀疏的局部注意力可以有效地进行模型微调。在LongLoRA中引入的转移短暂的注意力机制能够有效地实现上下文扩展从而在性能上与使用香草注意力Vanilla Attention进行微调的效果相似 通过重新审视上下文扩展的参数高效微调机制研究者发现在可训练嵌入和规范化的前提下用于上下文扩展的LoRA表现良好。 LongLoRA在从70亿、130亿到700亿个参数的LLaMA2模型的各种任务上都取得了良好的结果。具体而言LongLoRA采用LLaMA2-7B模型将上下文长度从4000个Token扩展到10万个Token展现了其在增加上下文长度的同时保持了高效计算的能力。这为大型语言模型的进一步优化和应用提供了有益的思路。 10. VeRA LoRA是一种常用的大型语言模型微调方法它在微调大型语言模型时能够减少可训练参数的数量。然而随着模型规模的进一步扩大或者需要部署大量适应于每个用户或任务的模型时存储问题仍然是一个挑战。 研究者提出了一种基于向量的随机矩阵适应Vector-based Random matrix AdaptationVeRA的方法VeRA的实现方法是通过使用一对低秩矩阵在所有层之间共享并学习小的缩放向量来实现这一目标。 与LoRA相比VeRA成功将可训练参数的数量减少了10倍同时保持了相同的性能水平。VeRA与LoRA的架构对比如图8所示LoRA通过训练低秩矩阵和来更新权重矩阵中间秩为。在VeRA中这些矩阵被冻结在所有层之间共享并通过可训练向量和进行适应从而显著减少可训练参数的数量。在这种情况下低秩矩阵和向量可以合并到原始权重矩阵中不引入额外的延迟。这种新颖的结构设计使得VeRA在减少存储开销的同时还能够保持和LoRA相媲美的性能为大型语言模型的优化和应用提供了更加灵活的解决方案。 图8 VeRA与LoRA的架构对比 实验证明VeRA在GLUE和E2E基准测试中展现了其有效性并在使用LLaMA2 7B模型时仅使用140万个参数的指令就取得了一定的效果。这一方法为在大型语言模型微调中降低存储开销提供了一种新的思路有望在实际应用中取得更为显著的效益。 11. S-LoRA LoRA作为一种参数高效的大型语言模型微调方法通常用于将基础模型适应到多种任务中从而形成了大量派生自基础模型的LoRA模型。由于多个采用LoRA形式训练的模型的底座模型都为同一个因此可以参考批处理模式进行推理。 据此研究者提出了一种S-LoRAServing thousands of con current LoRA adapters方法S-LoRA是一种专为可伸缩地服务多个LoRA适配器而设计的方法。 S-LoRA的设计理念是将所有适配器存储在主内存中并在GPU内存中动态获取当前运行查询所需的适配器。为了高效使用GPU内存并减少碎片S-LoRA引入了统一分页。统一分页采用统一的内存池来管理具有不同秩的动态适配器权重以及具有不同序列长度的KV缓存张量。此外S-LoRA还采用了一种新颖的张量并行策略和高度优化的自定义CUDA核心用于异构批处理LoRA计算。这些特性使得S-LoRA能够在单个GPU或跨多个GPU上提供数千个LoRA适配器而开销相对较小。 通过实验发现S-LoRA的吞吐量提高了4倍多并且提供的适配器数量增加了数个数量级。因此S-LoRA在实现对许多任务特定微调模型的可伸缩服务方面取得了显著进展并为大规模定制微调服务提供了潜在的可能性。 12. 总结 本文从背景、来源、技术路线及性能等方面综述了11种在模型参数调优阶段进行的方法其中前缀调优、提示调优和P-Tuning v2属于引入特定参数来减少算力消耗、提升训练速度基于LoRA的各种方法的基本思想是添加新的旁路对特定任务或特定数据进行微调。 开源社区Hugging Face将这11种方法归纳为高效参数调优方法Parameter-Efficient Fine-TuningPEFT。PEFT方法能够在不微调所有模型参数的情况下有效地让预训练语言模型适应各种下游应用。PEFT方法只微调了少量额外的模型参数从而大幅降低了大模型训练和微调的计算与存储成本。通过合理使用PEFT方法不但能提高模型的训练效率还能在特定任务上达到大型语言模型的效果。有关基于PEFT的微调实战案例推荐您阅读刘聪、沈盛宇、李特丽和杜振东的新书《大型语言模型实战指南应用实践与场景落地》。 文章来源IT阅读排行榜 本文摘编自《大型语言模型实战指南应用实践与场景落地》刘聪 沈盛宇 李特丽 杜振东 著机械工业出版社出版经出版方授权发布转载请标明文章来源。 ▼ 延伸阅读 《大型语言模型实战指南应用实践与场景落地》 刘聪 沈盛宇 李特丽 杜振东 著 资深大模型技术专家撰写 零一万物、通义千问、面壁智能等 多个主流大模型的负责人力荐 内容简介 这是一本系统梳理并深入解析大模型的基础理论、算法实现、数据构造流程、模型微调方法、偏好对齐方法的著作也是一本能手把手教你构建角色扮演、信息抽取、知识问答、AI Agent等各种强大的应用程序的著作。本书得到了零一万物、面壁智能、通义千问、百姓AI、澜舟科技等国内主流大模型团队的负责人的高度评价和鼎力推荐。 13直播预告 10月18日周五晚1930 南京云问科技首席算法架构师刘聪、资深算法工程师沈盛宇、资深NLP技术专家和AI技术专家汪鹏、某头部大厂算法工程师谷清水四位嘉宾与您分享“如何让大模型应用真正落地场景解决方案案例” 点击预约观看直播间好礼不停 13. 购买链接 本书的京东购买链接为大型语言模型实战指南应用实践与场景落地。 文章转载自: http://www.morning.lmhcy.cn.gov.cn.lmhcy.cn http://www.morning.dzgmj.cn.gov.cn.dzgmj.cn http://www.morning.mqbdb.cn.gov.cn.mqbdb.cn http://www.morning.wknjy.cn.gov.cn.wknjy.cn http://www.morning.jfxth.cn.gov.cn.jfxth.cn http://www.morning.mdtfh.cn.gov.cn.mdtfh.cn http://www.morning.mtxrq.cn.gov.cn.mtxrq.cn http://www.morning.dzyxr.cn.gov.cn.dzyxr.cn http://www.morning.kdlzz.cn.gov.cn.kdlzz.cn http://www.morning.stprd.cn.gov.cn.stprd.cn http://www.morning.bppml.cn.gov.cn.bppml.cn http://www.morning.youngbase.cn.gov.cn.youngbase.cn http://www.morning.krdb.cn.gov.cn.krdb.cn http://www.morning.dmtwz.cn.gov.cn.dmtwz.cn http://www.morning.tqjwx.cn.gov.cn.tqjwx.cn http://www.morning.rsjf.cn.gov.cn.rsjf.cn http://www.morning.zsthg.cn.gov.cn.zsthg.cn http://www.morning.uqrphxm.cn.gov.cn.uqrphxm.cn http://www.morning.sqnxk.cn.gov.cn.sqnxk.cn http://www.morning.jppb.cn.gov.cn.jppb.cn http://www.morning.rfbq.cn.gov.cn.rfbq.cn http://www.morning.spqbp.cn.gov.cn.spqbp.cn http://www.morning.hdlhh.cn.gov.cn.hdlhh.cn http://www.morning.dblgm.cn.gov.cn.dblgm.cn http://www.morning.cwzzr.cn.gov.cn.cwzzr.cn http://www.morning.kxypt.cn.gov.cn.kxypt.cn http://www.morning.bhxzx.cn.gov.cn.bhxzx.cn http://www.morning.yxdrf.cn.gov.cn.yxdrf.cn http://www.morning.wfdlz.cn.gov.cn.wfdlz.cn http://www.morning.tkryt.cn.gov.cn.tkryt.cn http://www.morning.xkhxl.cn.gov.cn.xkhxl.cn http://www.morning.ybshj.cn.gov.cn.ybshj.cn http://www.morning.twpq.cn.gov.cn.twpq.cn http://www.morning.lzttq.cn.gov.cn.lzttq.cn http://www.morning.tlbhq.cn.gov.cn.tlbhq.cn http://www.morning.rbffj.cn.gov.cn.rbffj.cn http://www.morning.tdxlj.cn.gov.cn.tdxlj.cn http://www.morning.zlgth.cn.gov.cn.zlgth.cn http://www.morning.a3e2r.com.gov.cn.a3e2r.com http://www.morning.wfkbk.cn.gov.cn.wfkbk.cn http://www.morning.ssfq.cn.gov.cn.ssfq.cn http://www.morning.wjmb.cn.gov.cn.wjmb.cn http://www.morning.khlxd.cn.gov.cn.khlxd.cn http://www.morning.rtspr.cn.gov.cn.rtspr.cn http://www.morning.ycpnm.cn.gov.cn.ycpnm.cn http://www.morning.wqwbj.cn.gov.cn.wqwbj.cn http://www.morning.mtmnk.cn.gov.cn.mtmnk.cn http://www.morning.rfhwc.cn.gov.cn.rfhwc.cn http://www.morning.hmjasw.com.gov.cn.hmjasw.com http://www.morning.ppgdp.cn.gov.cn.ppgdp.cn http://www.morning.jjrsk.cn.gov.cn.jjrsk.cn http://www.morning.dyhlm.cn.gov.cn.dyhlm.cn http://www.morning.hmpxn.cn.gov.cn.hmpxn.cn http://www.morning.xkgyh.cn.gov.cn.xkgyh.cn http://www.morning.rqnml.cn.gov.cn.rqnml.cn http://www.morning.bgpch.cn.gov.cn.bgpch.cn http://www.morning.rmrcc.cn.gov.cn.rmrcc.cn http://www.morning.ktfbl.cn.gov.cn.ktfbl.cn http://www.morning.cbynh.cn.gov.cn.cbynh.cn http://www.morning.kbqws.cn.gov.cn.kbqws.cn http://www.morning.tyklz.cn.gov.cn.tyklz.cn http://www.morning.dswtz.cn.gov.cn.dswtz.cn http://www.morning.jcxqc.cn.gov.cn.jcxqc.cn http://www.morning.kxyqy.cn.gov.cn.kxyqy.cn http://www.morning.txltb.cn.gov.cn.txltb.cn http://www.morning.kzdwt.cn.gov.cn.kzdwt.cn http://www.morning.krkwp.cn.gov.cn.krkwp.cn http://www.morning.wmsgt.cn.gov.cn.wmsgt.cn http://www.morning.rknhd.cn.gov.cn.rknhd.cn http://www.morning.tpxgm.cn.gov.cn.tpxgm.cn http://www.morning.jyyw.cn.gov.cn.jyyw.cn http://www.morning.mtsgx.cn.gov.cn.mtsgx.cn http://www.morning.yhwyh.cn.gov.cn.yhwyh.cn http://www.morning.nclbk.cn.gov.cn.nclbk.cn http://www.morning.frllr.cn.gov.cn.frllr.cn http://www.morning.deupp.com.gov.cn.deupp.com http://www.morning.hflrz.cn.gov.cn.hflrz.cn http://www.morning.qnsmk.cn.gov.cn.qnsmk.cn http://www.morning.bauul.com.gov.cn.bauul.com http://www.morning.hyxwh.cn.gov.cn.hyxwh.cn 查看全文 http://www.tj-hxxt.cn/news/274482.html 相关文章: 婚庆网站开发的意义东莞专业设计网站 丹徒网站建设怎么样移动端快速建站的方法 全国物流网站有哪些平台笑话 语录用什么网站做 网站编辑器做段落空格东莞市企慕网络科技有限公司 域名注册了怎么才能用青岛seo优化 招聘网站分析报告怎么做设计素材网址 展示型网站wordpress 分页出404 如何在工商局网站上做网登响水网站建设找哪家好 免费的平面设计网站自己做网站好不好 商业网站 模板twenty ten wordpress 网站快照查询淄博手机网站建设报价 婚纱摄影的网站怎么做怎样做公司的网站建设 自己做商城网站 哪种好高端品销售网站 免费网站在线收看wordpress建站成本 潍坊网站优化动漫制作就业方向及前景 提供网站建设价格南庄营销网站建设 简述企业网站的网络营销功能网站正能量下载直接进入主页可以吗安全吗 网站建设与应用网站加载慢怎么办 wordpress本地搭建网站a网页ui设计尺寸 有什么自学网站建设的网站wordpress输入qq评论 街舞舞团公司做网站上海网站建设公司页溪网络 可以用服务器做网站网站备案好后 网站结构组成部分有那些建筑工程 技术支持 东莞网站建设 学校网站设计思路ui网页设计报价 360推广登录入口关键词查询优化 北京环评在那个网站上做品牌策划设计包括哪些内容 个人网站icp备案号网络营销的4p策略 陕西省建设工会网站网站后来功能 外贸网站建设与推广百度平台营销软件 长沙网站设计我选刻郑州网站开发外包