当前位置: 首页 > news >正文

网站做3年3年包括什么软件吗固原市住房和城乡建设厅网站

网站做3年3年包括什么软件吗,固原市住房和城乡建设厅网站,上传网站怎么安装,海外留学网站建设方案上文介绍了如何对微调后的模型进行使用与简单评估。本文将介绍对微调后的模型进行导出的过程。 一、llama-3微调后的模型导出 首先进入虚拟环境#xff0c;打开LLaMA-Factory的webui页面 conda activate GLM cd LLaMA-Factory llamafactory-cli webui 之后#xff0c;选择…上文介绍了如何对微调后的模型进行使用与简单评估。本文将介绍对微调后的模型进行导出的过程。 一、llama-3微调后的模型导出 首先进入虚拟环境打开LLaMA-Factory的webui页面 conda activate GLM cd LLaMA-Factory llamafactory-cli webui 之后选择微调后模型对应的检查点路径文件设置最大分块的大小建议2-5GB选择导出设备的类型并对导出目录进行指定。 完成配置后开始导出模型 模型导出后可在对应的路径下查看其参数详细情况 二、调用导出后的模型 在LLaMA-Factory的webui页面中选择chat标签模型路径输入导出后模型的绝对路径从而加载模型机械能对话 模型成功加载后即可使用问答框进行应用至此导出后的模型可应用于实际的生成环境之中 使用测试用例进行分析可发现与模型微调评估的效果一致模型导出与应用完成 三、模型微调参数分析 模型微调应用参数的选择极为关键具体参数分析可见以下这篇博客 LLaMA-Factory参数的解答命令单卡预训练_llama-factory 增量预训练-CSDN博客https://blog.csdn.net/m0_69655483/article/details/138229566?spm1001.2101.3001.6661.1utm_mediumdistribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-1-138229566-blog-139495955.235%5Ev43%5Epc_blog_bottom_relevance_base2depth_1-utm_sourcedistribute.pc_relevant_t0.none-task-blog-2%7Edefault%7EBlogCommendFromBaidu%7ERate-1-138229566-blog-139495955.235%5Ev43%5Epc_blog_bottom_relevance_base2utm_relevant_index1现对关键的几个参数进行分析 1finetuning_type lora 使用LoRALow-Rank Adaptation作为微调类型。 其他参数 ​ 1.Full这种方式就是从头到尾完全训练一个模型。想象一下你有一块白纸你要在上面画出一幅完整的画作这就是Full Training。你从零开始逐步训练模型直到它能够完成你想要的任务。 ​ 2.Freeze这种方式有点像是在一幅半完成的画上继续作画。在模型中有些部分通常是模型的初级部分如输入层或底层特征提取部分是已经训练好的这部分会被“冻结”不再在训练过程中更新。你只更新模型的其他部分这样可以节省训练时间和资源。 ​ 3.LoRA这是一种比较新的技术全称是“Low-Rank Adaptation”。可以理解为一种轻量级的模型调整方式。它主要是在模型的某些核心部分插入小的、低秩的矩阵通过调整这些小矩阵来实现对整个模型的微调。这种方法不需要对原始模型的大部分参数进行重训练从而可以在不牺牲太多性能的情况下快速适应新的任务或数据。 ​ 4.QLoRA这是在LoRA的基础上进一步发展的一种方法。它使用量化技术也就是用更少的比特来表示每个数字来进一步减少模型调整过程中需要的计算资源和存储空间。这样做可以使得模型更加高效尤其是在资源有限的设备上运行时。 2gradient_accumulation_steps  梯度累积步数用于在更新模型前累积更多的梯度有助于使用较小的批次大小训练大模型。选择多少步骤进行梯度累积取决于你的具体需求和硬件限制。一般来说步数越多模拟的批量大小就越大但同时每次更新权重的间隔也更长可能会影响训练速度和效率。 3lr_scheduler_type 学习率调度器类型 linear线性: 描述学习率从一个较高的初始值开始然后随着时间线性地减少到一个较低的值。 使用场景当你想要让模型在训练早期快速学习然后逐渐减慢学习速度以稳定收敛时使用。cosine余弦: 描述学习率按照余弦曲线的形状进行周期性调整这种周期性的起伏有助于模型在不同的训练阶段探索参数空间。 使用场景在需要模型在训练过程中不断找到新解的复杂任务中使用比如大规模的图像或文本处理。cosine_with_restarts带重启的余弦: 描述这是余弦调整的一种变体每当学习率达到一个周期的最低点时会突然重置到最高点然后再次减少。 使用场景适用于需要模型从局部最优解中跳出来尝试寻找更好全局解的情况。polynomial多项式: 描述学习率按照一个多项式函数减少通常是一个幂次递减的形式。 使用场景当你需要更精细控制学习率减少速度时使用适用于任务比较复杂需要精细调优的模型。constant常数: 描述学习率保持不变。 使用场景简单任务或者小数据集模型容易训练到足够好的性能时使用。constant_with_warmup带预热的常数: 描述开始时使用较低的学习率“预热”模型然后切换到一个固定的较高学习率。 使用场景在训练大型模型或复杂任务时帮助模型稳定地开始学习避免一开始就进行大的权重调整。inverse_sqrt逆平方根: 描述学习率随训练步数的增加按逆平方根递减。 使用场景常用于自然语言处理中特别是在训练Transformer模型时帮助模型在训练后期进行细微的调整。reduce_lr_on_plateau在平台期降低学习率: 描述当模型的验证性能不再提升时自动减少学习率。 使用场景适用于几乎所有类型的任务特别是当模型很难进一步提高性能时可以帮助模型继续优化和提升。4warmup_steps 学习率预热步数。 预热步数Warmup Steps 这是模型训练初期用于逐渐增加学习率的步骤数。在这个阶段学习率从一个很小的值或者接近于零开始逐渐增加到设定的初始学习率。这个过程可以帮助模型在训练初期避免因为学习率过高而导致的不稳定比如参数更新过大从而有助于模型更平滑地适应训练数据。 例如如果设置warmup_steps为20那么在前20步训练中学习率会从低到高逐步增加。 预热步数的具体数值通常取决于几个因素 训练数据的大小数据集越大可能需要更多的预热步骤来帮助模型逐步适应。 模型的复杂性更复杂的模型可能需要更长时间的预热以避免一开始就对复杂的参数空间进行过激的调整。 总训练步数如果训练步数本身就很少可能不需要很多的预热步骤反之如果训练步数很多增加预热步骤可以帮助模型更好地启动。 5save_steps  eval_steps 保存和评估的步数 6learning_rate 学习率是机器学习和深度学习中控制模型学习速度的一个参数。你可以把它想象成你调节自行车踏板力度的旋钮旋钮转得越多踏板动得越快自行车就跑得越快但如果转得太快可能会导致自行车失控。同理学习率太高模型学习过快可能会导致学习过程不稳定学习率太低模型学习缓慢训练时间长效率低。 常见的学习率参数包括但不限于 1e-10.1相对较大的学习率用于初期快速探索。 1e-20.01中等大小的学习率常用于许多标准模型的初始学习率。 1e-30.001较小的学习率适用于接近优化目标时的细致调整。 1e-40.0001更小的学习率用于当模型接近收敛时的微调。 5e-50.00005非常小的学习率常见于预训练模型的微调阶段例如在自然语言处理中微调BERT模型。 选择学习率的情况 快速探索在模型训练初期或者当你不确定最佳参数时可以使用较大的学习率例如0.1或0.01快速找到一个合理的解。 细致调整当你发现模型的性能开始稳定但还需要进一步优化时可以减小学习率例如0.001或0.0001帮助模型更精确地找到最优解。 微调预训练模型当使用已经预训练好的模型如在特定任务上微调BERT时通常使用非常小的学习率例如5e-5或更小这是因为预训练模型已经非常接近优化目标我们只需要做一些轻微的调整。7精度相关 FP16 (Half Precision半精度) 这种方式使用16位的浮点数来保存和计算数据。想象一下如果你有一个非常精细的秤但现在只用这个秤的一半精度来称重这就是FP16。它不如32位精度精确但计算速度更快占用的内存也更少。 BF16 (BFloat16) BF16也是16位的但它在表示数的方式上和FP16不同特别是它用更多的位来表示数的大小指数部分这让它在处理大范围数值时更加稳定。你可以把它想象成一个专为机器学习优化的“半精度”秤尤其是在使用特殊的硬件加速器时。 FP32 (Single Precision单精度) 这是使用32位浮点数进行计算的方式可以想象为一个标准的、全功能的精细秤。它在深度学习中非常常见因为它提供了足够的精确度适合大多数任务。 Pure BF16 在表示数的方式上和FP16不同特别是它用更多的位来表示数的大小指数部分这让它在处理大范围数值时更加稳定。你可以把它想象成一个专为机器学习优化的“半精度”秤尤其是在使用特殊的硬件加速器时。 FP32 (Single Precision单精度) 这是使用32位浮点数进行计算的方式可以想象为一个标准的、全功能的精细秤。它在深度学习中非常常见因为它提供了足够的精确度适合大多数任务。 Pure BF16 这种模式下所有计算都仅使用BF16格式。这意味着整个模型训练过程中从输入到输出都在使用为机器学习优化的半精度计算。8LoRA的秩 LoRALow-Rank Approximation是一种用于大模型微调的方法它通过降低模型参数矩阵的秩来减少模型的计算和存储成本。在微调大模型时往往需要大量的计算资源和存储空间而LoRA可以通过降低模型参数矩阵的秩来大幅度减少这些需求。 具体来说LoRA使用矩阵分解方法将模型参数矩阵分解为两个较低秩的矩阵的乘积。这样做的好处是可以用较低秩的矩阵近似代替原始的参数矩阵从而降低了模型的复杂度和存储需求。 在微调过程中LoRA首先将模型参数矩阵分解为两个较低秩的矩阵。然后通过对分解后的矩阵进行微调可以得到一个近似的模型参数矩阵。这个近似矩阵可以在保持较高性能的同时大幅度减少计算和存储资源的使用。 LoRA的秩可以根据模型的需求进行设置。一般来说秩越低模型的复杂度越低但性能可能会受到一定的影响。所以在微调大模型时需要根据具体情况来选择合适的秩大小以平衡模型的性能和资源的使用。 建议根据硬件条件进行选择一般可选16或32模型微调效果较佳。 9LoRA的缩放系数 缩放系数是用来表示模型中每个层的相对重要性的参数。在LoRA中每个层都有一个缩放系数用于调整该层对总体损失函数的贡献。较高的缩放系数表示该层的权重更大较低的缩放系数表示该层的权重较小。 缩放系数的选取可以根据问题的特点和需求进行调整。通常情况下较低层的缩放系数可以设置为较小的值以保留更多的原始特征信息而较高层的缩放系数可以设置为较大的值以强调更高级别的抽象特征。 小结 本文介绍了对微调后的模型进行导出的过程与对微调过程中使用的参数进行分析的内容下文【08】LLaMA-Factory微调大模型——GLM-4模型微调全流程将重数据准备到模型导出全流程进行记录分析。欢迎您持续关注如果本文对您有所帮助感谢您一键三连多多支持。
http://www.tj-hxxt.cn/news/226715.html

相关文章:

  • 推广网站怎么建宣城网站推广
  • 保定市做网站汽车网站制作模板
  • 邢台企业做网站费用做试客刷单的网站有哪些
  • 深圳开发的相亲网站在上海做家教的网站
  • 网站设计概述500字四川省城市建设培训中心 网站
  • 自考网页制作与网站建设wordpress主题know
  • 大连凯杰建设有限公司网站免费企业信息黄页网
  • 免费企业网站源码生成房山建站公司
  • 男孩子怎么做网站赚钱wordpress 宁皓
  • 我想做个网站怎么弄windows10 wordpress
  • 做网站需要工商执照吗网站团队建设
  • 加盟餐饮网站建设重庆公司注册官网入口
  • 网站开发前后端分离要多少钱4006668800人工服务几点
  • 建设网站必须用dns页面开发
  • 原创小说网站建设源码北京建网站定制价格
  • 松江 网站建设公司网易企业邮箱 登录
  • 网站建设公司网站定制开发视频号的网站链接
  • 对于给不良网站发律师函如何做上海网站seo外包
  • 响应式网站用什么技术做云存储做网站
  • 做网站装什么服务器微信建站网站
  • dede响应式网站模板怎么做qq代挂网站
  • 网站代理打开网站建设预期效果
  • 平台网站南昌市网上商城采购平台
  • 文章分享网站模版关于实验室建设的英文网站
  • 做外贸一般用什么网站直播网站怎么建设
  • ios手机网站建设长沙模板网站建设企业
  • 网站没备案或与实际备案不符品牌网站建设策
  • 做网站的优势wordpress网站统计插件下载
  • 制作网站首先要知道什么中国电影家协会是什么级别
  • 企业网站建设公司价格自动做网站