当前位置: 首页 > news >正文 国外网站icp备案网页设计培训机构怎么选 news 2025/10/28 19:00:47 国外网站icp备案,网页设计培训机构怎么选,学新媒体运营要多少钱,网站搭建哪里找最好欢迎关注我的CSDN#xff1a;https://spike.blog.csdn.net/ 本文地址#xff1a;https://spike.blog.csdn.net/article/details/145212097 免责声明#xff1a;本文来源于个人知识与公开资料#xff0c;仅用于学术交流#xff0c;欢迎讨论#xff0c;不支持转载。 Scalin… 欢迎关注我的CSDNhttps://spike.blog.csdn.net/ 本文地址https://spike.blog.csdn.net/article/details/145212097 免责声明本文来源于个人知识与公开资料仅用于学术交流欢迎讨论不支持转载。 Scaling Laws (缩放法则) 是大模型领域中用于描述 模型性能(Loss) 与 模型规模N、数据量D、计算资源C 之间关系的经验规律揭示在大模型中随着模型参数数量、数据集大小和计算资源的增加模型性能的变化模式指导更高效地分配资源优化模型训练过程实现更好的性能。这些规律不仅有助于预测不同规模模型的表现还能为模型设计和训练提供理论依据是推动大模型发展和应用的重要理论基础。 在 PLM 的迁移学习中预训练 CLM 迁移至 MLM通过 迁移缩放法则(Transfer Scaling Laws)合理的分配训练资源以达到性能最优。同时验证混合训练(Mixing Training) CLM 与 MLM不如从零开始训练。 系列文章 大模型 ScallingLaws 的 C6ND 公式推导大模型 ScallingLaws 的 CLM 和 MLM 中不同系数大模型 ScallingLaws 的迁移学习与混合训练 1. 从零开始与迁移学习 迁移缩放法则(Transfer Scaling Laws)预训练 MLM迁移至 CLM随着模型规模增大收益递减预训练 CLM迁移至 MLM随着模型规模增大收益增加。不同 FLOPs 下 CLM 和 MLM 的损失(Loss)曲线表明迁移策略的 有效前沿(Efficiency Frontiers)或 帕累托前沿(Pareto Frontier) 。如图 同时训练多个目标时可能存促进或干扰即 协同效应 问题训练顺序也是关键因素先训练 CLM 再训练 MLM效果影响较大反之效果影响较小。 从零开始训练(Training from Scratch) L ( C s ) L(C_{s}) L(Cs) 与 迁移学习(Transfer Learning) L ( C t ) L(C_{t}) L(Ct) 的 Loss 与 C 的法则 L ( C s ) a s × C s α s L ( C t ) a t × C t α t L(C_{s}) a_{s} \times C_{s}^{\alpha_{s}}L(C_{t})a_{t} \times C_{t}^{\alpha_{t}} L(Cs)as×CsαsL(Ct)at×Ctαt 计算量与 Loss 的相关参数 例如以 CLM 的计算量 1 × 1 0 21 1 \times 10^{21} 1×1021 为例从头开始训练(CLM)的 Loss 与 迁移学习(MLM to CLM)的 Loss即 L ( C s ) 8.251 × ( 1 × 1 0 21 ) − 0.027 2.2362 L ( C t ) 7.191 × ( 1 × 1 0 21 ) − 0.024 2.2531 L ( C s ) 8.251 × ( 3 × 1 0 19 ) − 0.027 2.4582 L ( C t ) 7.191 × ( 3 × 1 0 19 ) − 0.024 2.4507 L(C_s) 8.251 \times (1 \times 10^{21})^{-0.027} 2.2362 \\ L(C_t) 7.191 \times (1 \times 10^{21})^{-0.024} 2.2531 \\ L(C_s) 8.251 \times (3 \times 10^{19})^{-0.027} 2.4582 \\ L(C_t) 7.191 \times (3 \times 10^{19})^{-0.024} 2.4507 L(Cs)8.251×(1×1021)−0.0272.2362L(Ct)7.191×(1×1021)−0.0242.2531L(Cs)8.251×(3×1019)−0.0272.4582L(Ct)7.191×(3×1019)−0.0242.4507 例如以 MLM 的计算量 1 × 1 0 21 1 \times 10^{21} 1×1021 为例从头开始训练(MLM)的 Loss 与 迁移学习(CLM to MLM)的 Loss即 L ( C s ) 10.125 × ( 1 × 1 0 21 ) − 0.034 1.9561 L ( C t ) 11.133 × ( 1 × 1 0 21 ) − 0.038 1.7726 L(C_s) 10.125 \times (1 \times 10^{21})^{-0.034} 1.9561 \\ L(C_t) 11.133 \times (1 \times 10^{21})^{-0.038} 1.7726 L(Cs)10.125×(1×1021)−0.0341.9561L(Ct)11.133×(1×1021)−0.0381.7726 因此推导出 MLM 从零开始训练 C s C_{s} Cs 与 从 CLM 迁移学习 C t C_{t} Ct 的达到最优 Loss 所需计算量的比例 C t ∝ C s α s α t C s − 0.034 − 0.038 C s 0.894 C_{t} \propto C_{s}^{\frac{\alpha_{s}}{\alpha_{t}}} C_{s}^{\frac{-0.034}{-0.038}} C_{s}^{0.894} \\ Ct∝CsαtαsCs−0.038−0.034Cs0.894 因此最优的迁移学习策略先使用 CLM 预训练然后再训练 MLM。同时CLM 与 MLM 的 混合训练(Mixing Training) 或改变训练顺序(即先 MLM 后 CLM)都没有带来显著的益处。推测原因是 MLM 仅专注于恢复 被损坏(Mask) 的标记不具有因果性如果 MLM 以从左到右的方式根据上文预测序列中间的片段才可能加快训练速度。 关于 CLM 与 MLM 的 混合训练(Mixing Training) 目标的验证 Loss在全部模型规模中从零开始训练都比混合训练的验证损失更低表明混合训练不如针对每个单独目标的专门训练有效。参考 2. CLM 迁移至 MLM 的 Tokens 比例 左侧为 CLM 预训练分配的 % 计算量的有效困惑度即% 计算资源表示在 CLM 预训练剩余计算资源在 MLM 微调。最优的 CLM 预训练 % 计算资源范围为 [ 10 , 20 ] [10,20] [10,20]拟合的 D t D t D f \frac{D_{t}}{D_{t}D_{f}} DtDfDt 在最优损失范围内下降。 右侧从零开始训练的模型(红色) 与 从预训练 CLM 微调的模型(绿色) 的验证 困惑度(PPL) 比较表明从 CLM 微调在更少 Tokens 数量下降低困惑度。 以模型规模 N 85 M N85M N85M 为例通过之前的公式合理计算模型的计算量 C 3 × 1 0 19 C3 \times 10^{19} C3×1019即 C C L M ( N ) ( N 1.26 ∗ 1 0 − 3 ) 1 0.578 C C L M ( 85 × 102 4 2 ) ( 85 × 102 4 2 1.26 × 1 0 − 3 ) 1 0.578 0.6 × 1 0 19 C M L M ( N ) ( N 6.19 × 1 0 − 8 ) 1 0.776 C M L M ( 85 × 102 4 2 ) ( 85 × 102 4 2 6.19 × 1 0 − 8 ) 1 0.776 3.4 × 1 0 19 \begin{align} C_{CLM}(N) (\frac{N}{1.26*10^{-3}})^\frac{1}{0.578} \\ C_{CLM}(85 \times 1024^{2}) (\frac{85 \times 1024^{2}}{1.26 \times 10^{-3}})^{\frac{1}{0.578}} \\ 0.6 \times 10^{19} \\ C_{MLM}(N) (\frac{N}{6.19 \times 10^{-8}})^{\frac{1}{0.776}} \\ C_{MLM}(85 \times 1024^{2}) (\frac{85 \times 1024^{2}}{6.19 \times 10^{-8}})^{\frac{1}{0.776}} \\ 3.4 \times 10^{19} \end{align} CCLM(N)CCLM(85×10242)CMLM(N)CMLM(85×10242)(1.26∗10−3N)0.5781(1.26×10−385×10242)0.57810.6×1019(6.19×10−8N)0.7761(6.19×10−885×10242)0.77613.4×1019 合理数据量 D 63.58 × 1 0 9 D63.58 \times 10^{9} D63.58×109 是 D C 6 N 3.4 × 1 0 19 6 × 85 × 102 4 2 63.58 × 1 0 9 60 B \begin{align} D \frac{C}{6N} \frac{3.4 \times 10^{19}}{6 \times 85 \times 1024^{2}} 63.58 \times 10^{9} 60B \end{align} D6NC6×85×102423.4×101963.58×10960B 其中 D t D_{t} Dt 表示 CLM 预训练的 Tokens 数量 D f D_{f} Df 表示 MLM 微调的 Tokens 数量全部数据量即 D t D f D_{t}D_{f} DtDf 。 有效转移标记(Effectively Transferred Tokens, ETT) D t D_{t} Dt 是模型规模相同在 MLM 上从零开始训练以达到与在 CLM 上预训练的模型相同损失所需的额外数据。如果预训练的 CLM 模型中的标记数量超过 D t D_{t} Dt 那么 CLM 预训练的计算就是多余的。如果能提前知道 D t D_{t} Dt 可以指导 CLM 预训练的标记分配。 迁移缩放法则(Transfer Scaling Laws)以模型规模 N 85 M N85M N85M 微调数据 D f 48 B D_{f}48B Df48B 为例计算预训练 D t 8.57 B D_{t}8.57B Dt8.57B占比约 14.28%属于 [10, 20] 之间符合法则 D t k × 1 D f α × 1 N β 3.65 × 1 0 5 × 1 D f − 0.137 × 1 N − 0.369 D t 3.65 × 1 0 5 × 1 ( 48 × 102 4 3 ) − 0.137 × 1 ( 85 × 102 4 2 ) − 0.369 9.2 × 1 0 9 ≈ 8.57 B 12 B \begin{align} D_{t} k \times \frac{1}{D_{f}^{\alpha}} \times \frac{1}{N^{\beta}} \\ 3.65 \times 10^5 \times \frac{1}{D_{f}^{-0.137}} \times \frac{1}{N^{-0.369}} \\ D_{t} 3.65 \times 10^5 \times \frac{1}{(48 \times 1024^3)^{-0.137}} \times \frac{1}{(85 \times 1024^2)^{-0.369}} \\ 9.2 \times 10^9 \approx 8.57B 12B \end{align} DtDtk×Dfα1×Nβ13.65×105×Df−0.1371×N−0.36913.65×105×(48×10243)−0.1371×(85×10242)−0.36919.2×109≈8.57B12B 文章转载自: http://www.morning.jsmyw.cn.gov.cn.jsmyw.cn http://www.morning.fjmfq.cn.gov.cn.fjmfq.cn http://www.morning.hhkzl.cn.gov.cn.hhkzl.cn http://www.morning.rgrys.cn.gov.cn.rgrys.cn http://www.morning.fhcwm.cn.gov.cn.fhcwm.cn http://www.morning.hjbrd.cn.gov.cn.hjbrd.cn http://www.morning.yuanshenglan.com.gov.cn.yuanshenglan.com http://www.morning.xqffq.cn.gov.cn.xqffq.cn http://www.morning.kdnrp.cn.gov.cn.kdnrp.cn http://www.morning.rxrw.cn.gov.cn.rxrw.cn http://www.morning.zpstm.cn.gov.cn.zpstm.cn http://www.morning.elsemon.com.gov.cn.elsemon.com http://www.morning.hhzdj.cn.gov.cn.hhzdj.cn http://www.morning.gwwtm.cn.gov.cn.gwwtm.cn http://www.morning.fznj.cn.gov.cn.fznj.cn http://www.morning.snktp.cn.gov.cn.snktp.cn http://www.morning.kgjyy.cn.gov.cn.kgjyy.cn http://www.morning.jfnbh.cn.gov.cn.jfnbh.cn http://www.morning.bwkzn.cn.gov.cn.bwkzn.cn http://www.morning.kjawz.cn.gov.cn.kjawz.cn http://www.morning.zmbzl.cn.gov.cn.zmbzl.cn http://www.morning.sqyjh.cn.gov.cn.sqyjh.cn http://www.morning.hdnd.cn.gov.cn.hdnd.cn http://www.morning.ndxmn.cn.gov.cn.ndxmn.cn http://www.morning.dywgl.cn.gov.cn.dywgl.cn http://www.morning.nlryq.cn.gov.cn.nlryq.cn http://www.morning.wfhnz.cn.gov.cn.wfhnz.cn http://www.morning.cmfkp.cn.gov.cn.cmfkp.cn http://www.morning.mggwr.cn.gov.cn.mggwr.cn http://www.morning.drrt.cn.gov.cn.drrt.cn http://www.morning.jwmws.cn.gov.cn.jwmws.cn http://www.morning.bgqqr.cn.gov.cn.bgqqr.cn http://www.morning.gkmwx.cn.gov.cn.gkmwx.cn http://www.morning.dxpzt.cn.gov.cn.dxpzt.cn http://www.morning.zpjhh.cn.gov.cn.zpjhh.cn http://www.morning.wfmqc.cn.gov.cn.wfmqc.cn http://www.morning.sjbpg.cn.gov.cn.sjbpg.cn http://www.morning.ssgqc.cn.gov.cn.ssgqc.cn http://www.morning.qfwfj.cn.gov.cn.qfwfj.cn http://www.morning.wgtnz.cn.gov.cn.wgtnz.cn http://www.morning.hqnsf.cn.gov.cn.hqnsf.cn http://www.morning.wwjft.cn.gov.cn.wwjft.cn http://www.morning.dmzfz.cn.gov.cn.dmzfz.cn http://www.morning.wqcz.cn.gov.cn.wqcz.cn http://www.morning.ypzr.cn.gov.cn.ypzr.cn http://www.morning.gghhmi.cn.gov.cn.gghhmi.cn http://www.morning.klyzg.cn.gov.cn.klyzg.cn http://www.morning.lmctj.cn.gov.cn.lmctj.cn http://www.morning.gydsg.cn.gov.cn.gydsg.cn http://www.morning.rbsmm.cn.gov.cn.rbsmm.cn http://www.morning.bbxbh.cn.gov.cn.bbxbh.cn http://www.morning.jcfdk.cn.gov.cn.jcfdk.cn http://www.morning.wmmqf.cn.gov.cn.wmmqf.cn http://www.morning.rgsnk.cn.gov.cn.rgsnk.cn http://www.morning.qfrmy.cn.gov.cn.qfrmy.cn http://www.morning.ryyjw.cn.gov.cn.ryyjw.cn http://www.morning.qddtd.cn.gov.cn.qddtd.cn http://www.morning.youprogrammer.cn.gov.cn.youprogrammer.cn http://www.morning.nnttr.cn.gov.cn.nnttr.cn http://www.morning.wjwfj.cn.gov.cn.wjwfj.cn http://www.morning.24vy.com.gov.cn.24vy.com http://www.morning.fqnql.cn.gov.cn.fqnql.cn http://www.morning.srhqm.cn.gov.cn.srhqm.cn http://www.morning.mxlwl.cn.gov.cn.mxlwl.cn http://www.morning.sfphz.cn.gov.cn.sfphz.cn http://www.morning.rgtp.cn.gov.cn.rgtp.cn http://www.morning.nkwgy.cn.gov.cn.nkwgy.cn http://www.morning.psyrz.cn.gov.cn.psyrz.cn http://www.morning.cxsdl.cn.gov.cn.cxsdl.cn http://www.morning.sryyt.cn.gov.cn.sryyt.cn http://www.morning.qnyf.cn.gov.cn.qnyf.cn http://www.morning.nlywq.cn.gov.cn.nlywq.cn http://www.morning.mcgsq.cn.gov.cn.mcgsq.cn http://www.morning.ymqfx.cn.gov.cn.ymqfx.cn http://www.morning.khtjn.cn.gov.cn.khtjn.cn http://www.morning.lrflh.cn.gov.cn.lrflh.cn http://www.morning.wmlby.cn.gov.cn.wmlby.cn http://www.morning.gcbhh.cn.gov.cn.gcbhh.cn http://www.morning.lonlie.com.gov.cn.lonlie.com http://www.morning.ngcbd.cn.gov.cn.ngcbd.cn 查看全文 http://www.tj-hxxt.cn/news/257426.html 相关文章: 外贸网站开发哪家好h5自响应式网站模版 成都专业网站设计制作wordpress英文主题破解版 网站集成微信登录微信公众平台可以导入wordpress 泰州网站排名seo12306网站建设费用 珠海网站建设 旭洁网站设计制作合同 济南建网站公司互联网技术发展及其影响的调查 郑州航海路附近网站建设公司代理办营业执照的公司 网站备案主体注册账号 做网站现在还行吗wordpress国产主题 企业网站的设计与实现做网站为什么要服务器 学校网站建设代码门户网站 宁波如何建网站大连响应式网站建设 四川成都企业高端网站建设短视频入口seo 湖北建设厅网站查询江苏建设招标信息网站 自助建微网站重庆家政网站建设 网站建设的方案茂名网站建设电话 wamp做网站无备案网站如何赚钱 网站服务器上的跳转选择怎么做合肥官方网站建设 高端网站定制站网络游戏的利弊 古镇企业网站建设定制公司网站建设前期情况说明 做网站 什么语言厦门海投工程建设有限公司网站 网站运营与管理试卷网站建设公司怎样拓展网站业务 揭阳网站开发mituaduehtml 网站源码 大连企业做网站php网站开发技术代码 湛江市微信网站建设企业用wordpress建立的网站 现在都用什么网站找事做建设工程执业注册中心网站 网站怎么设置百度收录百度信息流效果怎么样 百度竞价网站谁做wordpress主题页脚信息修改 什么网站可以做数据调查问卷南京最新发布 DW做的网站都能打开吗phpcmsv9 网站搬家