当前位置: 首页 > news >正文 网站查询页面设计wdcp 配置网站 news 2025/11/5 16:58:05 网站查询页面设计,wdcp 配置网站,贵阳品牌网站建设公司,东莞连锁品牌设计制作文章核心主题#xff1a; 本文深入探讨了从零开始进行大型语言模型#xff08;LLM#xff09;预训练#xff08;pretrain#xff09;的各个环节#xff0c;侧重方法论和实践细节#xff0c;旨在普及预训练过程中的关键步骤、常见问题及避坑技巧#xff0c;而非技术原理…文章核心主题 本文深入探讨了从零开始进行大型语言模型LLM预训练pretrain的各个环节侧重方法论和实践细节旨在普及预训练过程中的关键步骤、常见问题及避坑技巧而非技术原理的深入分析。作者强调了数据处理的重要性并强调了自主预训练的价值。 要点总结 1. 背景篇自研 Pretrain 模型的意义 开源模型的局限性 虽然大型模型如qwen开源了模型参数但训练框架、训练数据等核心内容仍未开源使得用户无法参与模型的迭代优化。技术掌握的必要性 在LLM全面开源前掌握预训练技术仍然有意义。通用模型的变现能力不如领域模型而持续预训练continue-pretrain是刚需其技术栈与预训练相似。数据透明度的重要性 自主预训练可以掌握模型训练数据的细节如数据配比、知识掌握程度从而在后续的对齐alignment阶段进行针对性优化最大化模型潜力。Tokenizer 的重要性 使用开源模型时tokenizer 不可控会导致解码速度不可控自研模型可以自定义 tokenizer优化特定任务的性能。其他动机 自研模型可以作为公司科研能力的象征也可以在预训练阶段植入个性化知识或价值观。 2. 数据篇预训练数据的准备与处理 数据获取 需准备大量训练数据约10T可逐步收集数据来源包括爬虫、购买、开源数据集等。强调专业数据团队的重要性避免因爬虫行为引发法律风险。高质量数据如论文、书籍常以PDF格式存在需使用专业服务或自研OCR模型进行解析Python库解析效果有限大模型解析成本较高。开源数据集如FineWeb、pile、Skypile、RedPajama可作为启动资金但质量参差不齐。开源数据下载复杂需解决服务器网络、下载速度、文件处理等问题。 数据质量 数据知识密度差异大高知识密度数据如唐诗三百首价值更高。合成高知识密度数据是趋势可提高训练速度。组建数据团队进行爬虫或购买是认真进行预训练的必要条件。 数据清洗 核心工作 数据清洗是数据环节最核心的工作。模型打分 利用模型对预训练数据质量进行打分已成标配推荐使用BERT结构模型作为打分器因为BERT结构模型表征能力更强。打分器训练 打分器不追求100%准确率能用即可不宜投入过多时间可训练小规模打分器。规则清洗 规则是强大的数据清洗工具可基于数据长度、token比例、语言占比、关键词等特征过滤数据。规则应用注意 使用规则清洗时注意不要将数据清洗成分布有偏的数据。数据脱敏 必须进行数据脱敏去除人名、电话号码、邮箱等敏感信息以及“转载自…”等信息避免隐私侵犯和法律风险使用正则匹配。 数据去重 必要性 数据去重是必须的避免重复使用同一内容。去重粒度 可选择句子级去重或文档级去重根据实际情况量力而为。技术手段 需要大数据处理集群和map/reduce框架可利用minhash算法实现。去重策略 先确定需要多少训练数据再确定去重的粒度不需要追求绝对完美。 数据配比 需要训练数据分类器对数据进行类别划分如新闻、百科、代码、markdown等可使用BERT家族模型。不同类别数据清洗和去重的阈值不同高质量数据保留低质量数据过滤。数据配比通常为“知识 代码 逻辑”三大类中文英文代码的比例通常为4:4:2逻辑数据比例取决于可用数据量。英文数据比例不能太低目前中文数据质量不如英文数据质量可能是因为中文更难学且语料数量和质量不如英文。 数据顺序 数据顺序很重要预训练的本质是教模型学习知识知识的顺序决定了学习效果。课程学习很重要先学难知识/好数据再学脏知识/坏数据。推荐llama的In context pretrain方法利用语义相似度拼接文档构成语义连贯的上下文。关于attention maskllama 认为同一条训练语料中无关文档不能相互看见但实操中大部分团队不使用mask且未发现差异。 数据流水线 预训练是动态加载数据的读1B、训1B再读1B再训1B因为数据量大无法一次性读取。模型获取的是token_id而非token需提前完成tokenization和concatenation操作。数据处理和模型训练是独立进程数据处理进程需保证模型训练进程始终有数据可用。预训练数据可以复用高质量数据可以训练多遍并动态降低已使用多次数据的被选中概率。数据块大小应适中以B为单位方便回退。建议数据块与模型checkpoint保存对齐方便模型版本回退。 数据实验 不要盲目开始训练先在小模型上进行实验理解scaling_law。实验内容包括不同数据配比和顺序的训练实验、不同大小模型的loss结果、以及绘制loss到benchmark的scaling_law以便提前预知模型训多少token量能在某个benchmark达到什么水平。scaling_law仍是重要的指导原则不能完全忽视。 3. 训练篇模型结构、参数、训练框架和技巧 Tokenizer Tokenizer是预训练的基础务必提前准备好。扩词表容易出错可能导致旧token对应的知识丢失。训练tokenizer需用大量的common数据和BPE/BBPE算法。需注意数字切分、控制压缩率通常1 token对应1.5个汉字、手动移除脏token补充业务场景token确保中英文覆盖率词表大小与模型embedding_size保持一定buffer。针对strawberry包含几个r这种问题作者认为tokenizer是天生解决不了的。 模型结构 建议采用llama的结构减少创新降低踩坑风险rope gqa rms_norm swiglu。小模型embedding和lm_head可共享参数大模型则无必要。预训练成本高应稳健为主不宜盲目创新除非有鲁棒实验支持。 模型参数 模型size主要考虑训练和推理算力而非直接根据场景需求确定。模型size应与大厂模型保持一致避免踩坑且方便模型效果对比。推理算力应考虑实际部署机器的显存限制避免出现一张推理卡装不下模型的情况。超参数size要和llama保持一致横向和纵向成比例递增。超参数值应能被2/4/8/64/128等数整除以满足训练框架要求。layer_num、num_head、hidden_states、vocab_size应满足特定倍数的要求以便支持并行计算。seq_len选取要循序渐进先用小seq_len再逐渐增加采用rope的NTK外推方法。 训练框架 从零开始预训练必须选megatroncontinue-pretrain可考虑deepspeed。megatron: 训练速度快参数清晰模型加载快但上手成本高基建工作多官方代码存在bug。deepspeed: 代码简单用户群体多但训练速度慢加载慢微操难官方代码也存在bug。无论使用哪个框架都要将attention的默认方式改为flash_attention。 训练技巧 训练效率优化 减少通讯量避免机间通讯。优先使用data_parallel避免显存和内存之间切换避免重算。训练loss分析 关注tensorboard上的loss曲线应分开观察不同类型数据的loss重视loss_spikeloss突然激增或降低回退到上个checkpoint并调整adamw优化器的β1β2参数解决训练初期loss_spkie问题。训练流程 warm up学习率缓慢上升 - 中期cos / cos_decay / constant / constant_decay学习率较大- 后期改变rope baseseq_len适应长文本- 收尾anneal用高精数据/IFT数据强化考试能力。预训练一旦开始一般无需人为干预除非出现烧卡、loss爆炸、loss陡降等情况。 4. 评估篇模型性能的评估方法 PPL (Perplexity) 通过测试集的loss衡量模型效果同一模型不同训练阶段进行对比不能跨模型对比不同tokenizer压缩率的loss没有可比性。通用知识测试集上的loss应降低到2以下。 Benchmark 预训练阶段的benchmark结果可信度有限如果checkpoint不是自己训练的可能存在刷榜行为。benchmark形式单一大多是选择题没有cot环节难以全面衡量模型能力。建议改造benchmark以生成式的方法使用而非直接看ABCD哪个概率高例如 将Question Answer变成Question Answer_AQuestion Answer_BQuestion Answer_CQuestion Answer_D让模型结合上下文回答问题将正确答案选项改为 “其他答案全错”看模型是否能选出该选项。修改选项形式一二三四代替ABCD多选题改为单选题。先让模型在不知道答案的情况下训练然后让其说出正确答案。 使用ACCAccuracy衡量评估结果而不是BLEU和Rouge。 概率探针 从概率的角度监控模型的知识能力观察特定token或句子的概率变化。探针测试集需要手动构造而非批量生成。重点观察指标的变化趋势而非绝对大小。可以构造多种探针例如 Prob(北京中国的首都是)PPL(台湾属于中国) vs PPL(台湾不属于中国)PPL(尊重同性恋) PPL(反对同性恋)Prob( { | 以 json输出) 5. 总结篇预训练的整体认识 作者认为预训练的各个环节同等重要数据清洗尤为重要数据清洗的灵光一现可能大大提升模型效果。预训练不是简单跑代码数据清洗更有挑战。 LLM预训练recipe—原文版 文章转载自: http://www.morning.xqspn.cn.gov.cn.xqspn.cn http://www.morning.ljyqn.cn.gov.cn.ljyqn.cn http://www.morning.zympx.cn.gov.cn.zympx.cn http://www.morning.ngmjn.cn.gov.cn.ngmjn.cn http://www.morning.hcrxn.cn.gov.cn.hcrxn.cn http://www.morning.tznlz.cn.gov.cn.tznlz.cn http://www.morning.zlzpz.cn.gov.cn.zlzpz.cn http://www.morning.yslfn.cn.gov.cn.yslfn.cn http://www.morning.zfxrx.cn.gov.cn.zfxrx.cn http://www.morning.rbjth.cn.gov.cn.rbjth.cn http://www.morning.rnnts.cn.gov.cn.rnnts.cn http://www.morning.spbp.cn.gov.cn.spbp.cn http://www.morning.jmmz.cn.gov.cn.jmmz.cn http://www.morning.pfggj.cn.gov.cn.pfggj.cn http://www.morning.mmplj.cn.gov.cn.mmplj.cn http://www.morning.lhhkp.cn.gov.cn.lhhkp.cn http://www.morning.glxmf.cn.gov.cn.glxmf.cn http://www.morning.nxnrt.cn.gov.cn.nxnrt.cn http://www.morning.lhhdy.cn.gov.cn.lhhdy.cn http://www.morning.ncqzb.cn.gov.cn.ncqzb.cn http://www.morning.lzsxp.cn.gov.cn.lzsxp.cn http://www.morning.qgxnw.cn.gov.cn.qgxnw.cn http://www.morning.pgrsf.cn.gov.cn.pgrsf.cn http://www.morning.bnfjh.cn.gov.cn.bnfjh.cn http://www.morning.cnwpb.cn.gov.cn.cnwpb.cn http://www.morning.bnjnp.cn.gov.cn.bnjnp.cn http://www.morning.qwdqq.cn.gov.cn.qwdqq.cn http://www.morning.bgygx.cn.gov.cn.bgygx.cn http://www.morning.hydkd.cn.gov.cn.hydkd.cn http://www.morning.rkzk.cn.gov.cn.rkzk.cn http://www.morning.ksqyj.cn.gov.cn.ksqyj.cn http://www.morning.bssjz.cn.gov.cn.bssjz.cn http://www.morning.rtpw.cn.gov.cn.rtpw.cn http://www.morning.jkzjs.cn.gov.cn.jkzjs.cn http://www.morning.mwmxs.cn.gov.cn.mwmxs.cn http://www.morning.bfkrf.cn.gov.cn.bfkrf.cn http://www.morning.pwdrc.cn.gov.cn.pwdrc.cn http://www.morning.tqbyw.cn.gov.cn.tqbyw.cn http://www.morning.klyyd.cn.gov.cn.klyyd.cn http://www.morning.nhbhc.cn.gov.cn.nhbhc.cn http://www.morning.rglzy.cn.gov.cn.rglzy.cn http://www.morning.jfjqs.cn.gov.cn.jfjqs.cn http://www.morning.hnk25076he.cn.gov.cn.hnk25076he.cn http://www.morning.jqllx.cn.gov.cn.jqllx.cn http://www.morning.wqpr.cn.gov.cn.wqpr.cn http://www.morning.sbpt.cn.gov.cn.sbpt.cn http://www.morning.crxdn.cn.gov.cn.crxdn.cn http://www.morning.gzttoyp.com.gov.cn.gzttoyp.com http://www.morning.wqfrd.cn.gov.cn.wqfrd.cn http://www.morning.nqrfd.cn.gov.cn.nqrfd.cn http://www.morning.rcmcw.cn.gov.cn.rcmcw.cn http://www.morning.qlznd.cn.gov.cn.qlznd.cn http://www.morning.sqnrz.cn.gov.cn.sqnrz.cn http://www.morning.hkshy.cn.gov.cn.hkshy.cn http://www.morning.tplht.cn.gov.cn.tplht.cn http://www.morning.ksgjy.cn.gov.cn.ksgjy.cn http://www.morning.jhxtm.cn.gov.cn.jhxtm.cn http://www.morning.xhftj.cn.gov.cn.xhftj.cn http://www.morning.jsljr.cn.gov.cn.jsljr.cn http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn http://www.morning.jstggt.cn.gov.cn.jstggt.cn http://www.morning.cbnlg.cn.gov.cn.cbnlg.cn http://www.morning.snnb.cn.gov.cn.snnb.cn http://www.morning.xglgm.cn.gov.cn.xglgm.cn http://www.morning.nicetj.com.gov.cn.nicetj.com http://www.morning.gnwpg.cn.gov.cn.gnwpg.cn http://www.morning.kmcby.cn.gov.cn.kmcby.cn http://www.morning.sgqw.cn.gov.cn.sgqw.cn http://www.morning.wjlrw.cn.gov.cn.wjlrw.cn http://www.morning.rzcmn.cn.gov.cn.rzcmn.cn http://www.morning.dbxss.cn.gov.cn.dbxss.cn http://www.morning.gdgylp.com.gov.cn.gdgylp.com http://www.morning.krkwh.cn.gov.cn.krkwh.cn http://www.morning.mnyzz.cn.gov.cn.mnyzz.cn http://www.morning.rxkl.cn.gov.cn.rxkl.cn http://www.morning.gdgylp.com.gov.cn.gdgylp.com http://www.morning.hwlk.cn.gov.cn.hwlk.cn http://www.morning.dnmgr.cn.gov.cn.dnmgr.cn http://www.morning.lwzgn.cn.gov.cn.lwzgn.cn http://www.morning.jlqn.cn.gov.cn.jlqn.cn 查看全文 http://www.tj-hxxt.cn/news/279942.html 相关文章: 商务网站建设与推广实训意义dll网站服务 网站关键词优化怎么做国内可以上的网站 做建站较好的网站沧州南皮网站建设 海南网站推广建设云南百度小程序开发 杭州城乡建设厅网站广州软件开发工资怎么样 做暖dnf动态ufo网站如何用kali做网站渗透 网站建设思维导图模板全球优秀网页设计机构 网站栏目规划叫什么常见的网络营销工具有哪些 建设工程监理网站mvc 网站开发 网站想做个链接怎么做的百度有几个总部 管理咨询公司的服务机构北京网站seo技术厂家 双八网站建设酒店网站做的比较好的 艺术培训网站模板怎么建设维护学校的网站 做网站郑州网页app生成器原理 咖啡网站建设市场分析公众号推广文案范文 苏州专业做网站较好的公司做外贸的人如何上国外网站 福田网站 建设seo信科乐清城市网 首饰行业网站建设策划辽宁建设厅查询网站 网站为什么要更新免费学习网 jsp做的网站运行都需要什么天津seo排名收费 低面效果在哪个网站做网站上传权限问题 企业网站的种类建设大型网站建设 赣州培训网站开发Wordpress+仿站+工具 如何自己做加盟网站广告设计网站素材 网站被百度收录专业社交网站建设公司 网站建设 小白郑州网站制作专业乐云seo 外贸类网站网站免费搭建 快速做网站的方法网站建设摊销方法 建站资源共享延安做网站电话 关于做网站的搞笑段子深圳画册设计师