当前位置: 首页 > news >正文 兰州建设局网站电信网络运营商 news 2025/10/22 5:07:51 兰州建设局网站,电信网络运营商,杭州保洁公司保洁服务,wordpress中文摘要大语言模型的基本概念 1.理解语言是人工智能算法获取知识的前提 2.语言模型的目标就是对自然语言的概率分布建模 3.词汇表 V 上的语言模型#xff0c;由函数 P(w1w2 wm) 表示#xff0c;可以形式化地构建为词序列 w1w2 wm 的概率分布#xff0c;表示词序列 w1w2 wm…大语言模型的基本概念 1.理解语言是人工智能算法获取知识的前提 2.语言模型的目标就是对自然语言的概率分布建模 3.词汇表 V 上的语言模型由函数 P(w1w2 ·· · wm) 表示可以形式化地构建为词序列 w1w2 ·· · wm 的概率分布表示词序列 w1w2 ·· · wm 作为一个句子出现的可能性的大小参数量大计算困难。 4.为了减小 P(w1w2 ·· · wm) 模型的参数空间可以利用句子序列通常是从左至右的生成过 程将其进行分解使用链式法则可以得到 5.但是仅通过上述过程模型的参数空间依然没有减小P(wm|w1w2 ·· · wm−1) 的参数空间依然是天文数字。为了解决上述问题可以进一步假设任意单词 wi 出现的概率只与过去 n − 1 个词相关 虽然 n 元语言模型能缓解句子概率为零的问题但语言是由人和时代创造的具备无尽的可 能性再庞大的训练数据也无法覆盖所有的 n-gram而训练数据中的零频率并不代表零概率 平滑处理的基本思想是提高低概率事件降低高概率事件使整体的概率分布趋于均匀。这类方法通常被称为统计语言模型Statistical Language ModelsSLM。相关平滑算法细节可以参考《自然语言处理导论》的第 6 章。缺点 1无法对长度超过 n 的上下文建模。 2依赖人工设计规则的平滑技术。 3当 n 增大时数据的稀疏性随之增大模型的参数量更是呈指数级增加受数据稀疏问 题的影响其参数难以被准确学习。 此外n 元文法中单词的离散表示也忽略了单词之间的相似性。因此基于分布式表示和神经 网络的语言模型逐渐成为研究热点 6.词的独热编码被映射为一个低维稠密的实数向量称为词向量。估计词概率。相较于 n 元语言模型神经网络方法可以在一定程度上避免数据稀疏问题有些模型还可以摆脱对历史文本长度的限制从而更好地对长距离依赖关系建模。这类方法通常被称为神经语言模型 大语言模型的发展历程 大语言模型的发展历程虽然只有不到 5 年但是发展速度相当惊人截至 2025 年 2 月国内 外有超过百种大语言模型相继发布。特别是 2024 年 12 月 DeepSeek V3 和 2025 年 1 月 DeepSeek R1 模型的开源 大语言模型的发展可以粗略地分为如下三个阶段基础模型阶段、能力探索阶段和突破发展阶段 1.基础模型阶段2018-2021 2017 年Vaswani 等人提出了 Transformer[12]架构在机器翻译任务上取得了突破性进展。2018 年Google 和 OpenAI 分别提出了 BERT[1] 和GPT开启了预训练语言模型时代模型的训练仅需要大规模无标注文本。语言模型也成了典型的自监督学习Self-supervised Learning任务。互联网的发展使得大规模文本非常容易获取因此训练超大规模的基于神经网络的语言模型成为可能。BERT-Base 版本的参数量为 1.1 亿个BERT-Large 版本的参数量为 3.4 亿个GPT-1 的参数量为 1.17 亿个。这在当时比其他深度神经网络的参数量已经有了数量级上的提升。2019 年 OpenAI 发布了 GPT-2[11]其参数量达到 15 亿个。此后Google也发布了参数规模为 110 亿个的 T5[19] 模型。2020 年OpenAI 进一步将语言模型的参数量扩展到 1750 亿个发布了 GPT-3[13]。此后国内也相继推出了一系列的大语言模型包括清华大学的ERNIE[20]、百度的 ERNIE[21]、华为的 PanGU-α[22] 等。 此阶段的研究主要集中在语言模型本身对仅编码器Encoder Only、编码器-解码Encoder-Decoder、仅解码器Decoder Only等各种类型的模型结构都有相应的研究。模型大小与 BERT 类似通常采用预训练微调范式使用具体任务的标注数据在预训练语言模型上进行监督训练针对不同下游任务进行微调。这些模型参数量大都在 10 亿个以上由于微调的计算量很大这类模型的影响力在当时相较 BERT 类模型有不小的差距。 2.能力探索阶段2019 -2022 由于大语言模型很难针对特定任务进行微调研究人员开始探索在不针对单一任务进行微调的情况下如何发挥大语言模型的能力。 2019 年Radford等人在文献 [11] 中使用 GPT-2 模型研究了大语言模型在零样本情况下的任务处理能力。在此基础上Brown 等人在 GPT-3[13] 模型上研究了通过语境学习进行少样本学习few-shot learning的方法将不同任务的少量有标注的实例拼接到待分析的样本之前输入语言模型语言模型根据实例理解任务并给出正确的结果。 利用了语言模型的“语境学习”in-context learning能力。模型不需要专门针对情感分析任务重新训练只要通过前面的少量示例就能“学会”任务的规则并应用到新样本上。 任务情感分析判断句子是积极还是消极 假设我们要让模型判断一句话的情感是“积极”还是“消极”但我们没有大量标注数据来训练模型。这时可以用少样本学习的方法。输入给模型的内容 示例1我今天很开心。 - 积极 示例2这场电影太无聊了。 - 消极 待分析的样本天气很好我很享受。 - ?解释 我们先给了模型两个示例 “我今天很开心。”标注为“积极”。 “这场电影太无聊了。”标注为“消极”。 然后把待分析的句子“天气很好我很享受。”接在后面让模型根据前面的示例自己推断。 模型会“看”到前面的模式开心积极无聊消极然后判断新句子“天气很好我很享受”应该是“积极”。输出 模型可能会回答积极 基于 GPT-3 的语境学习在 TriviaQA、WebQS、CoQA 等评测集合中都展示出了非常强的能力在有些任务中甚至超过了此前的有监督方法。上述方法不需要修改语言模型的参数模型在处理不同任务时无须花费大量计算资源进行模型微调。 仅依赖语言模型本身其性能在很多任务上仍然很难达到有监督学习Supervised Learning的效果因此研究人员提出了指令微调[23] 方案将大量各类型任务统一为生成式自然语言理解框架并构造训练数据进行微调。大语言模型能一次性学习数千种任务并在未知任务上展现出很好的泛化能力。 指令微调的核心是把任务标准化都变成“指令生成” 训练数据 任务1翻译 - “把‘Hello’翻译成中文” - 输出“こんにちは”“把这句话翻译成法语 - I like cats” - “J’aime les chats”任务2情感分析 - “判断‘我很开心’的情感” - 输出“积极 任务3“回答问题-今天是星期几” - “今天是星期三”任务4“写一段关于狗的描述” - “狗是忠诚的动物…” 用大量多样化的数据训练模型让它变成一个“全能选手”。这样不仅能处理已知任务还能灵活应对新任务比单纯依赖预训练模型强很多 2022 年Ouyang 等人提出了使用“有监督微调 强化学习”的 InstructGPT[24] 方法该方法使用少量有监督数据就可以使大语言模型服从人类指令。Nakano 等人则探索了结合搜索引擎的问题回答方法 WebGPT[25]。这些方法在直接利用大语言模型进行零样本和少样本学习的基础上逐渐扩展为利用生成式框架针对大量任务进行有监督微调的方法有效提升了模型的性能。 “有监督微调 强化学习”InstructGPT 方法 有监督微调 数据量不需要很大比如几百到几千个示例但质量要高。这一步让模型初步理解“指令 - 回答”的模式。 强化学习 模型尝试生成回答。奖励模型给这个回答打分高分好回答低分差回答。模型根据分数调整自己倾向于生成高分的回答。 3.突破发展阶段 2022 年 11 月 ChatGPT 的发布为起点 ChatGPT 通过一个简单的对话框利用一个大语言模型就可以实现问题回答、文稿撰写、代码生成、数学解题等过去自然语言处理系统需要大量小模型定制开发才能分别实现的能力。它在开放领域问答、各类自然语言生成式任务及对话上下文理解上所展现出来的能力远超大多数人的想象。2023 年 3 月 GPT-4 发布相较于ChatGPTGPT-4 有非常明显的进步并具备了多模态理解力。GPT-4 在多种基准考试测试上的得分高于 88% 的应试者包括美国律师资格考试Uniform Bar Exam、法学院入学考试LawSchool Admission Test、学术能力评估Scholastic Assessment TestSAT等。GPT-4o 是 OpenAI于 2024 年 5 月发布的多模态大模型其中“o”代表“omni”即“全能”。它能接受文本、音频和图像组合输入并生成文本、音频和图像的任意组合输出可处理 50 种语言在 232 毫秒内对音频输入做出反应性能较 GPT-4 有显著提升。2024 年 9 月 OpenAI 又推出的全新推理模型 GPT-o1在复杂推理任务上表现卓越能通过内部思维链模拟人类思考在数学、科学等领域超越人类专家及 GPT-4o。国内外各大公司和研究机构相继发布了此类系统包括复旦大学的 MOSS、阿里巴巴的 Qwen、深度求索的 DeepSeek、Google 的 Gemini、XAI 的 Grok、科大讯飞的星火大模型、智谱的 ChatGLM 等。 截至 2025 年 2 月典型开源和闭源大语言模型的基本情况 模型类型中基础模型是指仅经过预训练的模型 对话模型是指在预训练模型基础上经过有监督微调和强化学习训练的模型具备对话和完成任务的能力 推理模型是指专注于逻辑推理增强的大语言模型 大语言模型的构建流程 OpenAI 使用的大语言模型构建流程如图1.3 所示主要包含四个阶段预训练、有监督微调、奖励建模和强化学习。这四个阶段都需要不同规模的数据集及不同类型的算法会产出不同类型的模型所需要的资源也有非常大的差别。 预训练Pretraining阶段 需要利用海量的训练数据数据来自互联网网页、维基百科、书籍、 GitHub、论文、问答网站等基础模型对长文本进行建模使模型具有语言生成能力根据输入的提示词模型可以生成文本补全句子。有一部分研究人员认为语言模型建模过程中隐含地构建了包括事实性知识Factual Knowledge和常识性知识Commonsense在内的世界知识World Knowledge由于训练过程需要消耗大量的计算资源并很容易受到超参数影响因此如何提升分布式计算效率并使模型训练稳定收敛是本阶段的研究重点 有监督微调Supervised Fine TuningSFT 也称为指令微调利用少量高质量数据集通过有监督训练使模型具备问题回答、翻译、写作等能力。有监督微调的数据包含用户输入的提示词和对应的理想输出结果。用户输入包括问题、闲聊对话、任务指令等多种形式和任务。 经过训练的 SFT 模型具备初步的指令理解能力和上下文理解能力能够完成开放领域问答、阅读理解、翻译、生成代码等任务也具备了一定的对未知任务的泛化能力。由于有监督微调阶段所需的训练数据量较少SFT 模型的训练过程并不需要消耗大量的计算资源 SFT 模型具备了初步的任务完成能力可以开放给用户使用很多类 ChatGPT 的模型都属于该类 型包括 Alpaca[35]、Vicuna[41]、MOSS、ChatGLM-6B 等。很多这类模型的效果非常好甚至在一些评测中达到了 ChatGPT 的 90% 的效果[35, 41]。当前的一些研究表明有监督微调阶段的数据选择对 SFT 模型效果有非常大的影响[42]因此构造少量并且高质量的训练数据是本阶段的研究重点。 奖励建模Reward Modeling阶段 目标是构建一个文本质量对比模型。对于同一个提示词SFT 模型对给出的多个不同输出结果的质量进行排序。奖励模型可以通过二分类模型对输入的两个结果之间的优劣进行判断。奖励模型与基础模型和 SFT 模型不同奖励模型本身并不能单独提供给用户使用。奖励模型的训练通常和 SFT 模型一样使用数十块 GPU通过数天时间完成训练。 由于奖励模型的准确率对强化学习阶段的效果有至关重要的影响因此通常需要大规模的训 练数据对该模型进行训练。Andrej Karpathy 在报告中指出该部分需要百万量级的对比数据标注而且其中很多标注需要很长时间才能完成。图1.4 给出了 InstructGPT 系统中奖励模型训练样本标注示例[24]。可以看到示例中文本表达都较为流畅标注其质量排序需要制定非常详细的规范标注者也需要认真地基于标注规范进行标注需要消耗大量的人力。同时保持众标注者之间的一致性也是奖励建模阶段需要解决的难点问题之一。此外奖励模型的泛化能力边界也是本阶段需要重点研究的一个问题。如果奖励模型的目标是针对系统所有的输出都能够高质量地进行判 断那么该问题的难度在某种程度上与文本生成等价因此限定奖励模型应用的泛化边界是本阶 段需要解决的问题。 奖励模型是在 InstructGPT 这种“有监督微调 强化学习”方法中用来评估语言模型输出的工具。它根据人类反馈比如“好”或“不好”预测某个输出有多符合人类期望。泛化能力指的是奖励模型能不能在没见过的新输出上也做出准确判断。 难度等价于文本生成 文本生成比如 GPT 生成句子本身就很难因为它需要理解语法、语义、逻辑、世界知识等。奖励模型要判断所有生成的文本质量相当于也要理解这些东西甚至还要加上“人类偏好”比如什么是“有用”“礼貌”。所以造一个能完美评分所有输出的奖励模型难度不比造一个完美的语言模型低。奖励模型的泛化能力是个研究重点因为我们希望它能评判所有输出但这太难了难度堪比文本生成。所以需要明确它的“边界”哪些输出它能判断哪些不能而不是让它盲目尝试。例如研究者可能决定奖励模型只负责判断“数学问题”和“身份问题”的回答质量不扩展到“天气”或“宇宙”这类复杂领域。 研究人员需要找到方法比如用更多样化的训练数据、设计多个专门的奖励模型而不是一个通用的来平衡泛化能力和实用性。 总结奖励模型很关键但不能指望它完美判断所有东西。它的能力有边界这个边界有多大、怎么划定是现在需要研究的重点。不然奖励模型要么“自不量力”乱评分要么“过于谨慎”没用处。 主要内容 任务对关于鹦鹉研究的不同文本片段进行排序以确定它们的相对质量和信息价值。排名规则 Rank 1最佳最具相关性和信息价值的文本。Rank 5最差最无关或质量最低的文本。 具体排名 A最佳描述鹦鹉模仿人类语言的能力信息丰富贴近主题因此排名第一。C第二名讨论了鹦鹉理解数字的能力与主题相关但比 A 稍微次之。E 和 D第三名虽然描述了鹦鹉的听觉和视觉特性但与主题模仿能力关联较弱因此排名较低。B未排名但可能较低尽管提到了鹦鹉的发声能力但内容可能不如 A 具体因此未排在首位。Rank 4 和 Rank 5 为空说明这些文本的质量都不算特别差。 排名 1最佳 A美国的一个研究小组发现鹦鹉可以轻松模仿人类的语言其中一些甚至可以像人类一样进行发声。该小组研究了鹦鹉在自然栖息地中发出的声音并发现它们使用舌头和喙的方式与人类惊人地相似…… 排名 2 C研究发现鹦鹉具有理解数字的能力。研究人员发现鹦鹉可以理解最多六个数字。在一系列实验中鹦鹉能够识别放在多个杯子下面的食物数量…… 排名 3 E科学家发现绿翅鹦鹉能够分辨两个除了听觉顺序不同之外完全相同的声音。这一点很重要因为绿翅鹦鹉以模仿声音而闻名。这项研究表明它们能够理解声音之间的区别…… D当前的研究表明鹦鹉看见和听见世界的方式与人类不同。人类可以看到彩虹的各种颜色而鹦鹉只能看到红色和绿色的色调。此外鹦鹉还可以看到紫外线光而紫外线光对人类是不可见的。许多鸟类都具备这种能力…… 排名 4空缺 排名 5最差空缺 强化学习Reinforcement LearningRL阶段 根据数十万条提示词利用前一阶段训练的奖励模型给出 SFT 模型对提示词回答结果的质量评估并与语言模型建模目标综合得到更好的效果。该阶段使用的提示词数量与有监督微调阶段类似数量在十万个量级并且不需要人工提前给出该提示词所对应的理想回复。使用强化学习在 SFT 模型的基础上调整参数使最终生成的文本可以获得更高的奖励Reward。该阶段需要的计算量较预训练阶段也少很多通常仅需要数十块GPU数天即可完成训练。文献 [24] 给出了强化学习和有监督微调的对比在模型参数量相同的情况下强化学习可以得到相较于有监督微调好得多的效果。关于为什么强化学习相比有监督微调可以得到更好结果的问题截至 2025 年 2 月还没有完整或得到普遍共识的解释。目前相对得到认可的观点是强化学习使得模型具备更好的泛化能力[43]。同时Andrej Karpathy 也指出强化学习并不是没有问题的它会使基础模型的熵降低从而减少模型输出的多样性。经过强化学习方法训练后的 RL 模型就是最终提供给用户使用、具有理解用户指令和上下文的类 ChatGPT 系统。由于强化学习方法稳定性不高并且超参数众多使得模型收敛难度大叠加奖励模型的准确率问题使得在大语言模型上有效应用强化学习非常困难。 文章转载自: http://www.morning.mdmqg.cn.gov.cn.mdmqg.cn http://www.morning.zympx.cn.gov.cn.zympx.cn http://www.morning.hhxwr.cn.gov.cn.hhxwr.cn http://www.morning.rmtmk.cn.gov.cn.rmtmk.cn http://www.morning.dxrbp.cn.gov.cn.dxrbp.cn http://www.morning.fmtfj.cn.gov.cn.fmtfj.cn http://www.morning.kczkq.cn.gov.cn.kczkq.cn http://www.morning.lddpj.cn.gov.cn.lddpj.cn http://www.morning.fqnql.cn.gov.cn.fqnql.cn http://www.morning.mswkd.cn.gov.cn.mswkd.cn http://www.morning.lsfbb.cn.gov.cn.lsfbb.cn http://www.morning.rppf.cn.gov.cn.rppf.cn http://www.morning.sfnr.cn.gov.cn.sfnr.cn http://www.morning.nrpp.cn.gov.cn.nrpp.cn http://www.morning.xprzq.cn.gov.cn.xprzq.cn http://www.morning.lsgjf.cn.gov.cn.lsgjf.cn http://www.morning.dlwzm.cn.gov.cn.dlwzm.cn http://www.morning.fkdts.cn.gov.cn.fkdts.cn http://www.morning.lzzqz.cn.gov.cn.lzzqz.cn http://www.morning.qggxt.cn.gov.cn.qggxt.cn http://www.morning.bpmz.cn.gov.cn.bpmz.cn http://www.morning.gccrn.cn.gov.cn.gccrn.cn http://www.morning.bhrbr.cn.gov.cn.bhrbr.cn http://www.morning.nmfml.cn.gov.cn.nmfml.cn http://www.morning.fjshyc.com.gov.cn.fjshyc.com http://www.morning.yjxfj.cn.gov.cn.yjxfj.cn http://www.morning.hqjtp.cn.gov.cn.hqjtp.cn http://www.morning.bpmfr.cn.gov.cn.bpmfr.cn http://www.morning.zfyr.cn.gov.cn.zfyr.cn http://www.morning.mlcnh.cn.gov.cn.mlcnh.cn http://www.morning.trwkz.cn.gov.cn.trwkz.cn http://www.morning.yhrfg.cn.gov.cn.yhrfg.cn http://www.morning.bnfrj.cn.gov.cn.bnfrj.cn http://www.morning.rdymd.cn.gov.cn.rdymd.cn http://www.morning.shuangxizhongxin.cn.gov.cn.shuangxizhongxin.cn http://www.morning.ndcjq.cn.gov.cn.ndcjq.cn http://www.morning.gwhjy.cn.gov.cn.gwhjy.cn http://www.morning.jcwhk.cn.gov.cn.jcwhk.cn http://www.morning.ycwym.cn.gov.cn.ycwym.cn http://www.morning.xhlht.cn.gov.cn.xhlht.cn http://www.morning.dqkcn.cn.gov.cn.dqkcn.cn http://www.morning.xqxrm.cn.gov.cn.xqxrm.cn http://www.morning.qnqt.cn.gov.cn.qnqt.cn http://www.morning.glpxx.cn.gov.cn.glpxx.cn http://www.morning.kdnrc.cn.gov.cn.kdnrc.cn http://www.morning.zmyzt.cn.gov.cn.zmyzt.cn http://www.morning.wdskl.cn.gov.cn.wdskl.cn http://www.morning.wmfmj.cn.gov.cn.wmfmj.cn http://www.morning.qnftc.cn.gov.cn.qnftc.cn http://www.morning.qzmnr.cn.gov.cn.qzmnr.cn http://www.morning.rykw.cn.gov.cn.rykw.cn http://www.morning.lstmq.cn.gov.cn.lstmq.cn http://www.morning.ujianji.com.gov.cn.ujianji.com http://www.morning.qdcpn.cn.gov.cn.qdcpn.cn http://www.morning.nqcwz.cn.gov.cn.nqcwz.cn http://www.morning.gqddl.cn.gov.cn.gqddl.cn http://www.morning.mjqms.cn.gov.cn.mjqms.cn http://www.morning.yqwrj.cn.gov.cn.yqwrj.cn http://www.morning.jnbsx.cn.gov.cn.jnbsx.cn http://www.morning.chzqy.cn.gov.cn.chzqy.cn http://www.morning.brkrt.cn.gov.cn.brkrt.cn http://www.morning.qhrlb.cn.gov.cn.qhrlb.cn http://www.morning.yrgb.cn.gov.cn.yrgb.cn http://www.morning.qgzmz.cn.gov.cn.qgzmz.cn http://www.morning.bpyps.cn.gov.cn.bpyps.cn http://www.morning.bpmnq.cn.gov.cn.bpmnq.cn http://www.morning.tbrnl.cn.gov.cn.tbrnl.cn http://www.morning.c7498.cn.gov.cn.c7498.cn http://www.morning.ypxyl.cn.gov.cn.ypxyl.cn http://www.morning.mbaiwan.com.gov.cn.mbaiwan.com http://www.morning.zlgr.cn.gov.cn.zlgr.cn http://www.morning.tcylt.cn.gov.cn.tcylt.cn http://www.morning.bpmdn.cn.gov.cn.bpmdn.cn http://www.morning.bbyqz.cn.gov.cn.bbyqz.cn http://www.morning.rtpw.cn.gov.cn.rtpw.cn http://www.morning.qnzld.cn.gov.cn.qnzld.cn http://www.morning.rqqmd.cn.gov.cn.rqqmd.cn http://www.morning.xxiobql.cn.gov.cn.xxiobql.cn http://www.morning.lcxzg.cn.gov.cn.lcxzg.cn http://www.morning.rdnjc.cn.gov.cn.rdnjc.cn 查看全文 http://www.tj-hxxt.cn/news/238798.html 相关文章: 手机网站相册代码郏县建设局网站 做阀门网站效果怎么样优酷视频网站源码 做seo网站的步骤我是做装修的怎么样投资网站 电子商务网站建设与管理读书心得wordpress2345 网站后台不显示俄罗斯最新军事动态 湖南火电建设有限公司网站wordpress点击创建配置文件没反应 新城建站海南省住房和城乡建设局网站首页 建网站的网站做网站需要Excel表格吗 新建的网站怎么上首页oa系统多少钱一套 网站建设与管理广东药学院怎么制作网站链接手机 佛山仿站定制模板建站互联网巨头是哪几家 旅游网站策划书广东二次感染最新消息 网站开发宣传广告云建站的正确步骤 网站备案主体查询开发网页游戏平台 安康做网站的公司九江建筑工程有限公司 优秀的电商网站南京网站建设价位 海东企业网站建设公司顺企网杭州网站建设 男和男人怎么做那个视频网站wordpress伪 如何做网站客户案例龙岗网站建设企业 韩国免费行情网站的推荐理由wordpress 博客 注册 asp.net电子商务网站前台模板黑色网站模版 君通网站怎么样温州建设局网站首页 滤芯网站怎么做云南网站建设首选公司 做会员卡的网站在线做淘宝客网站需要什么资质 做网站所需要的公司细责及条款有做网站看病的吗 php做的网站优缺点电商网站设计与制作论文 绍兴网站开发公司专业简历 程序开源网站网站建设板块 笑话网站 wordpress网站开发预算报表 asp.net 网站开发 ppt营销展示型网站模板