南京网站优化哪家好,培训机构的网站建设,seo做的比较牛的公司,公司网站维护教程大语言模型从通用走向推理#xff0c;万字长文解析推理语言模型#xff0c;建议收藏后食用。 本文基于苏黎世联邦理工学院的论文《Reasoning Language Models: A Blueprint》进行整理#xff0c;你将会了解到#xff1a; 1、RLM的演进与基础#xff1a;RLM融合LLM的知识广… 大语言模型从通用走向推理万字长文解析推理语言模型建议收藏后食用。 本文基于苏黎世联邦理工学院的论文《Reasoning Language Models: A Blueprint》进行整理你将会了解到 1、RLM的演进与基础RLM融合LLM的知识广度、RL的探索深度和高性能计算HPC的支持实现从直觉式预测到系统化问题解决的跃迁。 2、RLM的基本流程RLM架构由推理、训练和数据生成三大流程构成其中推理过程通过树状结构和蒙特卡洛树搜索MCTS系统化探索解决方案。 3、RLM的推理模型组件RLM的推理模型设计包括了推理方案、算子、模型、训练范式、训练数据范围和管线等组件。 4、如何设计RLM模型构建RLM需定义推理方案结构与策略、选择算子并确定模型训练细节以适配特定任务需求。 5、有效的RLM构建经验基于当前的实践构建RLM的有效经验包括基于过程的评估、两阶段训练SFTRL、高质量训练数据的使用以及谨慎运用LLM自我批判。 一、推理语言模型RLM的演进与基础
1、推理模型的基础
推理语言模型RLM的进展主要是融合了三大技术进步 (1)诸如GPT-4等LLM的进步 (2)诸如AlphaZero等强化学习RL设计 (3)高性能计算HPC资源。 这些要素共同塑造了一种能够高效执行“系统2思维”的模型融合了显式推理和新颖问题解决能力这与“系统1思维”那种直觉式、快速且自动化的启发式形成鲜明对比。 接下来我们将简要解释下这三个要素的基本概念。
a. 大型语言模型LLMs
例如GPT-4o是基于海量文本数据训练的人工智能系统。这种训练赋予了它们丰富的世界知识并使它们能够流畅地理解和生成自然语言使其在处理各类语言相关任务时表现出色。
然而大型语言模型的推理能力更倾向于直觉式的关联预测这与人类大脑的“系统1思维”模式相似。
它们主要依赖统计模式来预测序列中下一个可能的词语而非通过严谨的逻辑推演来解决问题。因此在需要深度分析和复杂推理的场景中大型语言模型的能力就显得有所欠缺。 b. 强化学习RL
作为一种通过试错学习最优策略的框架在某些领域展现出卓越的能力例如AlphaZero在棋类游戏中就表现出了超越人类的水平。它能够从零开始通过自我对弈逐步掌握高超的策略甚至发现人类专家未曾预料到的创新解法。
然而强化学习的不足之处在于它通常缺乏广泛的现实世界知识因此在直接处理那些需要丰富背景信息才能理解的多维度任务时会显得力不从心。 c. 高性能计算HPC
支撑大型语言模型和强化学习发展的关键基石。随着传统摩尔定律的增长逐渐放缓高性能计算通过并行计算、异构架构如GPU和TPU以及数据并行、模型并行等技术突破了算力瓶颈使得训练和部署大规模模型成为现实。
因此如果能够结合大型语言模型的知识广度和强化学习的探索深度并依托高性能计算提供的强大算力支持我们就有望构建出兼具广博知识和卓越推理能力的AI系统从而更有效地解决复杂的现实问题。
这种融合将使人工智能系统从依赖内插法、生成与训练数据相似回复的传统大型语言模型LLM进化为能够通过外推法探索未知领域、主动解决问题的推理语言模型RLM实现从模式补全到主动问题解决的飞跃。 2、隐式推理与显式推理
为了更深入地理解推理语言模型RLM的工作机制我们可以根据其推理过程的实现方式将其进一步划分为隐式推理语言模型和显式推理语言模型两大类别。这两种模型在推理的透明度、灵活性以及问题解决能力等方面存在显著差异。
a. 隐式推理模型
这类模型的一个核心特点就是将推理结构完全融入到了模型自身的权重之中。我们可以将这类模型想象成一个“黑盒子”例如QwQ模型就是其中一个代表。它们的推理过程是内嵌于模型内部的对于外部观察者而言其运作机制是不可见的也难以人为控制。
尽管如此隐式推理模型相比于普通的LLM通常展现出更强的推理能力。
然而值得注意的是它们的推理过程缺乏透明度并且很大程度上依赖于训练阶段所学习到的数据模式这在一定程度上限制了其灵活性和可解释性。 b. 显式推理模型
与隐式推理模型截然不同的是显式推理模型。这类模型采取了一种更为开放和可控的策略它们引入了独立于模型核心权重的显式推理机制。
在众多显式推理模型中LLaMA-Berry、Marco-o1以及OpenAI的o3可能包括等模型是典型的代表。
这些模型的一个共同特征是它们巧妙地融合了例如显式蒙特卡洛树搜索MCTS与强化学习等机制来进行决策。
这种显式的结构赋予了模型独特的优势它能够迭代地进行模拟、评估和优化潜在的解决方案从而有效地促进创新性的问题解决和更强大的外推能力。
更重要的是通过将推理过程从那些编码在权重中的静态知识中解耦出来显式推理模型在执行推理任务时展现出更高的灵活性和可解释性这为我们理解和改进模型行为提供了可能。
最后还需要补充说明一点虽然显式推理赋予了模型诸多优势但有趣的是显式推理过程本身可以通过训练被模型逐渐内化并最终转化为隐式推理这暗示着两种推理方式之间可能存在着某种潜在的联系与转化。 了解了推理语言模型的基础概念与推理机制后接下来我们将深入探讨其基本架构、核心流程与关键概念从而更全面地认识RLM的运作方式。我们将从“是什么”转向“如何做”揭示RLM实现推理能力的系统性设计。 二、RLM的基本架构、流程和概念
下图从三个层级展示了RLM架构的细节。总体而言左上部分完整的RLM架构由三大主要流程构成推理(Inference)、训练(Training)和数据生成(DataGeneration)。
推理流程负责响应用户的请求并利用训练流程所提供的模型例如价值模型或策略模型进行工作。数据生成流程在内部设计上与推理流程互为镜像其主要区别在于数据生成流程独立于用户请求而运行其目的是生成数据用于模型的持续再训练。
因此训练流程与来自不同领域的数据生成流程相结合赋予了RLM自学习的能力这与AlphaZero的自对弈设置有异曲同工之妙。 1、推理
推理过程从用户提供的输入提示词开始这一提示词通常描述了RLM需要解决的具体问题或待回答的疑问。输入提示作为推理过程的根节点由此展开推理结构的构建。
这一结构旨在有序地组织和引导RLM的推理过程并通常呈现为树状形式。树的根节点对应用户的初始输入后续生成的节点则用于探索搜索空间即所有可能的推理路径或潜在解决方案的领域。推理结构的核心目标在于系统性地寻找潜在解决方案通过逐步完善和拓展推理路径最终得出最优或令人满意的答案。
在搜索空间中每一个独立点在推理结构中表现为一个节点对应一个推理步骤。推理步骤是一个连贯且自洽的思想单元由一系列词元tokens组成。
它通过探索问题的新分支或深化已有进展推动解决方案的演进。这些推理步骤是构成整个推理过程的基本组成部分。
推理结构的扩展由蒙特卡洛树搜索MCTS主导其设计灵感源自AlphaZero旨在高效且有针对性地探索有前景的路径。
MCTS依赖策略模型和价值模型的辅助。策略模型在每个节点生成新的推理步骤预测最有可能的下一步以扩展推理过程价值模型则评估从某节点出发的推理路径的质量引导系统优先探索最有希望的方向。此外在某些情况下奖励模型会被用来评估单个节点及其推理步骤的优劣。
搜索和推理过程将持续迭代直至达到终止步骤。终止步骤标志着一条推理链的结束这条推理链形成了针对用户问题的最终答案。在推理树中它作为叶节点宣告特定推理路径的终结。
这一架构提供了一个统一的框架能够灵活适应各种推理任务。无论是细粒度的推理步骤例如单个词元序列还是粗粒度的推理步骤例如将完整推理链视为单一节点该架构均可无缝适配。
通过明确构建搜索空间并利用策略模型和价值模型引导探索方向RLM最终实现了在直觉式模式识别与审慎问题解决之间架起桥梁的推理能力。 2、训练
训练的具体细节取决于所训练的模型类型例如价值模型、策略模型或奖励模型等。
一般来说我们通常采用微调的方式来训练诸如Llama这样的预训练模型。具体做法是首先利用监督数据进行训练这些数据往往来源于已有的数据集比如PRM800K。这些数据集为监督训练流程提供了必要的数据支持用于训练蓝图中所涉及的部分或全部模型。
在RLM强化学习模型的整体训练框架中除了监督训练之外另一个重要组成部分是无监督自学习训练流程。在这一流程中训练数据是持续生成的并被用于模型的迭代优化。这些数据可以通过以下两种方式获取 从推理流程中收集前提是实施了严格的质量控制以确保数据可靠性。从专门设计的合成数据生成流程中获取这种流程在设计上与推理流程相互镜像具有对称性。 为了收集这些数据我们需要针对特定的输入任务运行相应的RLM流程并记录其结果。根据数据收集的精细程度所得数据可能包含不同的标签类型例如 基于结果的标签仅记录任务的最终输出。基于过程的标签记录任务解决过程中的关键步骤。基于轨迹的标签这是我们蓝图中提出的一种变体它是对基于过程的标签的扩展进一步包含了任务解决过程中所使用的算子即操作或方法信息。 有收集到的数据都会被存储到回放缓冲区中并在无监督训练方案中加以利用。这些数据不仅支持当前的模型训练还可能为未来的隐式RLM模型提供基础。 3、其他RLM架构
上述描述的训练设计方案适用于许多RLM架构。然而RLM领域仍存在多种其他的架构变体其中一些与我们提出的框架并不完全一致。
例如在某些RLM设计中蒙特卡洛树搜索MCTS中的单个节点可以代表一个完整的推理结构比如一条完整的推理步骤链。而其他一些架构则引入了更为创新的范式其中一种被称为“旅程学习”JourneyLearning。
这种范式通过引入转换步骤增加了复杂性。这些转换步骤能够“重塑”搜索或推理结构将树中的多条路径进行整合并将其合成为一种全新的形式作为后续推理迭代的输入。
接下来我们将看到RLM蓝图如何将之前讨论的推理方案、算子、模型以及训练方法等要素系统地组织起来为设计和实现各种功能强大的RLM提供理论支撑和实践指导。 三、RLM的组件工具箱
RLM推理语言模型的蓝图旨在提供一个组件工具箱利用这些组件可以构建各种类型的推理语言模型。构成RLM蓝图的核心要素可以归纳为以下几点 推理方案(ReasoningScheme):这是RLM的骨架它明确定义了模型进行推理时的结构和策略。 推理结构:例如可以采用树状结构来组织推理过程。推理策略:例如可以使用蒙特卡洛树搜索MCTS等策略来指导推理结构的演进。推理策略的作用是指导推理结构如何发展以便有效地解决给定的任务。 算子(Operators):这是一组可以应用于推理结构的工具由推理策略来指导使用目的是逐步演化推理结构使其在解决任务的过程中不断进步。模型(Models):这是指算子实现功能时所依赖的各种神经网络模型以及这些模型的训练方法。例如前文提到的“策略模型”以及其相应的训练范式都属于此类组件。管线(Pipelines):管线是操作的详细规范它协调推理方案与算子之间的互动以实现特定的目标。这些目标可以是多种多样的例如模型训练、推理预测或数据生成等。 总的来说一个完整的RLM可以被定义为以下几个部分有机结合的整体推理方案、一组算子及相关模型以及一组管线。它们相互协作共同构成了一个功能完善的推理语言模型。 1、推理方案
推理方案详细规定了推理步骤的细节及其连接方式确保模型能够逐步完成问题求解。它不仅描述了如何将推理步骤组织成链状、树状或更为复杂的结构也阐明了这些结构在求解输入任务时如何动态演化。
a. 推理步骤
推理步骤是推理结构的基本单位由一系列tokens组成驱动RLM向解决方案推进。每个步骤的长度可从单个token到完整文本不等粒度可根据设计需求灵活调节。
在现有方案中推理步骤通常被视为“连贯且自成一体的思想单元”例如在数学证明中一个步骤常对应于一个独立的逻辑论证或演绎。
更粗粒度的推理步骤如完整的逻辑论证有助于简化数据准备并提高可解释性而更细粒度的步骤如single-token则能显式纳入模型的不确定性并整合诸如推测解码或对比解码等高级解码方案。
不过当需要与搜索算法如MCTS结合时细粒度的推理步骤通常会带来更高的计算需求。 b. 推理结构
推理结构规定了各个步骤如何连接与组织典型形式包括链状、树状和图状。 链状结构以线性的方式推进每个步骤都建立在前一个步骤的基础上。这在基于思维链(CoT)的模型中十分常见。树状结构则在每个节点产生分支形成决策树常用于基于MCTS的框架可通过同时探索多个潜在路径来寻找最佳解但复杂度与成本也相应增加。图状结构允许推理步骤间存在任意依赖关系支持基于图的推理例如思维图(GoT)。进一步的推广形式包括嵌套结构例如在LlaMa-Berry中一个树状结构节点本身可包含一个CoT链用于多步骤任务的分层组织。研究者也可能采用超图或模体(motif)等更高阶结构以适应更复杂的推理场景。 c. 推理策略
推理策略决定了推理结构如何演变以及如何将新的推理步骤整合进已有结构。常见示例包括 MCTS通过在搜索树中模拟多条路径并依靠评分函数选择最佳分支平衡探索与利用。束搜索(BeamSearch)在每个步骤保留固定数量的排名靠前候选用于生成token序列也可扩展到推理步骤的选择上。集成方法(EnsembleMethods)聚合多个独立的推理策略以提高鲁棒性和准确性例如Best-of-N生成多条推理路径后选取最佳解或树集成森林Forest在多棵不连通的树之间并行搜索并最终汇聚。 需要注意的是应将推理策略与解码策略区分开来。解码策略如贪婪搜索负责在单个推理步骤内生成具体tokens而推理策略则着眼于在较高层次上如何衔接和扩展这些步骤。 2、算子
在明确了推理策略的整体框架后需要一系列算子来对推理结构进行操作以推进或优化推理过程。本文给出的算子主要分为以下几类结构算子、遍历算子、更新算子和评估算子。
a. 结构算子
结构算子通过对推理结构进行修改来添加或精炼推理步骤常见类型如下 生成(Generate)向推理结构中添加新的或多个推理步骤。在MCTS中“生成”算子通常由策略模型实现在其他策略如CoT或束搜索中则可能进行线性或并行的步骤追加。精炼(Refine)对现有步骤进行改进如消除歧义、纠正错误或增强清晰度并生成改进后的版本。可借助自我批判、摘要、改述等机制来提高步骤的准确性与连贯性。聚合(Aggregate)将多个推理步骤、路径或结构合并为单个后续步骤整合信息或加强连贯性。常见于集成方法和思维图中。剪枝(Prune)移除推理结构中被判定为次优或不相关的节点以降低token成本并提升效率。重构(Restructure)对推理结构进行更灵活的变换例如将树状结构重新组织为线性链以便在统一上下文下整合来自不同分支的洞见。 在应用结构算子时生成结果的多样性尤为关键可通过策略模型温度、多样束搜索等途径引导更多样化的输出。在MCTS中“探索”和“利用”同样可以通过树置信上限(UCT)等公式调整影响生成的新分支数量。 b. 遍历算子
遍历算子决定了在已有推理结构中如何进行导航 选择(Select)基于启发式评分或搜索策略如PUCT、UCT选出最具潜力的候选步骤进行进一步探索或精炼。回溯(Backtrack)显式返回到先前的推理步骤并沿其他路径继续推理用于错误纠正、假设修订或发散思考。 c. 更新算子
更新算子在不改变推理结构整体形状的情况下沿现有的步骤或节点进行信息回传或内容增强。例如MCTS中的反向传播会沿着展开的分支回传评分思维图则可能对节点内容进行多次增强以迭代升级推理质量。 d. 评估算子
评估算子会对推理结构的部分内容输出一个数值或指标而不修改结构本身。典型场景包括
在具备明确答案的任务中对终止状态进行正确性或完整性评估。 针对非终止步骤进行启发式或基于价值模型的评估以估计某一步骤对最终正确解的潜在贡献。使用价值估计器或奖励模型从正确性和对整体解的进展程度两方面衡量推理步骤价值。 3、Test-TimeCompute
近年来大模型研究逐渐由一味增大模型规模转向在推理阶段灵活增加计算量Test-TimeCompute,TTC类似于人类在遇到更困难的问题时会投入更多思考。研究表明与盲目扩展模型尺寸相比基于问题复杂度自适应分配推理资源可显著提高效率甚至让较小规模的模型在某些场景下超过大模型。
与此同时增加测试时计算量也带来了新的挑战包括 资源分配如何确定最佳的计算预算以平衡成本与性能。动态伸缩在推理过程中实时评估问题难度并决定投入的计算量。硬件影响需要针对更灵活的推理策略在硬件层面进行适配。 在此蓝图框架下实现测试时计算量可通过构建以下算子实现 生成(Generate)算子在面对更复杂的问题时动态生成更多候选推理步骤以扩大搜索空间。精炼(Refine)算子对困难问题可多次迭代地提升已有步骤质量简单问题则只需少量精炼。遍历算子(Traversal)如“选择”算子可并行保留多个潜在优质路径以在复杂任务中扩大搜索树的范围与深度。聚合(Aggregate)算子针对扩展后的路径集合进行评价与整合最终保留最优分支从而兼顾准确性和效率。 4、模型
在RLM中模型主要执行价值评估价值模型与推理步骤生成策略模型等功能。每种模型都需要相应的训练范式来进行优化例如明确损失函数、数据标注方式及其他关键的训练细节。
为满足复杂推理需求研究者从AlphaZero等早期成果出发陆续探索了多样化的训练方案。常见做法包括 监督式微调(SFT)利用标注了q值的推理序列进行训练。拒绝抽样按照质量标准过滤模型生成结果。强化学习(RL)及其变体如PPO、DPO、RPO等以交互式方式优化推理策略。自学习机制模型通过生成并评估自身推理序列来不断迭代模拟对抗或协作推理场景。 5、训练数据范围
针对RLM的训练数据可根据对推理结构的捕捉程度分为基于结果的监督OBS与基于过程的监督PBS。 OBSOutcome-BasedSupervision只提供输入与相应的最终输出正确或不正确适合大规模数据收集但对中间推理步骤的学习支持较弱。PBSProcess-BasedSupervision则会在训练样本中包含完整的中间推理步骤及其质量标签能帮助模型学到更细致的推理模式但数据生成或标注难度相对更高。 在此基础上基于轨迹的监督Trace-BasedSupervision,TBS进一步记录了算子应用序列包括遍历与更新操作提供更为详尽的推理过程信息。这有助于模型内化对推理结构操作的细节从而在隐式RLM中更好地重现和利用显式推理。 6、管线
管线是对推理方案与算子、模型等组件如何交互的详细规范用于实现特定的推理或训练目标。
一般而言一个RLM通常包含一条执行推理的管线以及一条用于训练各类模型的管线在某些情况下可能还存在专门用于合成数据生成的管线或用于训练隐式RLM的管线。通过妥善设计与协调各条管线便能在推理和训练任务中最大程度发挥系统整体的性能与效率。
接下来的部分我们将深入探讨“如何使用蓝图”详细阐述构建RLM的具体步骤和关键决策。 四、如何构建推理语言模型
要有效使用RLM蓝图构建推理语言模型关键步骤包括 细致定义推理方案明确推理结构、粒度、策略及细节为定制化的RLM奠定基石精心设计算子集合在核心算子基础上灵活扩展并细化算子实现方式确保推理过程的有效性和灵活性周密规划模型训练细节涵盖应用领域、模型架构、数据准备和训练范式等关键要素最终训练出高性能的RLM模型。 1、定义推理方案
使用蓝图的第一步是定义推理方案它如同为你构建的RLM奠定结构与策略的基石。
首先你需要选择合适的推理结构。链式结构在所有结构中就token成本而言通常是最经济的尤其在上下文学习(ICL)方面表现突出。
树状结构尽管成本较高但其丰富的分支能有效增强探索性推理的能力。
图状结构虽然成本略低于树状结构但在实现上会引入额外的复杂性。然而由于其高度的灵活性图状结构有可能显著提升推理的准确性。选择推理结构之后你需要确定推理步骤的粒度。
粗粒度步骤例如以“想法”或“句子”为单位的步骤因其简洁性和易于扩展的特点而被广泛采用。
然而基于令牌的粒度则在更细致的令牌级别上运行这为实现更高的精度和潜在的准确性提升提供了可能。尽管这种方法前景广阔但它对计算资源的需求也更高并且需要更精细的设计。
这一步关于粒度的选择实际上定义了你的行动空间(可执行的操作)和状态空间(推理结构的配置状态)。
接下来还需要确定推理策略用以指导推理结构的演进方向。
蒙特卡洛树搜索(MCTS)算法结合了策略模型与价值模型的变体因其在探索与利用之间能取得较好的平衡仍然是目前应用最为广泛的策略。
然而诸如推理结构集成等尚未被充分研究的替代策略可能蕴含着尚未被发掘的潜力。
因此在策略选择上可以考虑MCTS也可以探索其他前沿方法。
最后也是至关重要的一点是明确你所选策略的具体细节。这包括诸如探索系数、解码策略、评分函数和步骤评估方法等关键参数。这些参数的选择将显著影响模型的推理动态、可扩展性以及最终的有效性。
总而言之定义推理方案的每个环节都是为了根据你的特定应用需求量身定制RLM打下坚实的基础。 2、定义算子
在定义了推理方案之后下一步是指定算子的集合这些算子将直接控制推理过程的运作。
对于基于MCTS的设计而言最直接有效的方法是实现以下核心算子生成(在MCTS中通常称为“扩展”)、选择和反向传播。这些基本算子足以应对许多应用场景为构建推理过程提供了清晰而直接的框架。
除了这些基础算子之外你还可以考虑是否需要引入一些非常规但可能非常有用的算子例如回溯(Backtrack)算子。显式地包含回溯算子能够帮助你更清晰地追踪搜索树内的推理进展从而有可能更方便地回溯并改进早期的推理步骤。
此外这种方法还通过生成更丰富和结构化的数据为诸如基于轨迹的监督学习等高级训练方案创造了有利条件。因此在你的工具箱中加入回溯算子以及其他可能的算子是值得认真考虑的。
此外你还需要明确每个算子的具体实现细节。例如你需要决定哪些算子将通过神经模型来实现(例如使用策略模型来指导“选择”算子或使用价值模型来进行“反向传播”算子)哪些算子将依赖于非神经方法来实现。
这种选择会直接影响到整个系统的计算复杂度和灵活性。因此务必将这些关于算子实现的决策与你之前确定的推理方案和性能目标对齐确保整体设计的一致性和高效性。 3、确定训练细节
在完成了推理方案和算子的定义之后接下来的阶段是详细规划模型的训练细节。
对于基于MCTS的设计一种典型的做法是采用策略模型来实现“生成(扩展)”并使用价值模型来进行模拟过程。如有必要为了提高奖励信号的精度你还可以训练一个单独的模型来更精确地计算单个节点的奖励值。
首先需要明确应用或训练领域以便解决模型的泛化能力问题。这一步骤至关重要它确保你的模型在具有代表性的数据上进行训练从而能够更好地应对你期望模型处理的各种任务。
接下来你需要定义模型这包括模型的具体架构以及合适的基模型的选择。
在模型设计时你需要仔细考虑模型的架构如何与你的推理结构和总体目标相匹配。
数据准备是训练的关键环节。你需要为策略模型和价值模型收集训练数据。
对于策略模型可以考虑使用数据生成管道来自动生成数据或者采用诸如CoT(Chain-of-Thought,思维链)提示等方案并在数据中包含特殊的“步骤结束”令牌以确保清晰的数据分割。
对于价值模型则可以通过MCTS的完整模拟过程来生成数据。这种方法能够提供关于推理路径和结果的丰富、结构化信息为价值模型的训练提供有力的支持。
在模型训练的初始阶段可以根据需要对模型进行微调(Fine-tuning)。
如果你采用了粗粒度的推理步骤可以对策略模型执行监督式微调(SFT)以教会模型如何逐步进行推理。类似地可以对价值模型应用SFT将其初始化为一个相对可靠的评估器。
为了进一步提升模型性能你可以使用初始化后的模型运行MCTS收集更多高质量的数据。
为了提升训练效率你可以对收集到的数据进行筛选例如只保留高质量的推理路径(即最终到达终端状态的路径)或者强信号数据(即具有高绝对优势的数据)用于后续的训练。
最后通过额外的SFT轮次或者使用强化学习方法(例如近端策略优化(PPO)算法)对策略模型和价值模型进行最终的训练。这样做能够确保模型不仅针对准确性进行了优化还能在复杂推理任务中实现所需的效率和鲁棒性。
通过精细地确定训练细节你可以最大限度地发挥RLM的潜力使其在目标应用中表现出色。 五、有效的RLM构建经验
文章认为在构建有效的RLM时有几点经验很关键。 1、评估方法
研究表明基于过程的评估Process-BasedEvaluation——也就是逐一检查推理步骤及其相互关系——比单纯依赖结果的奖励模型Outcome-BasedRewardModels,ORMs更可靠。
这种评估能提供更丰富的反馈信号帮助模型优化推理路径提升整体准确性。每个中间步骤都被确保对最终结果有积极贡献所以推理更稳健模型也能更好地适应不同任务。 2、训练策略
两阶段训练是个很有效的办法先通过监督式微调SupervisedFine-Tuning,SFT建立推理基础再用强化学习ReinforcementLearning,RL进一步精进。这种分阶段训练还能降低不稳定性并使得每个阶段都能专注特定目标。 3、更高质量的训练数据分布
PRIME研究显示在精心设计的token序列比如eois令牌方法上训练能避免性能下滑。在rStar-Math这样的任务中高质量数据训练的模型收敛更快推理输出也更优质。也就是说好的数据能让模型先把基础推理模式学扎实再应对更复杂的挑战。 4、谨慎使用提示Prompting让大语言模型自我批判和评估
研究指出仅靠提示驱动模型改进推理缺乏外部指导时往往不稳定自我纠正的效果也不可靠。