风格网站,个人网站备注模板,做网盘搜索网站,wordpress显示分类目录25年2月来自上海交大、SII 和 GAIR 的论文“LIMO: Less is More for Reasoning”。
一个挑战是在大语言模型#xff08;LLM#xff09;中的复杂推理。虽然传统观点认为复杂的推理任务需要大量的训练数据#xff08;通常超过 100,000 个示例#xff09;#xff0c;但本文展…25年2月来自上海交大、SII 和 GAIR 的论文“LIMO: Less is More for Reasoning”。
一个挑战是在大语言模型LLM中的复杂推理。虽然传统观点认为复杂的推理任务需要大量的训练数据通常超过 100,000 个示例但本文展示只需很少的示例就可以有效地引发复杂的数学推理能力。这个不仅挑战对海量数据要求的假设也挑战监督微调SFT主要造成记忆而不是泛化的普遍看法。少即是多推理假说LIMO 假说在预训练期间已全面编码域知识的基础模型中复杂的推理能力可以通过最少但精确协调的认知过程演示显现出来。该假设认为复杂推理的引出阈值本质上不受目标推理任务复杂性的限制而是由两个关键因素从根本上决定的1预训练期间模型编码知识基础的完整性以及2后训练示例的有效性它们作为“认知模板”向模型展示如何有效利用现有知识库来解决复杂的推理任务。
如图所示LIMO 使用更少的样本实现比 NuminaMath 显著的改进同时在各种数学和多学科基准测试中表现出色。 长期以来复杂推理一直被认为是大语言模型 (LLM) 中最难培养的能力之一。尽管最近的研究表明LLM 可以通过相对较少的指令数据有效地与用户偏好保持一致Zhou2024a但人们普遍认为教师模型进行推理尤其是在数学和编程方面需要更多的训练示例Paster2023Yue2024。
这种传统观点源于推理任务固有的复杂性它需要多步骤的逻辑推理、域知识应用和结构化的解决方案路径。由此产生的范式通常涉及对数万或数十万个示例进行训练Yu2024Li2024b基于两个基本假设首先掌握如此复杂的认知过程需要大量监督演示其次监督微调主要造成记忆而不是真正的泛化Zhang2024Xu2024Chu2025。
虽然这种方法已取得成功但它带来了巨大的计算成本和数据收集负担。更重要的是这种数据密集型范式可能不再是必要的。最近的进展从根本上改变 LLM 获取、组织和利用推理知识的方式表明有可能采用一种更有效的方法。特别是两个关键发展从根本上为重新构想 LLM 中的推理方法创造了条件
知识基础革命现代基础模型现在在预训练期间纳入前所未有的大量数学内容Qwen2025Yang2024Wang2024。例如Llama 2 在所有域的总训练数据为 1.8T 个 tokenTouvron2023 年而 Llama 3 仅在数学推理中就使用 3.7T 个 tokenGrattafiori2024 年。这表明当代 LLM 可能已经在其参数空间中拥有丰富的数学知识将挑战从知识获取转变为知识引出。推理-时间计算规模化革命规模化更长推理链技术的出现表明有效的推理在论断过程中需要大量的计算空间。最近的研究OpenAI2024Qin2024Huang2024表明允许模型生成规模化推理链可显著提高其推理能力。本质上推理-时间计算提供了至关重要的认知工作空间模型可以在其中系统地解开和应用其预先训练的知识。
LLM 中数学推理的演变。大规模训练数据一直是 LLM 推理能力发展的驱动力。在预训练阶段相关语料库可以增强 LLM 的推理能力Wang2024Azerbayev2024Paster2023Shao2024。这些精选语料库可以由多种来源组成例如教科书、科学论文和数学代码它们捕捉用于解决问题的各种人类认知模式。在后训练阶段一系列研究专注于策划大规模指令数据以教授 LLM 推理Yue2023、2024Li2024a。这包括规模化问题及其相应解决方案的数量。规模化方法很有前景并且已经取得显着的性能提升。然而通过这种方法获得的推理能力因依赖于固定模式的记忆而不是实现真正的泛化而受到批评Mirzadeh2024Zhang2024。例如Mirzadeh2024发现LLM 在回答同一问题的不同实例时表现出明显的差异并且当仅改变问题中的数值时其性能会下降。这引发人们对 SFT 方法泛化能力的怀疑Chu2025以及 LLM 是否可以成为真正的推理者而不是单纯的知识检索者Kambhampati2024。
测试-时间规模化和长链推理。最近的研究不再关注规模化模型参数和训练数据Kaplan2020而是转向探索测试-时间规模化OpenAI2024Snell2024即增加 token 数量以提高性能。这可以通过使用并行采样Brown2024Wang2022Li2022或符号树搜索Hao2023Chen2024Yao2023等方法增强 LLM 来实现以增强推理能力。此外OpenAI2024Guo(2025) 探索使用强化学习训练 LLM 以生成长 CoT这通常包括自我反思、验证和回溯——人类在解决复杂问题时常用的过程。这种方法不仅创新 LLM 的训练范式而且还提供一种新形式的训练数据来增强其推理能力。这种长 CoT 在引出 LLM 固有的推理能力方面表现出高质量的特征。
语言模型中的数据效率。Zhou (2024a) 证明仅需 1,000 个策划的提示和响应模型就可以学会遵循特定的格式并很好地推广到未见过的任务。研究结果强调在对齐过程中质量重于数量的重要性。然而考虑到此类任务的潜在高计算复杂性这一教训是否可以应用于推理任务仍不确定Merrill Sabharwal2024Xiang2025。虽然一些关于推理的研究强调在整理训练数据时质量的重要性Zhou2024b但此类数据的数量与 LIMA 相比仍然大得多。
LIMO 假设
将“少即是多”推理 (LIMO) 假设形式化如下在基础模型中域知识在预训练期间已被全面编码复杂的推理能力可以在最少但精确编排的认知过程演示中出现。
这一假设基于两个基本前提I在模型参数空间中先决条件知识的潜在存在II推理链的质量这些推理链将复杂问题精确分解为详细的逻辑步骤使认知过程明确且可追溯。
为了验证这一假设本文提出一种系统的方法来构建一个高质量、最小的数据集可以有效地抽出模型固有的推理能力。
问题定义
本文专注于具有可验证答案的推理任务。给定推理问题空间中的问题 q目标是生成答案 a 和推理链 r。将推理链 r 定义为一系列中间步骤 {s_1, s_2, …, s_n}其中每个步骤 s_i 代表一个逻辑推理它弥补问题和最终答案之间的差距。
正式地可以将推理过程表示为函数 f: Q→R×A。因此生成数据集 D 的质量由两个基本但多方面的组成部分决定(1) 问题 q 的质量其中包括问题解决方法的多样性、挑战模型能力的适当难度级别、以及涵盖的知识领域广度等因素(2) 解决方案的质量 (r, a)其中包括教学价值、逻辑连贯性和方法严谨性等方面。问题的设计应鼓励复杂的推理模式和知识整合而解决方案应展示清晰的逻辑进展并作为有效的学习示例。
高质量数据管理
数据管理过程侧重于构建高质量数据集 D {(q_i, r_i, a_i)}并且数据量 N 故意保持较小以验证 LIMO 假设。 问题选择。假设高质量问题 q 应该自然地引发扩展的推理过程。选择标准包括以下内容
• 难度级别。优先考虑那些能够促进复杂推理链、多样化思维过程和知识整合的具有挑战性问题使 LLM 能够有效地利用预训练的知识进行高质量推理。 • 泛化性。与模型的训练分布偏差更大的问题可以更好地挑战其固定的思维模式鼓励探索新的推理方法从而扩大其推理搜索空间。 • 知识多样性。所选问题应涵盖各种数学领域和概念要求模型在解决问题时整合和连接远端的知识。
为了有效地实施这些标准首先从各种既定数据集中收集一个全面的候选问题池NuminaMath-CoT包含从高中到高级竞赛水平的标注问题AIME 历史考试问题以其极具挑战性和综合性的问题而闻名涵盖多个数学领域MATHHendrycks2021涵盖来自著名竞赛的各种竞争性数学问题以及其他几个数学问题来源。
从这个丰富的初始集合中采用系统的多阶段过滤过程。
从数千万个问题的初始池开始首先使用 Qwen2.5-Math-7B-InstructYang2024应用基线难度过滤器消除该模型可以在几次尝试中正确解决的问题。这个过程有助于建立初步的难度阈值。随后使用最先进的推理模型包括 R1、DeepSeek-R1-Distill-Qwen-32BGuo2025和 Huang2024的模型对剩余的问题进行更严格的评估仅保留即使是这些最强大的模型在多次采样迭代后成功率也低于某个阈值的问题。最后为保持语料库的多样性采用战略采样技术在数学领域和复杂度级别之间平衡表示同时避免概念冗余。这一细致的选择过程最终从数千万个候选问题的初始池中产生817 个挑选的问题所选问题共同满足严格的质量标准同时涵盖丰富的数学推理挑战。
推理链构建。除了高质量的问题之外解决方案的质量在大语言模型的训练阶段也起着关键作用。为了挑选高质量的解决方案采用全面的选择策略。首先收集问题的官方解决方案如果可用并辅以人类专家和 AI 专家编写的解决方案。此外利用最先进的推理模型包括 DeepSeek R1、DeepSeek-R1-Distill-Qwen-32BGuo2025和 Qwen2.5-32b-Instruct来生成不同的解决方案。此外按照 O1-Journey-Part2Huang2024中提出的方法利用基于 Qwen2.5-32b-Instruct 的自我蒸馏技术来创建其他模型变型然后使用这些变型生成补充问题响应。然后根据答案的正确性筛选这些响应以建立有效解决方案的基线集合。随后通过协作检查对这些筛选的解决方案进行全面分析。通过仔细观察和系统审查确定区分高质量推理链的几个关键特征
• 最佳结构组织解决方案表现出清晰且组织良好的结构格式步骤分解具有自适应粒度。特别是它在关键的推理节点分配更多token和详细阐述同时保持简单步骤的简洁表达。这种自适应步骤粒度方法可确保复杂的转换得到适当的关注同时避免在较简单的推理中出现不必要的冗长。 • 有效的认知支架高质量的解决方案通过精心构建的解释逐步建立理解从而提供战略教育支持。这包括渐进的概念介绍、在关键点清晰表达关键见解以及深思熟虑地弥合概念差距使复杂的推理过程更易于理解和学习。 • 严格的验证高质量的解决方案在整个推理过程中包含极其频繁的验证步骤。这包括验证中间结果、交叉检查假设以及确认每个推论的逻辑一致性从而确保最终答案的可靠性。
基于这些确定的特征开发一种结合基于规则的过滤和 LLM 辅助策划的混合方法以针对上述每个问题选择高质量的解决方案。这个系统化的过程确保每个选定的解决方案都符合既定的质量标准同时保持整个数据集的一致性。通过专注于一组最小策划的推理链体现“少即是多”的核心原则高质量的演示而不是纯粹的数据量是解锁复杂推理能力的关键。
生成的数据集 D 由精心策划的三元组 (q, r, a) 组成其中每个推理链 r 都满足质量标准。在限制数据集大小 |D| 的同时保持这些严格的标准旨在证明高质量的演示而不是大量的训练数据对于解锁复杂的推理能力至关重要。
方法论
基于“少即是多”原则一个模型如果在预训练中积累大量的推理知识并且在测试-时能够执行长链推理那么它就可以发展出强大的推理能力。在仅对几百个 SFT 数据实例进行训练后该模型就会学会将元推理任务整合成一个有凝聚力的推理链。
训练协议
在 LIMO 数据集上使用监督微调对 Qwen2.5-32B-Instruct 进行微调。训练过程采用全参数微调使用 DeepSpeed ZeRO-3 优化Rajbhandari2020和 FlashAttention- 2Dao2023序列长度限制为 16,384 个 tokens。
评估框架
域内评估。为了全面评估模型在各种推理能力方面的表现建立了一个涵盖传统和新型基准的多样化评估框架。我们的主要评估套件包括几个成熟的数学竞赛和基准美国数学邀请赛 (AIME24)、MATH500 (Hendrycks2021) 和美国数学竞赛 (AMC23)。
分布外OOD评估。为了严格评估模型在分布外任务上的表现选择与训练数据在各个方面不同的一些基准。这些基准可以分为三个不同的类别
• 多样化的数学竞赛进一步选择 OlympiadBenchHe2024它代表数学挑战的独特分布用于测试模型的 OOD 性能。 • 新的多语言基准为了最大限度地减少数据污染用最新的考试问题构建几个基准2024 年中国高中数学联赛竞赛 CHMath、2024 年中国高考 GAOKAO、中国研究生入学考试 KAOYAN以及新开发的用于初等数学推理 GradeSchool。值得注意的是这些基准中的所有问题都是用中文编写的而训练数据不包含中文问题。这引入一个额外的 OOD 维度不仅评估模型在问题分布中泛化的能力还评估其在面对未见过语言时的跨语言推理能力。 • 多学科基准为了评估数学训练领域以外更广泛的泛化能力结合 MivervaLewkowycz2022其中包括本科水平的 STEM 问题和 GPQARein2023。这些基准评估跨多个学科和认知水平的推理能力深入了解模型将数学推理技能转移到更广泛环境的能力。
性能指标。用 pass1 指标评估整个基准套件的性能。所有评估均在零样本思维链 (CoT) 设置下进行以更好地评估模型的推理能力。对于包括 MATH500、OlympiadBench、Gaokao、Kaoyan、GradeSchool、MinervaMath 和 GPQA 在内的基准采用一种简单的方法使用贪婪解码和一个单样本来评估正确性。但是对于每个包含少于 50 个问题的较小基准特别是 AIME24、AMC23 和 CHMATH实施更全面的评估协议生成 16 个样本温度设置为 0.7并计算无偏 pass1 指标如 Chen (2021) 中所述。对于答案是结构良好的数值问题直接应用基于规则的评估来检查数学等价性。对于更复杂的答案格式例如表达式、方程式或结构化解决方案利用基于 LLM 的评估器已经验证它的高可靠性。
在所有评估过程中将最大输出长度保持在 32,768 个 tokens以最大限度地减少输出截断的可能性确保评估能够捕获完整的问题解决尝试。此外在评估 LIMO 时观察到推理-时间规模化偶尔会导致冗长输出末尾出现重复模式。在这种情况下从模型的响应中提取最可能的最终答案进行评估以确保准确评估其解决问题的能力。
现象再思考“少即是多”和强化学习规模化
LIMO 的出现代表在大语言模型中概念化和激活复杂推理能力的范式转变。首先将 LIMO 与 LIMA 进行对比了解“少即是多”原则如何从一般对齐扩展到复杂推理其次将 LIMO 与强化学习 (RL) 规模化方法进行比较以突出开发推理能力的不同哲学观点。通过这些分析旨在更深入地了解语言模型中复杂认知能力的出现方式以及有效激活的条件。
LIMO 与 LIMA
LLM 中“少即是多”现象的出现代表对如何用最少的数据引出复杂能力的理解发生了根本性转变。虽然 LIMAZhou2024a首先在一般对齐的背景下展示了这种现象但将这一原则扩展到复杂的数学推理提出了独特的挑战和要求。
知识基础革命。过去两年见证语言模型获取和组织数学知识的方式转变。虽然 LIMA 可以依靠一般文本语料库进行对齐但 LIMO 的成功建立在通过专门的预训练嵌入现代基础模型的丰富数学内容之上Wang2024。这种专门的知识基础是有效激活推理能力的先决条件。
计算能力革命。LIMA 和 LIMO 之间的一个关键区别在于它们的计算要求。虽然 LIMA 的对齐任务可以通过固定长度生成和单次处理来完成但 LIMO 的推理任务需要大量的计算空间来进行多步审议。推理-时间规模化技术的出现OpenAI2024Qin2024提供了必要的“认知工作空间”模型可以在其中系统地解开并应用其预训练的知识。
协同合流。LIMO 的发现时间反映了这两场革命的必要合流。 LIMA 和 LIMO 之间两年的差距不仅代表更好的预训练模型所需时间还代表等待推理-时间计算突破的必要时间。这种合流促成一种称为“推理抽出阈值”的现象当模型同时拥有丰富的域知识和足够的计算空间时可以通过最少但精确的演示激活复杂的推理能力。
对未来研究的启示。这种比较分析表明“少即是多”不仅仅是一种使用更少数据的提倡而且是支配模型能力有效抽出的一条基本原则。 LIMO 的成功表明当满足基本先决条件知识基础和计算框架时复杂的能力可以以显著的数据效率抽出。这一见解表明一个新的研究方向系统地识别不同能力的先决条件和最佳激活条件。未来的工作应该探索其他高级能力例如规划、创造性解决问题在建立相应的知识和计算基础后是否能达到类似的效率。因此“少即是多”原则既是理解能力出现的理论框架也是在各个领域追求数据高效能力发展的实用指南。
如下表比较复杂推理 LIMO 和通用对齐 LIMA LIMO 与 RL 规模化
在大语言模型中开发推理能力两种不同方法的出现——RL 规模化和 LIMO——代表了理解和增强模型智能的根本分歧。RL 规模化以 o1OpenAI2024、DeepSeek-R1Guo2025等为例从工程优化的角度应对挑战。它假设推理能力需要通过大规模强化学习进行广泛的模型训练。虽然这种方法有效但它本质上将 RL 视为一种广泛的搜索机制通过大量计算资源发现有效的推理模式。
相比之下LIMO 引入一个更基础的视角推理能力已经潜伏在预训练模型中嵌入在预训练阶段。关键挑战从“训练”转向“抽出”——找到能够引出这些天生能力的精确认知模板。
从这个角度来看像 DeepSeek-R1 这样的 RL 规模化方法可以看作是这一原则的具体实现使用强化学习作为寻找此类轨迹的机制。虽然这两种方法最终都寻求高质量的推理解决方案但 LIMO 通过明确的轨迹设计提供一条更有原则、更直接的路径而 RL 规模化则通过广泛的计算探索发现这些轨迹。这种重新构建表明包括 RL、专家设计或混合方法在内的各种方法都可以在 LIMO 的框架内被理解和评估为发现最佳推理轨迹的不同策略。
如下表比较 LIMO 和 RL 规模化