深圳自适应网站的公司,网站开发如何记账,平面设计与网站开发概述,网站的毕业设计怎么做最近deepseek R1模型大火#xff0c;正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
近年来#xff0c;大型语言模型#xff08;LLM#xff09;在推理能力上取得了显著进展#xff0c;但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepS…最近deepseek R1模型大火正好复习一下他家的技惊四座的论文https://arxiv.org/pdf/2501.12948
近年来大型语言模型LLM在推理能力上取得了显著进展但如何进一步有效提升仍然是研究热点。DeepSeek-AI发布了 DeepSeek-R1 论文探索了**强化学习RL**在激发LLM推理潜力方面的新方法并开源了模型和相关资源。
一、背景后训练与推理能力提升提出问题如何超越openai的o1模型
后训练已成为提升LLM推理能力的关键环节。OpenAI的o1系列模型通过推理时缩放和思维链CoT在推理任务上取得突破。然而如何有效进行推理时缩放仍是开放问题。
此前研究探索了奖励模型、强化学习、搜索算法等方法但通用推理性能仍有提升空间。DeepSeek-R1的目标是探索纯强化学习提升LLM推理能力的可能性关注LLM在无监督数据下的自我进化。
二、DeepSeek-R1-Zero从零开始的纯RL探索利器1 RL引导V3模型出现自我进化
DeepSeek-R1-Zero是DeepSeek-AI的首个纯RL推理模型完全不依赖监督微调SFT直接在 DeepSeek-V3-Base 上应用RL。
RL算法GRPO
DeepSeek-R1-Zero采用Group Relative Policy Optimization (GRPO)算法节省RL训练成本。GRPO避免了传统的评论员模型通过组得分估计基线目标函数如下
J_GRPO(θ) E[q ~ P(Q), {o_i}_{i1}^G ~ π_{θold}(O|q)] [ (1/G) * ∑_{i1}^G (min(clip(π_θ(o_i|q) / π_{θold}(o_i|q)), 1-ε, 1ε) * A_i - β * D_{KL}(π_θ || π_{ref})) ]奖励模型规则驱动
奖励模型采用规则驱动方式包含
准确率奖励评估答案正确性规则驱动验证。格式奖励强制模型思考过程置于think和/think标签内。
训练模版引导思考
训练模版引导模型先输出思考过程再给出答案结构如下
A conversation between User and Assistant... think reasoning process here /think answer answer here /answer. User: prompt. Assistant:性能与自我进化
DeepSeek-R1-Zero展现了自我进化能力推理能力随RL训练稳步提升。在AIME 2024测试中pass1分数从15.6%跃升至71.0%媲美OpenAI-01-0912。训练中还出现**“顿悟时刻”**模型学会分配更多思考时间提升解题能力。
局限性
DeepSeek-R1-Zero存在可读性差和语言混合问题。
三、DeepSeek-R1冷启动与多阶段RL利器2多阶段训练推理能力起飞瞬间兼顾通用能力
DeepSeek-R1在Zero基础上引入冷启动数据和多阶段训练旨在提升性能并解决Zero的局限性。
冷启动
DeepSeek-R1收集少量高质量长CoT数据进行微调作为RL初始actor提升训练稳定性。冷启动数据强调可读性采用格式 | special_token | reasoning_process | special_token | summary。
推理导向RL
在冷启动微调后进行与Zero相同的RL训练重点增强推理能力。引入语言一致性奖励缓解语言混合问题最终奖励结合准确率和语言一致性。
拒绝采样与SFT
RL收敛后使用checkpoint收集SFT数据扩展到写作、角色扮演等通用任务提升模型泛化能力。SFT数据包括
推理数据拒绝采样生成包含生成奖励模型辅助判断的数据过滤低质量CoT。非推理数据复用DeepSeek-V3 pipeline和SFT数据少量CoT用于复杂任务。
使用约80万SFT数据微调DeepSeek-V3-Base。
面向所有场景的RL
二次RL阶段提升模型的helpfulness和harmlessness。结合规则驱动推理数据和奖励模型通用数据训练目标兼顾推理能力和安全对齐。
四、蒸馏赋予小型模型推理能力不止拉升自己模型推理能力顺便提拉一下同行
为使小型模型具备推理能力DeepSeek-AI采用蒸馏技术使用DeepSeek-R1数据微调Qwen和Llama系列。实验表明蒸馏显著提升小型模型推理能力例如DeepSeek-R1-Distill-Qwen-7B超越QwQ-32B-Preview。DeepSeek-AI开源了蒸馏模型仅SFT未包含RL阶段旨在展示蒸馏有效性。
实验评估
DeepSeek-R1在知识型、代码型和数学型基准上进行全面评估并与主流模型对比。
DeepSeek-R1评估结果
知识型基准优于DeepSeek-V3STEM问题提升显著。长文本QA (FRAMES)表现出色文档分析能力强。事实性QA (SimpleQA)优于DeepSeek-V3。指令遵循 (IF-Eval)表现出色归功于SFT和RL阶段的指令数据。开放域问答 (AlpacaEval ArenaHard)卓越性能写作能力强大规模RL提升泛化能力。数学 代码任务媲美OpenAI-01-1217大幅超越其他模型。
蒸馏模型评估
DeepSeek-R1-Distill-Qwen-7B超越GPT-40-0513DeepSeek-R1-14B超越QwQ-32B-PreviewDeepSeek-R1-32B/70B显著超越o1-mini证明蒸馏潜力巨大。
讨论蒸馏 vs. 强化学习
实验对比了蒸馏模型和RL训练模型。结果表明蒸馏模型DeepSeek-R1-Distill-Qwen-32B优于RL训练模型DeepSeek-R1-Zero-Qwen-32B即使后者经过大规模RL训练。
结论
蒸馏更强大模型到小型模型效果显著纯RL小型模型计算成本高性能可能不及蒸馏。蒸馏经济有效但突破智能边界可能仍需更强基础模型和更大规模RL。
结论与创新贡献
DeepSeek-R1研究探索了RL提升LLM推理能力DeepSeek-R1-Zero验证了纯RL潜力DeepSeek-R1通过冷启动和多阶段训练进一步提升性能并通过蒸馏赋予小型模型推理能力。
文章创新点和贡献
公开纯RL如何提升LLM推理能力首次公开验证纯RL无需SFT即可激励LLM推理能力解开o1模型面纱。更强的模型更低的成本还是开源的多多少少有点针对openai不不不是close ai核心点
DeepSeek-R1多阶段训练流程有效提升推理能力、可读性和通用性。DeepSeek来告诉世界推理能力要怎么训出来证明蒸馏技术传递推理能力蒸馏可高效赋予小型模型高性能推理能力。普遍使用老少兼宜