当前位置: 首页 > news >正文

网站验证企石网站建设公司

网站验证,企石网站建设公司,微信官方网站是多少钱,网站建设工作以前一直在关注国内外的一些AI工具#xff0c;包括文本型、图像类的一些AI实践#xff0c;最近DeepSeek突然爆火#xff0c;从互联网收集一些资料与大家一起分享学习。 本章节分享的文件为网上流传的DeepSeek图解10页PDF#xff0c;免费附件链接给出。 1 本地 1 本地部…以前一直在关注国内外的一些AI工具包括文本型、图像类的一些AI实践最近DeepSeek突然爆火从互联网收集一些资料与大家一起分享学习。 本章节分享的文件为网上流传的DeepSeek图解10页PDF免费附件链接给出。 1 本地 1  本地部署并运行DeepSeek 1.1 为什么要在本地部署DeepSeek 在本地搭建大模型如DeepSeek具有多个重要的优势比如 1. 保护隐私与数据安全。数据不外传本地运行模型可以完全避免数据上传至云端确保敏感信息不被第三方访问。 2. 可定制化与优化。支持微调Fine-tuning可以根据特定业务需求对模型进行微调以适应特定任务如行业术语、企业内部知识库等。 3. 离线运行适用于无网络环境。可在离线环境下运行适用于无互联网连接或网络受限的场景。提高系统稳定性即使云服务宕机本地大模型依然可以正常工作不受外部因素影响。 1.2 DeepSeek 本地部署三个步骤 一共只需要三步就能做到DeepSeek 在本地运行并与它对话。 第一步使用的是ollama 管理各种不同大模型ollama 比较直接、干净一键下载后安装就行安装过程基本都是下一步。 Ollama的官网下载地址Ollama 支持macos、windows、linux多端的安装包管理 Ollama windows安装_ollama 下载-CSDN博客安装windows下的ollama可以参考以上链接写的较为详细Ollama windows安装_ollama 下载-CSDN博客 安装后打开命令窗口输入ollama然后就能看到它的相关指令一共10 个左右的命令如下图2所示就能帮我们管理好不同大模型 第二步命令窗口输入ollama pull deepseek-r1:1.5b下载大模型deepseekr1到我们自己的电脑如下图3所示 至此在我们本地电脑DeepSeek 大模型就下载到我们本地电脑接下来第三步就可以直接使用和它对话了。在cmd(Windows 电脑) 或terminal(苹果电脑) 执行命令ollama run deepseek-r1:1.5b很快就能进入对话界面如下图4所示 1.3 DeepSeek 本地运行使用演示 基于上面步骤搭建完成后接下来提问DeepSeek 一个问题请帮我分析Python 编程如何从零开始学习?下面是它的回答首先会有一个think标签这里面嵌入的是它的思考过程不是正式的回复 等我们看到另一个结束标签think 后表明它的思考已经结束下面一行就是正式回答如下图6所示: 2 DeepSeek 零基础必知 为了更深入理解DeepSeek-R1首先需要掌握LLM 的基础知识包括其工作原理、架构、训练方法。         近年来人工智能AI技术的快速发展催生了大型语言模型LargeLanguage Model, LLM的兴起。LLM 在自然语言处理NLP领域发挥着越来越重要的作用广泛应用于智能问答、文本生成、代码编写、机器翻译等任务。LLM 是一种基于深度学习的人工智能模型其核心目标是通过预测下一个单词来理解和生成自然语言。训练LLM 需要大量的文本数据使其能够掌握复杂的语言模式并应用于不同任务。接下来咱们先从较为基础的概念开始。 2.1 LLM 基础概念    模型参数。其中比较重要的比如deepseek-r1:1.5b, qwen:7b, llama:8b这里的1.5b, 7b、8b 代表什么b 是英文的billion意思是十亿7b 就是70 亿8b 就是80 亿70 亿、80 亿是指大模型的神经元参数权重参数weightbias的总量。目前大模型都是基于Transformer 架构并且是很多层的Transformer结构最后还有全连接层等所有参数加起来70 亿80 亿还有的上千亿。 通用性更强。大模型和我们自己基于某个特定数据集如ImageNet、20News-Group训练的模型在本质上存在一些重要区别。主要区别之一大模型更加通用这是因为它们基于大量多样化的数据集进行训练涵盖了不同领域和任务的数据。这种广泛的学习使得大模型具备了较强的知识迁移能力和多任务处理能力从而展现出“无所不知、无所不晓”的特性。相比之下我们基于单一数据集训练的模型通常具有较强的针对性但其知识范围仅限于该数据集的领域或问题。因此这类模型的应用范围较为局限通常只能解决特定领域或单一任务的问题。Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢大模型之所以能基于大量多样化的数据集进行训练并最终“学得好”核心原因之一是Scaling Laws扩展规律的指导和模型自身架构的优势。Scaling Laws 指出参数越多模型学习能力越强训练数据规模越大、越多元化模型最后就会越通用即使包括噪声数据模型仍能通过扩展规律提取出通用的知识。而Transformer 这种架构正好完美做到了Scaling LawsTransformer 就是自然语言处理领域实现扩展规律的最好的网络结构。亿。    Scaling Laws 大家可能在很多场合都见到过。它是一个什么法则呢大模型之所以能基于大量多样化的数据集进行训练并最终“学得好”核心原因之一是Scaling Laws扩展规律的指导和模型自身架构的优势。Scaling Laws 指出参数越多模型学习能力越强训练数据规模越大、越多元化模型最后就会越通用即使包括噪声数据模型仍能通过扩展规律提取出通用的知识。而Transformer 这种架构正好完美做到了Scaling LawsTransformer 就是自然语言处理领域实现扩展规律的最好的网络结构。 2.2 Transformer 基础架构 LLM 依赖于2017 年Google 提出的Transformer 模型该架构相比传统的RNN递归神经网络和LSTM长短时记忆网络具有更高的训练效率和更强的长距离依赖建模能力。Transformer 由多个关键组件组成1. 自注意力机制Self-Attention模型在处理文本时会自动关注句子中的重要单词理解不同词语间的联系。2. 多头注意力Multi-Head Attention使用多个注意力头同时分析不同的语义信息使得模型的理解能力更强。3. 前馈神经网络FFN非线性变换模块提升模型的表达能力。4. 位置编码Positional Encoding在没有循环结构的情况下帮助模型理解单词的顺序信息。 2.3 LLM 基本训练方法 2.3.1 预训练Pretraining LLM 训练通常采用大规模无监督学习即1. 从互联网上收集大量文本数据如书籍、新闻、社交媒体等。2. 让模型学习词语之间的概率分布理解句子结构。3. 训练目标是最小化预测误差使其能更好地完成语言任务。 2.3.2 监督微调Supervised Fine-Tuning, SFT 在预训练之后通常需要对模型进行监督微调SFT使用人工标注的数 据集让模型在特定任务上优化表现。调整参数使其更符合人类需求如 问答、对话生成等任务。 2.3.3 强化学习Reinforcement Learning, RL 采用强化学习RL方法进行优化主要通过人类反馈强化学习RLHF, Reinforcement Learning from Human Feedback 3 DeepSeek-R1 精华图解 3.1 DeepSeek-R1 完整训练过程 DeepSeek-R1 主要亮点在于出色的数学和逻辑推理能力区别于一般的通用AI 模型。其训练方式结合了强化学习RL与监督微调SFT创造了一种高效训练高推理能力AI 模型的方法。 整个训练过程分为核心两阶段第一步训练基于DeepSeek-V3 论文中的基础模型而非最终版本并经历了SFT 和基于纯强化学习调优 通用性偏好调整如下图7所示 训练起点。DeepSeek-R1 的训练起点是DeepSeek-v3-Base作为基础模型进行训练为后续的推理优化奠定基础。 3.1.1 核心创新1含R1-Zero 的中间推理模型 如图7所示推理导向的强化学习Reasoning-Oriented Reinforcement Learning 得到中间推理模型Iterim reasoning model, 图8会详细解释中间模 型的训练过程 DeepSeek-R1 核心贡献首次验证了通过纯强化学习也能大幅提升大模 型推理能力开源纯强化学习推理模型DeepSeek-R1-Zero R1-Zero 能生成高质量的推理数据包括大量长链式思维Chain-of-Thought,CoT示例用于支持后续的SFT 阶段如图7所示。更加详细介绍参考3.2节。 3.1.2 核心创新2通用强化学习 第一阶段R1-Zero 虽然展现出惊人的推理能力提升但是也出现了回复时语言混合非推理任务回复效果差的问题为了解决这些问题DeepSeek提出通用强化学习训练框架。如图7所示通用强化学习General Reinforcement Learning基于SFTcheckpoint模型进行通用强化学习RL训练优化其在推理任务和其他通用任务上的表现。更加详细介绍参考3.3节。 3.2 含R1-Zero 的中间推理模型训练过程 中间模型占据主要训练精力的阶段实际上完全通过推理导向的强化学习直接训练而成完全跳过了监督微调SFT如下图8所示只在强化学习的冷启动阶段使用了SFT 大规模推理导向的强化学习训练必不可少的就是推理数据手动标注就太繁琐了成本昂贵所以DeepSeek 团队为了解决这个问题训了一个R1-Zero 模型这是核心创新。R1-Zero 完全跳过SFT监督微调阶段直接使用强化学习训练如下图9所示基于V3直接使用强化学习开训 这样做竟然达到了惊人的、意想不到的效果推理超越OpenAI O1如下图10所示蓝线表示单次推理pass1的准确率红线表示16 次推理取一致性结果cons16的准确率可以看出一致性推理提高了最终性能。虚线代表OpenAI O1 的基准表现图中可以看到DeepSeek-R1-Zero 的性能逐步接近甚至超越了OpenAI O1. 中间模型虽然推理能力很强但存在可读性和多任务能力不足的问题所以 才有了第二个创新。 3.3 通用强化学习训练过程 最终偏好调整Preference Tuning如下图11所示。通用强化学习训练过程后使得R1 不仅在推理任务中表现卓越同时在非推理任务中也表现出色。但由于其能力拓展至非推理类应用因此在这些应用中引入了帮助性helpfulness和安全性safety奖励模型类似于Llama 模型以优化与这些应用相关的提示处理能力。 DeepSeek-R1 是训练流程的终点结合了R1-Zero 的推理能力和通用强化学习的任务适应能力成为一个兼具强推理和通用能力的高效AI 模型。 3.4 总结DeepSeek-R1 中间推理模型生成通过推理导向的强化学习Reasoning-Oriented RL直接生成高质量的推理数据CoT 示例减少人工标注依赖。通用强化学习优化基于帮助性和安全性奖励模型优化推理与非推理任务表现构建通用性强的模型。最终DeepSeek-R1 将R1-Zero 的推理能力与通用强化学习的适应能力相结合成为一个兼具强推理能力和任务广泛适应性的高效AI 模型。
http://www.tj-hxxt.cn/news/232207.html

相关文章:

  • 龙游建设局网站flutter 如何做网站
  • wordpress阿里云卡死了网站关键词优化到首页难度
  • 网站专题优化软件定制公司值得去吗
  • 学院网站建设分工电商网站建设基础ppt
  • 智慧团建手机版入口seo1新地址在哪里
  • 泰安网站建设方案书网站做英文版有用吗
  • 淄博网站制作企业营销国内三大it外包公司
  • 个人可以网站备案吗网站空间多少
  • 支付招聘网站怎么做费用芜湖的网站建设公司
  • 如何做黑彩网站理论网站建设实施方案
  • 如何制作网站主页厦门seo排名外包
  • 中国建设银行官网站电话wordpress python插件
  • wordpress 网站建设中上海网站建设公司页溪网络
  • 化妆品网站建设方案的预算wordpress 登录表单
  • 响应式网站制作怎么查看网站备案号
  • 网贷网站开发怎么去推广一个app
  • 住宅房做旅店是什么网站做网站怎么推广收益大
  • 镇江网站建设远航网络网页制作与网站建设期末考试
  • 杭州公司建站模板qq刷赞网站推广快速
  • 网站域名查企业邮箱济南谷歌推广
  • 网站付的保证金怎么做会计凭证无锡2019网站建设报价清单
  • 电商网站设计规范建一个公司网站要多少钱
  • 旅行网站开发意义如何在中国建设银行网站转账
  • 汽车销售网站模板 cmsui页面设计规范
  • 西安做网站公司WordPress哔哩哔哩主题
  • 建设规划许可证公示网站开放平台模式
  • 国内做网站大公司网络推广方案的基本思路
  • 活动策划网站源码济南网红
  • 找人做网站会给源代码吗深圳市力同科技有限公司
  • 北京互联网公司名单如何给网站做seo优化