当前位置: 首页 > news >正文

公司网站建设汇报厦门网站搜索引擎优化

公司网站建设汇报,厦门网站搜索引擎优化,phpcms网站开发,wordpress 中文商城主题目录 引言 为什么要做端侧部署 技术发展层面 应用需求层面 开发与成本层面 产业发展层面 模型选择 模型蒸馏 模型转换 量化选择 量化方式 模型大小 计算效率 模型精度 测试 测试程序编译 测试结果 结语 引言 最近DeepSeek已经成为一个非常热门的话题#x…目录 引言 为什么要做端侧部署 技术发展层面 应用需求层面 开发与成本层面 产业发展层面 模型选择 模型蒸馏 模型转换 量化选择 量化方式 模型大小 计算效率 模型精度 测试 测试程序编译 测试结果 结语 引言 最近DeepSeek已经成为一个非常热门的话题整天被刷屏。今天我也凑个热闹在RK3588开发板上实现DeepSeek-R1-Distill-Qwen-1.5B的部署看看端侧推理的效果。 为什么要做端侧部署 把DeepSeek部署在嵌入式开发板上显然不是为了解决目前DS服务器不好用的问题。更多的是探索AI在嵌入式领域的应用前景。 将 DeepSeek 部署在嵌入式开发板上有诸多意义主要体现在以下几个方面 技术发展层面 提升边缘计算能力可让嵌入式设备在本地完成复杂的 AI 运算无需依赖云端。例如在智能安防摄像头中部署 DeepSeek 后能在本地实时进行图像识别与分析检测异常行为等大大提升响应速度。推动技术融合创新DeepSeek 与嵌入式开发板的结合是 AI 技术与嵌入式技术的深度融合能推动相关技术的创新发展为其他技术领域的融合提供借鉴和思路。拓展模型应用场景从智能家居、可穿戴设备到工业自动化、自动驾驶等领域DeepSeek 都能为嵌入式设备带来新的应用可能。比如在智能家居中可实现更智能的语音交互和场景控制。 应用需求层面 满足实时性需求在一些对实时性要求极高的场景如自动驾驶、工业自动化控制等将 DeepSeek 部署在嵌入式开发板上能在本地快速进行数据处理和决策满足实时性要求。 加强隐私保护数据在本地设备上进行处理减少了数据上传到云端的需求降低了数据泄露的风险尤其对于一些涉及个人隐私或敏感信息的数据如医疗设备采集的人体健康数据。 降低网络依赖在网络信号不佳或不稳定的环境中如偏远地区的物联网设备、野外作业的监测设备等DeepSeek 在嵌入式开发板上的本地部署可确保设备正常运行不受网络限制。 开发与成本层面 降低开发门槛DeepSeek 提供了完善的开发工具链和丰富的算法库即使是初学者也能快速上手开发出功能强大的 AI 应用有助于推动嵌入式 AI 应用的普及。节省开发成本DeepSeek 的开源特性以及较高的推理效率参数量级较 GPT-4 减少 30%推理速度提升 25%训练成本较主流方案降低约 35%可以减少开发过程中的资源投入。 产业发展层面 构建完整价值链条“先进算法 定制化芯片” 的协同运作模式构建起了一条从技术研发到产业赋能的完整价值链条为各行业智能化转型提供可借鉴复用的创新范例。 推动产业升级助力各行业实现智能化转型如在交通领域宇通的 “云管家安睿通” 系统通过 DeepSeek 实现主动式服务预警在金融领域能提升投研效率。 模型选择 模型蒸馏 DeepSeek-R1-Distill-Qwen-1.5B 是 DeepSeek-R1 系列中的一个轻量级蒸馏模型以下是关于它的具体介绍 模型属性是基于 Qwen 模型运用知识蒸馏技术从更大版本的 DeepSeek-R1 模型中提取出来的紧凑高效版本参数量为 15 亿属于小型语言模型。技术特点知识蒸馏过程将大型模型的知识和推理能力转移到 Qwen-1.5B 中使得它在保持较高性能的同时降低了计算复杂度和资源消耗。性能优势在一些主要基准上有出色表现甚至超越了 GPT-4 和 Claude 3.5 Sonnet能在数学和逻辑推理任务中展现出比 GPT-4o 和 Claude 3.5 等模型更优越的性能。适用场景由于其体积小、推理速度快极适合资源受限环境适用于手机、旧款笔记本甚至树莓派等设备进行简单问答、短文本生成等实时应用在纯 CPU 模式下也能流畅运行。部署优势成本低、部署简单适合初学者与边缘设备使用有助于推动 AI 技术在更多场景中的应用和普及。 大型模型结构复杂、参数量大在进行推理等计算时需要大量的计算资源和时间。通过蒸馏将大型模型的知识迁移到小型模型上小型模型的计算量大幅减少能够在普通的硬件设备上快速运行比如可以在移动设备或嵌入式设备上实时进行计算而无需依赖昂贵的高性能服务器。 DS的全量模型太大了肯定无法部署在嵌入式开发板上目前在嵌入式领域部署的主要是1.5B、7B、8B几个版本。 模型转换 在瑞芯微的大模型官方网站GitHub - airockchip/rknn-llm介绍了如何进行模型转换。 首先需要在PC的Linux上安装如下工具 rkllm - toolkit1.1.4 rkllm - runtime1.1.4 python3.8或python3.10然后进行如下步骤 创建data_quant.json来对 rkllm 模型进行量化我们使用 fp16 模型生成结果作为量化校准数据。运行以下代码来生成data_quant.json并导出 rkllm 模型。 cd export python generate_data_quant.py -m /path/to/DeepSeek - R1 - Distill - Qwen - 1.5B python export_rkllm.py瑞芯微在官方的rkllm_model_zoo提供了已转换的 rkllm 模型提取码rkllm可以直接下载相应的模型这里跳过模型转换的步骤。 量化选择 目前官方提供的转换后的模型文件有两个DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 和 DeepSeek-R1-Distill-Qwen-1.5B_FP16_RK3588.rkllm 都是针对特定硬件平台RK3588进行量化处理后的模型它们的主要区别如下 量化方式 DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm “W8A8” 表示权重Weight采用 8 位量化激活值Activation也采用 8 位量化。8 位量化是一种较为常见的低精度量化方式将原本更高精度如 32 位浮点的数值用 8 位来表示。这种方式大幅减少了模型参数和计算过程中的数据量。 DeepSeek-R1-Distill-Qwen-1.5B_FP16_RK3588.rkllm “FP16” 指的是半精度浮点数16 位浮点量化。与 8 位量化相比FP16 保留了相对更多的精度信息其数值表示范围和精度介于 32 位浮点数和 8 位量化之间。 模型大小 DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 由于 8 位量化极大地压缩了数据表示该模型的文件大小通常会显著小于 FP16 量化的模型。更小的模型大小意味着在存储和传输过程中占用更少的资源对于存储容量有限的设备如一些嵌入式设备来说更为友好。 DeepSeek-R1-Distill-Qwen-1.5B_FP16_RK3588.rkllm 半精度浮点数量化虽然也对模型进行了一定程度的压缩但相较于 8 位量化其模型大小会更大一些。 计算效率 DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 8 位量化在计算时可以显著减少内存访问和计算量从而提高计算效率。在一些支持 8 位整数运算的硬件平台如 RK3588上该模型能够利用硬件的低精度计算单元进行加速使得推理速度更快。 DeepSeek-R1-Distill-Qwen-1.5B_FP16_RK3588.rkllm FP16 量化的计算效率介于 8 位量化和 32 位浮点计算之间。虽然比 32 位浮点计算更高效但由于其数据精度高于 8 位量化计算量和内存访问需求相对较大因此推理速度可能不如 8 位量化模型。 模型精度 DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 8 位量化不可避免地会损失一定的精度因为用 8 位来表示原本更高精度的数值会导致信息丢失。在一些对精度要求极高的任务中这种精度损失可能会对模型的性能产生一定影响例如复杂的文本生成或高精度的知识问答任务。 DeepSeek-R1-Distill-Qwen-1.5B_FP16_RK3588.rkllm FP16 量化保留了相对较多的精度信息因此在模型性能上通常更接近原始的高精度模型。在对精度要求较高的场景中FP16 量化模型能够提供更好的结果。 我使用的是合众恒跃的4GB版本的AI300G智能盒无法使用FP16的版本只能使用W8A8版本。 测试 测试程序编译 我们使用的测试程序是瑞芯微官方提供的DeepSeek-R1-Distill-Qwen-1.5B Demo程序比较简单我们采用的是官方提供的Ubuntu 20.02固件直接进行本地编译。进入deploy目录执行如下目录 cmake .. make 即可生成可执行文件。如果需要交叉编译可以修改deploy/build-linux.sh文件。 编译后执行如下命令即可运行程序 # export lib path export LD_LIBRARY_PATH./lib /llm_demo /home/hzhy/rkllm/DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 2048 4096注意瑞芯微手册上给的命令行参数太小了无法加载模型。 测试结果 官方手册上说 RKLLM 所需要的 NPU 内核版本较高用户在板端使用 RKLLM Runtime 进行模型 推理前首先需要确认板端的 NPU 内核是否为 v0.9.8 版本具体的查询命令如下 # 板端执行以下命令查询 NPU 内核版本 cat /sys/kernel/debug/rknpu/version # 确认命令输出是否为 # RKNPU driver: v0.9.8若所查询的 NPU 内核版本低于 v0.9.8请前往官方固件地址下载最新固件进行更新。 不过从实际测试看合众恒跃开发板上的版本是v0.9.3也是可以运行测试的不需要更新固件。 若需要查看 RKLLM 在板端推理的性能可使用如下指令 export RKLLM_LOG_LEVEL1 即可在每次推理完成后显示 Prefill 与 Generate 阶段的 token 数与推理耗时。 下面是让DS对我的课程进行了一下评价。从这段评价看1.5B的模型不是很理想它无法忽略思考过程。 我也测试了官方的两个例子。 hzhyarm64-ubuntu:~/rkllm/rknn-llm-main/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy$ /llm_demo /home/hzhy/rkllm/DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 2048 4096 bash: /llm_demo: No such file or directory hzhyarm64-ubuntu:~/rkllm/rknn-llm-main/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy$ ./llm_demo /home/hzhy/rkllm/DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 2048 4096 rkllm init start W rkllm: Warning: Your rknpu driver version is too low, please upgrade to 0.9.7.I rkllm: rkllm-runtime version: 1.1.4, rknpu driver version: 0.9.3, platform: RK3588Killed hzhyarm64-ubuntu:~/rkllm/rknn-llm-main/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy$ ./llm_demo /home/hzhy/rkllm/DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 2048 4096 rkllm init start W rkllm: Warning: Your rknpu driver version is too low, please upgrade to 0.9.7.I rkllm: rkllm-runtime version: 1.1.4, rknpu driver version: 0.9.3, platform: RK3588rkllm init success**********************可输入以下问题对应序号获取回答/或自定义输入********************[0] 现有一笼子里面有鸡和兔子若干只数一数共有头14个腿38条求鸡和兔子各有多少只 [1] 有28位小朋友排成一行,从左边开始数第10位是学豆,从右边开始数他是第几位?*************************************************************************user: 0 现有一笼子里面有鸡和兔子若干只数一数共有头14个腿38条求鸡和兔子各有多少只 robot: think 首先设鸡的数量为x兔子的数量为y。根据题目中的条件我们知道1. 鸡和兔子的总数是14只因此有方程x y 142. 鸡有两条腿兔子有四条腿总腿数是38条所以有另一个方程2x 4y 38接下来通过代入法或消元法来解这两个方程。假设我们用代入法从第一个方程中解出xx 14 - y将这个表达式代入第二个方程2(14 - y) 4y 38 展开计算28 - 2y 4y 38 合并同类项2y 10 解得y 5然后将y的值代入x 14 - y中x 14 - 5 9因此鸡有9只兔子有5只。 /think要解决这个问题我们可以使用代数的方法。设- 鸡的数量为 \( x \) 只 - 兔子的数量为 \( y \) 只根据题目给出的条件可以列出以下两个方程1. **总头数**鸡和兔子每只都有一个头所以\[x y 14\]2. **腿的总数**鸡有两条腿兔子有四条腿所以\[2x 4y 38\]接下来我们可以通过解这两个方程来找到 \( x \) 和 \( y \) 的值。**步骤一从第一个方程中解出一个变量**我们可以从第一个方程中解出 \( x \) \[ x 14 - y \]**步骤二代入第二个方程**将 \( x 14 - y \) 代入第二个方程 \[ 2(14 - y) 4y 38 \] 展开计算 \[ 28 - 2y 4y 38 \] 合并同类项 \[ 2y 10 \] 解得 \[ y 5 \]**步骤三求出 \( x \)**将 \( y 5 \) 代入 \( x 14 - y \) 中 \[ x 14 - 5 9 \]因此鸡的数量是 **9只**兔子的数量是 **5只**。**最终答案** 鸡有 \(\boxed{9}\) 只兔子有 \(\boxed{5}\) 只。--------------------------------------------------------------------------------------Stage Total Time (ms) Tokens Time per Token (ms) Tokens per Second --------------------------------------------------------------------------------------Prefill 619.66 39 15.89 62.94 Generate 117258.71 627 189.71 5.27 --------------------------------------------------------------------------------------user: 1 有28位小朋友排成一行,从左边开始数第10位是学豆,从右边开始数他是第几位? robot: think 首先总共有28位小朋友。从左边开始数第10位是学豆。因此学豆的位置是从左边数的第10位。接下来计算从右边数的第几位总人数减去左边数的第10位即28 - 10 18。所以学豆在右边数的第18位。 /think要解决这个问题我们可以按照以下步骤进行分析**已知条件** - 总共有 **28** 位小朋友排成一行。 - 从左边开始数第 **10** 位是学豆。**问题** 从右边开始数学豆是第几位**解答过程**1. **确定学豆的位置**- 学豆是从左边数的第10位即位置编号为 **10**假设从左到右依次编号。2. **计算从右边数的第几位**- 总人数是 **28** 人。- 如果学豆在第10位从左边开始数那么从右边数的位置可以通过以下公式计算\[\text{位置} \text{总人数} - \text{左边数的位数}\]即\[\text{位置} 28 - 10 18\]**最终答案** \boxed{18}--------------------------------------------------------------------------------------Stage Total Time (ms) Tokens Time per Token (ms) Tokens per Second --------------------------------------------------------------------------------------Prefill 444.11 33 13.46 74.31 Generate 56647.80 318 180.93 5.53 --------------------------------------------------------------------------------------user: exit测试程序非常消耗内存我在运行测试程序时甚至不能打开浏览器否则就会出现如下问题 hzhyarm64-ubuntu:~/rkllm/rknn-llm-main/examples/DeepSeek-R1-Distill-Qwen-1.5B_Demo/deploy$ ./llm_demo /home/hzhy/rkllm/DeepSeek-R1-Distill-Qwen-1.5B_W8A8_RK3588.rkllm 2048 4096 rkllm init start W rkllm: Warning: Your rknpu driver version is too low, please upgrade to 0.9.7.I rkllm: rkllm-runtime version: 1.1.4, rknpu driver version: 0.9.3, platform: RK3588Killed合众恒跃的工程师给的建议是使用8GB版本的AI300G。 结语 从测试看端侧AI推理发展得还是很快的。随着人工智能模型越来越发展相信端侧推理会有很大的发展空间。
http://www.tj-hxxt.cn/news/227071.html

相关文章:

  • 手机网站页面设计尺寸扬州网站建设哪家好
  • 免费自创网站学python可以做什么
  • wordpress一定要本地建站吗游戏app软件开发公司
  • 哈尔滨seo网站管理个人艺术作品网站建设策划书
  • 课桌公司网站建设个人网站做博客还是做论坛
  • dedecms做网站视频牙膏的网站建设
  • 做网站优化给业务员提成成都网站建设制作公司
  • 网站建设 网站制作广州优秀网站设计
  • 长沙市做网站公司有创意的logo设计图片
  • 网站开发存在的风险seo培训优化课程
  • nodejs做企业网站哪个网站可以做分期
  • 专门做优惠劵的网站谷德设计网入口
  • 手机网站开发升上去如何在木上做网站
  • 做原创短视频网站网站下载怎么做
  • 建立装修网站设计厦门商务网站建设
  • 实时开奖走势网站建设保密和档案网站建设方案
  • 微站网站建设网站企业网银登录
  • 重庆网站建设套餐徐州专业网站建设
  • 响应式 购物网站模板下载商业网站的域名代码
  • 商城网站微信支付接口申请流程建德网页制作公司
  • 2017网站设计如何报价企业网站排版规则
  • 郑州做网站公司有哪些模板网站优
  • 实训网站建设的心得总结查询企业联系方式的软件
  • 网站用哪个数据库网站开发环境搭建
  • 国外建站数据wordpress修改登陆地址后缀
  • 如何搭建php网站凌风wordpress视频
  • wordpress建站教程费用网页代理访问
  • 网站如何做优化排名吃什么补肾气效果好
  • 网站上的链接怎么做的怎么查一个网站是什么程序做的
  • 外贸网站运营是做什么的wordpress模板yunnut