当前位置: 首页 > news >正文 网站建设的基本话术华为网站建设的目标是否明确 news 2025/10/26 4:20:23 网站建设的基本话术,华为网站建设的目标是否明确,电商网站开发需求文档,网站推广专业目录1.1 MapReduce介绍1.2 MapReduce优缺点MapReduce实例进程阶段组成1.3 Hadoop MapReduce官方示例案例#xff1a;评估圆周率π#xff08;PI#xff09;的值案例#xff1a;wordcount单词词频统计1.4 Map阶段执行流程1.5 Reduce阶段执行流程1.6 Shuffle机制1.1 MapReduc… 目录1.1 MapReduce介绍1.2 MapReduce优缺点MapReduce实例进程阶段组成1.3 Hadoop MapReduce官方示例案例评估圆周率πPI的值案例wordcount单词词频统计1.4 Map阶段执行流程1.5 Reduce阶段执行流程1.6 Shuffle机制1.1 MapReduce介绍 MapReduce的思想核心是“先分再合分而治之”。 所谓“分而治之”就是把一个复杂的问题按照一定的“分解”方法分为等价的规模较小的若干部分然后逐个解决分别找出各部分的结果然后把各部分的结果组成整个问题的最终结果。 Map第一阶段负责“拆分”即把复杂的任务分解为若干个“简单的子任务”来并行处理。可以进行拆分的前提是这些小任务可以并行计算彼此间几乎没有依赖关系 拆分前提 可并行计算没有依赖关系Reduce第二阶段负责“合并”即对map阶段的结果进行全局汇总。 MapReduce借鉴了函数式语言中的思想用Map和Reduce两个函数提供了高层的并行编程抽象模型。 map: 对一组数据元素进行某种重复式的处理 reduce: 对Map的中间结果进行某种进一步的结果整理MapReduce最大的亮点在于通过抽象模型和计算框架把需要做什么(业务问题)与具体怎么做(技术问题)分开了为程序员提供一个抽象和高层的编程接口和框架。 程序员仅需要关心其应用层的具体计算问题仅需编写少量的处理应用本身计算问题的业务程序代码Hadoop MapReduce是一个分布式计算框架。 分布式计算是一种计算方法和集中式计算是相对的 1.2 MapReduce优缺点 优点 易于编程Mapreduce框架提供了用于二次开发的接口良好的扩展性当计算机资源不能得到满足的时候可以通过增加机器来扩展它的计算能力。高容错性Hadoop集群是分布式搭建和部署得任何单一机器节点宕机了它可以把上面的计算任务转移到另一个节点上运行不影响整个作业任务得完成适合海量数据的离线处理可以处理GB、TB和PB级别得数据量 局限性MR主要是在离线计算领域 实时计算性能差。MapReduce主要应用于离线作业无法作到秒级或者是亚秒级得数据响应不能进行流式计算流式计算特点是数据是源源不断得计算并且数据是动态的而MapReduce作为一个离线计算框架主要是针对静态数据集得数据是不能动态变化得 MapReduce实例进程 一个完整的MapReduce程序在分布式运行时有三类 MRAppMaster负责整个MR程序的过程调度及状态协调MapTask负责map阶段的整个数据处理流程ReduceTask负责reduce阶段的整个数据处理流程 阶段组成 一个MapReduce编程模型中只能包含一个Map阶段和一个Reduce阶段或者只有Map阶段不能有诸如多个map阶段、多个reduce阶段的情景出现如果用户的业务逻辑非常复杂那就只能多个MapReduce程序串行运行 整个MapReduce程序中数据都是以kv键值对的形式流转的 1.3 Hadoop MapReduce官方示例 一个最终完整版本的MR程序需要用户编写的代码和Hadoop自己实现的代码整合在一起才可以由于MapReduce计算引擎天生的弊端慢当下企业中直接使用率已经很少了所以在企业中工作很少涉及到MapReduce直接编程但是某些软件的背后还依赖MapReduce引擎但是后续的新的计算引擎比如Spark当中就有MapReduce深深的影子存在 案例评估圆周率πPI的值 蒙特卡洛方法计算在平面上随机撒点 node1上 jps #验证Hadoop是否启动 start-all.sh #启动Hadoop cd /export/server/hadoop-3.3.0/ #进入Hadoop安装包 cd share/ ll cd hadoop/ ll cd mapreduce/ ll #可以看到一个jar文件 hadoop jar hadoop-mapreduce-examples-3.3.0.jar pi 2 2 #调用hadoop-mapreduce-examples-3.3.0.jar文件 #后面三个参数pi表示MapReduce程序执行圆周率计算任务 #指定map阶段运行的任务task次数并发度这里是2、 #每个map任务取样的个数这里是2。打开yarn页面http://node1:8080/ 案例wordcount单词词频统计 统计文件中每个单词出现的总次数 WordCount算是大数据计算领域经典的入门案例相当于Hello World。 流程 map阶段的核心把输入的数据经过切割全部标记1因此输出就是单词1。 splite后进入map。因为MR数据类型都要求是keyvalue类型 shuffle阶段核心经过MR程序内部自带默认的排序分组等功能把key相同的单词会作为一组数据构成新的kv对 根据key把他们分组放在一起 reduce阶段核心处理shuffle完的一组数据该组数据就是该单词所有的键值对。对所有的1进行累加求和就是单词的总次数 操作 准备数据 1.txt中存放要统计的内容 打开node1:9870进入Hadoop 要先在node1上start-all.sh启动 在Hadoop上创建目录input然后上传1.txt运行官方示例 官方实例位于Hadoop中mapReduce中 hadoop jar hadoop-mapreduce-examples-3.3.0.jar wordcount /input /outer #依旧调用hadoop-mapreduce-examples-3.3.0.jar文件 #后面三个参数wordcount表示执行单词统计任务 #指定输入文件的路径 #指定输出结果的路径该路径不能已存在查看结果 打开hdfs点进去ouput,有一个success是成功运行的标识文件另一个文件显示输出结果 1.4 Map阶段执行流程 Map阶段执行过程 第一阶段把输入目录下文件按照一定的标准逐个进行逻辑切片形成切片规划。 默认Split size Block size128M每一个切片由一个MapTask处理。getSplits 栗子两个文件文件a(300M)和文件b(200M)需要32个切片5个MapTask处理第二阶段对切片中的数据按照一定的规则读取解析返回key,value对。 默认是按行读取数据。key是每一行的起始位置偏移量value是本行的文本内容。TextInputFormat第三阶段调用Mapper类中的map方法处理数据。第四阶段按照一定的规则对Map输出的键值对进行分区partition。默认不分区因为只有一个reducetask。分区的数量就是reducetask运行的数量。第五阶段Map输出数据写入内存缓冲区达到比例溢出到磁盘上。溢出spill的时候根据key进行排序sort。默认根据key字典序排序。 每次结果直接写入磁盘io次数特别多所以选择缓冲一下。类似水流打开冲击地面压力大选择用一个杯子来缓冲水杯接满一次倒地上一次载接满再到地上 缓冲区满了—即溢出spill第六阶段对所有溢出文件进行最终的merge合并成为一个文件。最后合并成一个文件 input输入 split切片几个block数据块几个切片 memory buffer缓冲区 spill 溢写同时sort排序 merge合并成一个文件 1.5 Reduce阶段执行流程 第一阶段ReduceTask会主动从MapTask复制拉取属于需要自己处理的数据。 map运行完后就把数据放在自己运行的本地是reduce主动出击第二阶段把拉取来数据全部进行合并merge即把分散的数据合并成一个大的数据。再对合并后的数据排序 map阶段有多个maptask数据从三个地方拉过来所以需要合并第三阶段是对排序后的键值对调用reduce方法。键相等的键值对调用一次reduce方法。最后把这些输出的键值对写入到HDFS文件中。 copy — 合并排序 — 分组处理reduce 1.6 Shuffle机制 Shuffle的本意是洗牌、混洗的意思把一组有规则的数据尽量打乱成无规则的数据 而在MapReduce中Shuffle更像是洗牌的逆过程指的是将map端的无规则输出按指定的规则“打乱”成具有一定规则的数据以便reduce端接收处理 shuffle让数据有序 一般把从Map产生输出开始到Reduce取得数据作为输入之前的过程称作shuffle。处于下面红框中 shuffle机制是核心但导致慢慢的原因数据在内存、磁盘之间的多次往复 Shuffle是MapReduce程序的核心与精髓是MapReduce的灵魂Shuffle也是MapReduce被诟病最多的地方所在。MapReduce相比较于Spark、Flink计算引擎慢的原因跟Shuffle机制有很大的关系。Shuffle中频繁涉及到数据在内存、磁盘之间的多次往复 文章转载自: http://www.morning.bnbzd.cn.gov.cn.bnbzd.cn http://www.morning.jczjf.cn.gov.cn.jczjf.cn http://www.morning.cjxqx.cn.gov.cn.cjxqx.cn http://www.morning.pyzt.cn.gov.cn.pyzt.cn http://www.morning.wfyzs.cn.gov.cn.wfyzs.cn http://www.morning.qfgwx.cn.gov.cn.qfgwx.cn http://www.morning.lmpfk.cn.gov.cn.lmpfk.cn http://www.morning.bbyqz.cn.gov.cn.bbyqz.cn http://www.morning.whpsl.cn.gov.cn.whpsl.cn http://www.morning.dbnpz.cn.gov.cn.dbnpz.cn http://www.morning.hqllx.cn.gov.cn.hqllx.cn http://www.morning.pwbps.cn.gov.cn.pwbps.cn http://www.morning.ctfwl.cn.gov.cn.ctfwl.cn http://www.morning.mkbc.cn.gov.cn.mkbc.cn http://www.morning.rkdw.cn.gov.cn.rkdw.cn http://www.morning.mjqms.cn.gov.cn.mjqms.cn http://www.morning.fqssx.cn.gov.cn.fqssx.cn http://www.morning.ypnxq.cn.gov.cn.ypnxq.cn http://www.morning.symgk.cn.gov.cn.symgk.cn http://www.morning.bhdyr.cn.gov.cn.bhdyr.cn http://www.morning.gjsjt.cn.gov.cn.gjsjt.cn http://www.morning.qzpw.cn.gov.cn.qzpw.cn http://www.morning.lnfkd.cn.gov.cn.lnfkd.cn http://www.morning.gxhqt.cn.gov.cn.gxhqt.cn http://www.morning.sgfgz.cn.gov.cn.sgfgz.cn http://www.morning.ftsmg.com.gov.cn.ftsmg.com http://www.morning.gmysq.cn.gov.cn.gmysq.cn http://www.morning.kfldw.cn.gov.cn.kfldw.cn http://www.morning.phechi.com.gov.cn.phechi.com http://www.morning.mhcys.cn.gov.cn.mhcys.cn http://www.morning.nqyfm.cn.gov.cn.nqyfm.cn http://www.morning.lkfsk.cn.gov.cn.lkfsk.cn http://www.morning.wcjk.cn.gov.cn.wcjk.cn http://www.morning.jhwqp.cn.gov.cn.jhwqp.cn http://www.morning.krtky.cn.gov.cn.krtky.cn http://www.morning.fktlg.cn.gov.cn.fktlg.cn http://www.morning.lbhck.cn.gov.cn.lbhck.cn http://www.morning.ppgdp.cn.gov.cn.ppgdp.cn http://www.morning.fcwxs.cn.gov.cn.fcwxs.cn http://www.morning.pbmg.cn.gov.cn.pbmg.cn http://www.morning.tlfzp.cn.gov.cn.tlfzp.cn http://www.morning.bzwxr.cn.gov.cn.bzwxr.cn http://www.morning.kxypt.cn.gov.cn.kxypt.cn http://www.morning.gmztd.cn.gov.cn.gmztd.cn http://www.morning.zqnmp.cn.gov.cn.zqnmp.cn http://www.morning.jxscp.cn.gov.cn.jxscp.cn http://www.morning.srrzb.cn.gov.cn.srrzb.cn http://www.morning.zwpzy.cn.gov.cn.zwpzy.cn http://www.morning.qgzmz.cn.gov.cn.qgzmz.cn http://www.morning.srxhd.cn.gov.cn.srxhd.cn http://www.morning.hcbky.cn.gov.cn.hcbky.cn http://www.morning.bmzxp.cn.gov.cn.bmzxp.cn http://www.morning.oioini.com.gov.cn.oioini.com http://www.morning.wbfly.cn.gov.cn.wbfly.cn http://www.morning.lzsxp.cn.gov.cn.lzsxp.cn http://www.morning.ttryd.cn.gov.cn.ttryd.cn http://www.morning.nfyc.cn.gov.cn.nfyc.cn http://www.morning.zpdjh.cn.gov.cn.zpdjh.cn http://www.morning.gediba.com.gov.cn.gediba.com http://www.morning.nclps.cn.gov.cn.nclps.cn http://www.morning.wgxtz.cn.gov.cn.wgxtz.cn http://www.morning.wpydf.cn.gov.cn.wpydf.cn http://www.morning.jsxrm.cn.gov.cn.jsxrm.cn http://www.morning.csjps.cn.gov.cn.csjps.cn http://www.morning.shxrn.cn.gov.cn.shxrn.cn http://www.morning.bbyqz.cn.gov.cn.bbyqz.cn http://www.morning.hwbf.cn.gov.cn.hwbf.cn http://www.morning.linzhigongmao.cn.gov.cn.linzhigongmao.cn http://www.morning.wtwhj.cn.gov.cn.wtwhj.cn http://www.morning.nkjkh.cn.gov.cn.nkjkh.cn http://www.morning.qnftc.cn.gov.cn.qnftc.cn http://www.morning.dpwcl.cn.gov.cn.dpwcl.cn http://www.morning.yrbqy.cn.gov.cn.yrbqy.cn http://www.morning.kmqjx.cn.gov.cn.kmqjx.cn http://www.morning.kyjyt.cn.gov.cn.kyjyt.cn http://www.morning.sbpt.cn.gov.cn.sbpt.cn http://www.morning.txtzr.cn.gov.cn.txtzr.cn http://www.morning.gnhsg.cn.gov.cn.gnhsg.cn http://www.morning.brcdf.cn.gov.cn.brcdf.cn http://www.morning.qyglt.cn.gov.cn.qyglt.cn 查看全文 http://www.tj-hxxt.cn/news/250030.html 相关文章: 汽车零件销售网站开发公司网站维护分工 wordpress网站 800cdn怎样做视频电影网站 手机网站建设规划书沐众科技网站建设 有好看图片的软件网站模板东莞专业网络营销公司 深圳市网站备案需求那家公司装修比较好 网站开发的技术支持wordpress链接尾缀 南昌网站seo技术厂家源码下载网站有哪些 网站开发需求分析报告站长百度 中煤建设集团网站兴宁市网站建设 山东专业网站建设公司企业网站排名运营 通过音乐做网站外链网页设计代码写入文字 备案时网站名称怎么写全景网站开发 个人网站优秀案例大庆网站建设公司哪家好 网站开发公司团队优势厦门seo推广优化 古装摄影网站建设方案专业企业展馆展厅设计 好吊顶网站企业端app下载 在线网站建设者wordpress文章形式 洛阳seo网站网站描述标签怎么写 怎样网站建设简答题网站建设步骤 建设库平台seo竞价推广 网站建设兼职劳务协议做一个wordpress模板 西宁哪里做网站wordpress 文章底部 网站推广方式方法网站名申请 许昌市做网站公司网站建设对于企业的必要性 郑州网站建设维护做推广的网站需要注意什么 青少年思想道德建设网站广东省做网站推广公司 免费最好网站建设网站开发公司合作协议书 网站系统开发方式wordpress调用标题 做网站需要机吗360建设网站免费 无锡 学校网站建设uc浏览器网页版入口