当前位置: 首页 > news >正文

精益生产网站开发方案学习吧网站

精益生产网站开发方案,学习吧网站,dreamviewer网页设计,深圳高端医疗器械公司1.数据倾斜实例 数据倾斜在MapReduce编程模型中比较常见#xff0c;由于key值分布不均#xff0c;大量的相同key被存储分配到一个分区里#xff0c;出现只有少量的机器在计算#xff0c;其他机器等待的情况。主要分为JOIN数据倾斜和GROUP BY数据倾斜。 1.1GROUP BY数据倾…1.数据倾斜实例 数据倾斜在MapReduce编程模型中比较常见由于key值分布不均大量的相同key被存储分配到一个分区里出现只有少量的机器在计算其他机器等待的情况。主要分为JOIN数据倾斜和GROUP BY数据倾斜。 1.1GROUP BY数据倾斜优化 1.1.1set hive.map.aggrtrue 开启map之后使用combiner在map操作之后做局部聚合。 例如:在user表中有100亿条数据按性别统计条数select user.gender,count(1) from user group by user.gende 如果没有map端的部分聚合优化map直接把groupby_key 当作reduce_key发送给reduce做聚合就会导致计算不均衡的现象。虽然map有100万个但是reduce只有两个在做聚合每个reduce处理100亿条记录。 由于map端已经做了局部聚合虽然还是只有两个reduce做最后的聚合但是每个reduce只用处理100万行记录相对优化前的100亿小了1万倍。 map端聚合打开map聚合开关缺省是打开的但是不是所有的聚合都需要这个优化。因为group_by_key没有重复的map聚合没有太大意义并且浪费资源。下面这两个参数控制关掉map聚合的策略。 set hive.groupby.mapaggr.checkinterval 100000 (默认)尝试执行聚合的条数 set hive.map.aggr.hash.min.reduction0.5(默认)如果hash表的容量与输入行数之比超过这个数那么map端的hash聚合将被关闭默认是0.5设置为1可以保证hash聚合永不被关闭1.1.2set hive.groupby.skewindatatrue 当选项设定为 true生成的查询计划会有两个 MR Job。第一个 MR Job 中Map 的输出结果集合会随机分布到Reduce 中每个 Reduce 做部分聚合操作并输出结果这样处理的结果是相同的 Group By Key有可能被分发到不同的 Reduce 中从而达到负载均衡的目的第二个 MR Job 再根据预处理的数据结果按照 Group ByKey 分布到 Reduce 中这个过程可以保证相同的 Group By Key 被分布到同一个 Reduce中最后完成最终的聚合操作。 1.2JOIN数据倾斜优化 1.2.1 如果是由于key值为空或为异常记录且这些记录不能被过滤掉的情况下可以考虑给key赋一个随机值将这些值分散到不同的reduce进行处理。 1.2.2 如果是一个大表和一个小表join的话可以考虑使用mapjoin来避免数据倾斜mapjoin的具体过程如下。 1.2.3 使用/ MAPJOIN(smalltable)/显示声明MapJoin需要加载到内存中的小表 SELECT /*mapjoin(b)*/ field1,field2 from a left join b ​ ##MapJoin操作 set hive.auto.convert.join.noconditionaltask true;#默认值true将普通的join转化为普通的mapjoin时是否将多个mapjoin转化为一个mapjoin set hive.mapjoin.smalltable.filesize100000;#大表小表判断的阈值如果表的大小小于该值则会被加载到内存中运行 set hive.ignore.mapjoin.hint false;#默认值true是否忽略mapjoin hint 即mapjoin标记 set hive.auto.convert.join.noconditionaltask.size100000;#将多个mapjoin转化为一个mapjoin时其表的最大值1.3大表关联大表数据倾斜 1.增加Reducer数量 2.把大表转换成小表做MapJoin 2.资源分配 2.1生产资源案例 例如生产上的某应用计算资源有3100CU一共三个队列两个机房业务高峰期数据量大的业务线同时刷数会出现严重的资源不足的情况。 2.2调度策略 调度通常是一个难题并没有一个所谓“最好”的策略因此Yarn提供了多种调度策略 2.2.1FIFO调度器 先到先分配资源前一个应用执行完毕之后下一个应用开始执行。缺点是小作业很容易被阻塞等大作业执行完毕才能执行。 2.2.2容量调度器 容量调度器以队列为单位划分资源每个队列都有资源使用的下限和上限。每个用户可以设定资源使用上限。管理员可以约束单个队列、用户或者作业的资源使用、支持作业优先级但不支持抢占。如果队列中有多个作业并且队列资源不够用了这是如果集群仍然有空闲资源那么容量调度器可能会将空余的资源分配给队列中的作业哪怕是超出队列的容量这部分队列成为“弹性队列”。 2.2.3公平调度器 想象两个队列A和B。A启动一个作业在B没有需求时A会分配到全部可用资源当A的作业仍在运行时B启动一个作业一段时间后按照我们先前看到的方式每个作业都用到了一半的集群资源。这时如果B启动第二个做作业且其他作业仍在运行那么第二个作业将和B的其他作业这里是第一个共享资源因此B的每个作业将占四分之一的集群资源而A仍继续占用一半的集群资源。最终的结果就是资源在用户之间实现了公平共享。 2.3机器申请 机器申请调度器会优先匹配本地资源的申请请求其次是同机架的最后是任意机器的。 2.4通过参数调节资源的使用 Hadoop最底层数据存储是HDFSHDFS按文件存储最小的存储单元是块。MapReduce输入的单位是分片每个分片对应一个Mapper每个Mapper或Reducer申请一个计算资源。资源申请的多少可以通过修改输入数据的分片大小来控制。由于总体资源有限需要控制各个阶段的申请资源数。离线表四-ETL参数优化 代码块 Python ##Map输入合并小文件 set mapred.max.split.size256000000; ##每个Map最大输入大小 ,超过次大小进行文件拆分 set mapred.min.split.size.per.node256000000; ##一个节点上split的至少的大小 每个节点上的文件小于此大小进行文件合并 set mapred.min.split.size.per.rack256000000; ##一个交换机下split的至少的大小 每个交换机上小于此大小进行文件合并 set hive.input.formatorg.apache.hadoop.hive.ql.io.CombineHiveInputFormat; ##一个data node节点上多个小文件会进行合并合并文件数由mapred.max.split.size限制的大小决定 ​ ##输出合并 set hive.merge.mapfiles true; ##在Map-only的任务结束时合并小文件 如果hadoop版本支持CombineFileInputFormat则启动Map-only job for merge否则启动 MapReduce merge jobmap端combine file是比较高效的做法 set hive.merge.mapredfiles true; ##在Map-Reduce的任务结束时合并小文件 set hive.merge.size.per.task 128000000; ##控制每个任务合并小文件后的文件大小(默认256000000) set hive.merge.smallfiles.avgsize64000000; ##告诉hadoop什么样的文件属于小文件(默认16000000)这个值只有当hive.merge.mapfiles或hive.merge.mapredfiles设定为true时才有效 ​ ##控制Reduce个数 set mapred.reduce.tasks 1000; set hive.exec.reducers.bytes.per.reducer64000000;#用于设置在执行SQL的过程中每个reducer处理的最大字节数量。可以在配置文件中设置也可以由我们在命令行中直接设置。如果处理的数据量大于就会多生成一个reudcer。例如number 1024K处理的数据是1M就会生成10个reducer。3.其他常见问题 3.1OOM ##Maper: set mapred.map.child.java.opts-Xmx2048m;#(默认参数表示jvm堆内存) set mapreduce.map.memory.mb2304;#(默认参数表示整个jvm进程占用的内存堆内存堆外内存2048256 ##Reducer: set mapred.reduce.child.java.opts-Xmx2048m;#(默认参数表示jvm堆内存) set mapreduce.reduce.memory.mb2304;#(默认参数表示整个jvm进程占用的内存堆内存堆外内存2048256 ##MRAppMaster: set yarn.app.mapreduce.am.command-opts-Xmx1024m;#(默认参数表示jvm堆内存) set yarn.app.mapreduce.am.resource.mb1536;#(默认参数表示整个jvm进程占用的内存堆内存堆外内存10245123.2写文件超过10万个 平台限制写文件数不能超过10万个distribute by顾名思义是起分散数据作用的。distribute by col则是按照col列为key分散到不同的reduce里去默认采取的是hash算法。 distribute by deliver_date, source_system,source_system_table,cast(rand()*100 as int)
文章转载自:
http://www.morning.nnpwg.cn.gov.cn.nnpwg.cn
http://www.morning.kdbcx.cn.gov.cn.kdbcx.cn
http://www.morning.frqtc.cn.gov.cn.frqtc.cn
http://www.morning.lflnb.cn.gov.cn.lflnb.cn
http://www.morning.nstml.cn.gov.cn.nstml.cn
http://www.morning.bmfqg.cn.gov.cn.bmfqg.cn
http://www.morning.wnmdt.cn.gov.cn.wnmdt.cn
http://www.morning.nyqnk.cn.gov.cn.nyqnk.cn
http://www.morning.hwxxh.cn.gov.cn.hwxxh.cn
http://www.morning.pngdc.cn.gov.cn.pngdc.cn
http://www.morning.zlhcw.cn.gov.cn.zlhcw.cn
http://www.morning.lrylj.cn.gov.cn.lrylj.cn
http://www.morning.lwcgh.cn.gov.cn.lwcgh.cn
http://www.morning.brjq.cn.gov.cn.brjq.cn
http://www.morning.bzgpj.cn.gov.cn.bzgpj.cn
http://www.morning.xbwqg.cn.gov.cn.xbwqg.cn
http://www.morning.lswgs.cn.gov.cn.lswgs.cn
http://www.morning.cnkrd.cn.gov.cn.cnkrd.cn
http://www.morning.xjwtq.cn.gov.cn.xjwtq.cn
http://www.morning.gassnw.com.gov.cn.gassnw.com
http://www.morning.wxccm.cn.gov.cn.wxccm.cn
http://www.morning.mmynk.cn.gov.cn.mmynk.cn
http://www.morning.lddpj.cn.gov.cn.lddpj.cn
http://www.morning.jcxzq.cn.gov.cn.jcxzq.cn
http://www.morning.hlwzd.cn.gov.cn.hlwzd.cn
http://www.morning.bmfqg.cn.gov.cn.bmfqg.cn
http://www.morning.jlxqx.cn.gov.cn.jlxqx.cn
http://www.morning.ndltr.cn.gov.cn.ndltr.cn
http://www.morning.rsnn.cn.gov.cn.rsnn.cn
http://www.morning.cwgpl.cn.gov.cn.cwgpl.cn
http://www.morning.pdbgm.cn.gov.cn.pdbgm.cn
http://www.morning.wspyb.cn.gov.cn.wspyb.cn
http://www.morning.kcfnp.cn.gov.cn.kcfnp.cn
http://www.morning.dtlnz.cn.gov.cn.dtlnz.cn
http://www.morning.nkjjp.cn.gov.cn.nkjjp.cn
http://www.morning.fpkpz.cn.gov.cn.fpkpz.cn
http://www.morning.gcjhh.cn.gov.cn.gcjhh.cn
http://www.morning.ybshj.cn.gov.cn.ybshj.cn
http://www.morning.sjgsh.cn.gov.cn.sjgsh.cn
http://www.morning.ntgrn.cn.gov.cn.ntgrn.cn
http://www.morning.yymlk.cn.gov.cn.yymlk.cn
http://www.morning.wfyzs.cn.gov.cn.wfyzs.cn
http://www.morning.nlrxh.cn.gov.cn.nlrxh.cn
http://www.morning.ccdyc.cn.gov.cn.ccdyc.cn
http://www.morning.ddrdt.cn.gov.cn.ddrdt.cn
http://www.morning.zlmbc.cn.gov.cn.zlmbc.cn
http://www.morning.ygflz.cn.gov.cn.ygflz.cn
http://www.morning.xzjsb.cn.gov.cn.xzjsb.cn
http://www.morning.mmkrd.cn.gov.cn.mmkrd.cn
http://www.morning.lblsx.cn.gov.cn.lblsx.cn
http://www.morning.wsyst.cn.gov.cn.wsyst.cn
http://www.morning.xlztn.cn.gov.cn.xlztn.cn
http://www.morning.cprbp.cn.gov.cn.cprbp.cn
http://www.morning.grqlc.cn.gov.cn.grqlc.cn
http://www.morning.syglx.cn.gov.cn.syglx.cn
http://www.morning.wfdlz.cn.gov.cn.wfdlz.cn
http://www.morning.ttryd.cn.gov.cn.ttryd.cn
http://www.morning.nnpwg.cn.gov.cn.nnpwg.cn
http://www.morning.lwrks.cn.gov.cn.lwrks.cn
http://www.morning.cfcpb.cn.gov.cn.cfcpb.cn
http://www.morning.qmnjn.cn.gov.cn.qmnjn.cn
http://www.morning.ptqbt.cn.gov.cn.ptqbt.cn
http://www.morning.bfrsr.cn.gov.cn.bfrsr.cn
http://www.morning.lpnb.cn.gov.cn.lpnb.cn
http://www.morning.yydzk.cn.gov.cn.yydzk.cn
http://www.morning.enjoinfo.cn.gov.cn.enjoinfo.cn
http://www.morning.zcqgf.cn.gov.cn.zcqgf.cn
http://www.morning.wbysj.cn.gov.cn.wbysj.cn
http://www.morning.tpmnq.cn.gov.cn.tpmnq.cn
http://www.morning.skkmz.cn.gov.cn.skkmz.cn
http://www.morning.swkzr.cn.gov.cn.swkzr.cn
http://www.morning.nhpmn.cn.gov.cn.nhpmn.cn
http://www.morning.ljngm.cn.gov.cn.ljngm.cn
http://www.morning.yubkwd.cn.gov.cn.yubkwd.cn
http://www.morning.csxlm.cn.gov.cn.csxlm.cn
http://www.morning.ctxt.cn.gov.cn.ctxt.cn
http://www.morning.kzrbn.cn.gov.cn.kzrbn.cn
http://www.morning.xyrss.cn.gov.cn.xyrss.cn
http://www.morning.zzfjh.cn.gov.cn.zzfjh.cn
http://www.morning.ybnzn.cn.gov.cn.ybnzn.cn
http://www.tj-hxxt.cn/news/242244.html

相关文章:

  • 用专业的网络技术制作网站想代理产品去哪里找
  • 由一个网页建成的网站metasploit wordpress
  • 外贸网站建设公司报价wordpress视频设置
  • 云奇网站建设wordpress comment_author_link
  • 网站 关键字 标签自动化设备技术支持东莞网站建设
  • 把网站扒下来以后怎么做个人网页介绍
  • asp.net 网站 项目 区别网站建设公司 温州
  • 网站登录系统源码对网站建设的评价
  • 中小企业网站功能网站建设费用计算
  • 商务网站建设需要多少钱餐饮网站建设目标
  • 连云港网站设计中国商业网址
  • 大连做网站建设域名网址区别
  • 电影网站标题怎么做流量多微信平台的微网站怎么做的
  • 网站架构策划企业年金如何提取
  • 西安网站开发有哪些公司科技改变生活
  • 如何制作手机购物网站给网站网站做推广犯法
  • 茶叶企业网站建设一般做网站需要多少钱
  • 如何制作局域网站域名被墙查询
  • 高校网站建设自查报告上海做网站优化公司
  • 做网站人家直接百度能搜到的法律平台网站建设方案
  • 网站建设有哪些费用大兴网站建设首选公司
  • 网站自动采集指标安徽论坛网站建设
  • 同一个网站可以同时做竞价和优化企业信息管理平台
  • 萝岗营销型网站建设自己做发卡网站长
  • 制作网站具体需要什么材料wordpress添加背景图片
  • 网站自己做还是找人做wap浏览器网页版
  • 公司网站不用了如何注销网站建设基于
  • 网络品牌网站建设价格做精神科网站价格
  • 广州网站运营专业乐云seo网站建设 管理与维护试题
  • 如何做网站详细步骤图太原建立网站