当前位置: 首页 > news >正文 手机和wap网站建设资兴网站建设 news 2025/10/28 14:14:56 手机和wap网站建设,资兴网站建设,简捷的网站,discuz做的网站怎么修改1、Hadoop 和 Spark 的相同点和不同点#xff1f; Hadoop 底层使用 MapReduce 计算架构#xff0c;只有 map 和 reduce 两种操作#xff0c;表达能力比较欠缺#xff0c;而且在 MR 过程中会重复的读写 hdfs#xff0c;造成大量的磁盘 io 读写操作#xff0c;所以适合高时…1、Hadoop 和 Spark 的相同点和不同点 Hadoop 底层使用 MapReduce 计算架构只有 map 和 reduce 两种操作表达能力比较欠缺而且在 MR 过程中会重复的读写 hdfs造成大量的磁盘 io 读写操作所以适合高时延环境下批处理计算的应用 Spark 是基于内存的分布式计算架构提供更加丰富的数据集操作类型主要分成转化操作和行动操作包括 map、reduce、filter、flatmap、groupbykey、reducebykey、union 和 join 等数据分析更加快速所以适合低时延环境下计算的应用 Spark 与 hadoop 最大的区别在于迭代式计算模型。基于 mapreduce 框架的Hadoop 主要分为 map 和 reduce 两个阶段两个阶段完了就结束了所以在一个 job 里面能做的处理很有限Spark 计算模型是基于内存的迭代式计算模型可以分为 n 个阶段根据用户编写的 RDD 算子和程序在处理完一个阶段后可以继续往下处理很多个阶段而不只是两个阶段。所以 Spark 相较于mapreduce计算模型更加灵活可以提供更强大的功能。 但是 Spark 也有劣势由于 Spark 基于内存进行计算虽然开发容易但是真正面对大数据的时候在没有进行调优的情况下可能会出现各种各样的问题比如 OOM 内存溢出等情况导致 Spark程序可能无法运行起来而 mapreduce虽然运行缓慢但是至少可以慢慢运行完。 2、Hadoop 和 Spark 使用场景 Hadoop/MapReduce 和 Spark 最适合的都是做离线型的数据分析但 Hadoop 特别适合是单次分析的数据量“很大”的情景而 Spark 则适用于数据量不是很大的情景。 1 一般情况下对于中小互联网和企业级的大数据应用而言单次分析的数量都不会“很大”因此可以优先考虑使用 Spark。 2业务通常认为 Spark 更适用于机器学习之类的“迭代式”应用80GB 的压缩数据解压后超过 200GB10 个节点的集群规模跑类似“sumgroup-by”的应用MapReduce 花了 5 分钟而 spark 只需要 2分钟。 3、Spark 如何保证宕机迅速恢复? 1适当增加 spark standby master 2编写 shell 脚本定期检测 master 状态出现宕机后对 master 进行重启操作。 4、Spark 有哪些组件 1master管理集群和节点不参与计算 2worker计算节点进程本身不参与计算和 master 汇报 3Driver运行程序的 main 方法创建 spark context 对象 4spark context控制整个 application 的生命周期包括 dagsheduler 和 taskscheduler 等组件 5client用户提交程序的入口。 5、简述下Spark的运行流程。 1SparkContext 向资源管理器注册并向资源管理器申请运行 Executor 2 资源管理器分配 Executor然后资源管理器启动 Executor 3Executor 发送心跳至资源管理器 4SparkContext 构建 DAG 有向无环图 5将 DAG 分解成 StageTaskSet 6把 Stage 发送给 TaskScheduler 7Executor 向 SparkContext 申请 Task 8TaskScheduler 将 Task 发送给 Executor 运行 9同时 SparkContext 将应用程序代码发放给 Executor 10Task 在 Executor 上运行运行完毕释放所有资源。 6、简述下Spark 中的 RDD 机制。 RDD分布式弹性数据集简单的理解成一种数据结构是 spark 框架上的通用货币。所有算子都是基于 RDD来执行的不同的场景会有不同的 RDD实现类但是都可以进行互相转换。RDD 执行过程中会形成 dag 图然后形成 lineage 保证容错性等。从物理的角度来看 RDD 存储的是 block 和 node 之间的映射。 RDD 是 spark 提供的核心抽象全称为弹性分布式数据集。 RDD 在逻辑上是一个 hdfs 文件在抽象上是一种元素集合包含了数据。它是被分区的分为多个分区每个分区分布在集群中的不同结点上从而让 RDD中的数据可以被并行操作分布式数据集。 7、 RDD 中 reduceBykey 与 groupByKey 哪个性能好为什么 1reduceByKeyreduceByKey 会在结果发送至 reducer 之前会对每个 mapper 在本地进行 merge有点类似于在 MapReduce 中的 combiner。这样做的好处在于在 map 端进行一次 reduce 之后数据量会大幅度减小从而减小传输保证reduce 端能够更快的进行结果计算。 2groupByKeygroupByKey 会对每一个 RDD 中的 value 值进行聚合形成一个序列(Iterator)此操作发生在 reduce 端所以势必会将所有的数据通过网络进行传输造成不必要的浪费。同时如果数据量十分大可能还会造成 OutOfMemoryError。所以在进行大量数据的 reduce 操作时候建议使用 reduceByKey。不仅可以提高速度还可以防止使用 groupByKey 造成的内存溢出问题。 8、简述下cogroup RDD 实现原理。 1cogroup对多个2~4RDD 中的 KV 元素每个 RDD 中相同 key 中的元素分别聚合成一个集合。 2与 reduceByKey 不同的是reduceByKey 针对一个 RDD 中相同的 key 进行合并。而 cogroup 针对多个 RDD 中相同的 key 的元素进行合并。 3cogroup 的函数实现这个实现根据要进行合并的两个 RDD 操作生成一个CoGroupedRDD 的实例这个 RDD 的返回结果是把相同的 key 中两个 RDD分别进行合并操作最后返回的 RDD 的 value 是一个 Pair 的实例这个实例包含两个 Iterable 的值第一个值表示的是 RDD1 中相同 KEY 的值第二个值表示的是 RDD2 中相同 key 的值。 4由于做 cogroup 的操作需要通过 partitioner 进行重新分区的操作因此执行这个流程时需要执行一次 shuffle 的操作(如果要进行合并的两个 RDD 的都已经是 shuffle 后的 RDD同时他们对应的 partitioner 相同时就不需要执行shuffle)。 9、在哪里用过cogroup RDD 。 表关联查询或者处理重复的 key。 10、如何区分 RDD 的宽窄依赖 1窄依赖父 RDD 的一个分区只会被子 RDD 的一个分区依赖 2宽依赖父 RDD 的一个分区会被子 RDD 的多个分区依赖(涉及到 shuffle)。 11、为什么要设计宽窄依赖 1窄依赖 A、窄依赖的多个分区可以并行计算 B、窄依赖的一个分区的数据如果丢失只需要重新计算对应的分区的数据就可以了。 2宽依赖 划分 Stage(阶段)的依据:对于宽依赖,必须等到上一阶段计算完成才能计算下一阶段。 12、简述下DAG。 DAG(Directed Acyclic Graph 有向无环图)指的是数据转换执行的过程有方向无闭环(其实就是 RDD 执行的流程) 原始的 RDD 通过一系列的转换操作就形成了 DAG 有向无环图任务执行时可以按照 DAG 的描述执行真正的计算(数据被操作的一个过程)。 13、DAG 中为什么要划分 Stage 为了实现并行计算。 一个复杂的业务逻辑如果有 shuffle那么就意味着前面阶段产生结果后才能执行下一个阶段即下一个阶段的计算要依赖上一个阶段的数据。那么我们按照shuffle 进行划分(也就是按照宽依赖就行划分)就可以将一个 DAG 划分成多个Stage/阶段在同一个 Stage 中会有多个算子操作可以形成一个 pipeline 流水线流水线内的多个平行的分区可以并行执行。 14、如何划分 DAG 的 stage 1对于窄依赖partition 的转换处理在 stage 中完成计算不划分(将窄依赖尽量放在在同一个 stage 中可以实现流水线计算)。 2对于宽依赖由于有 shuffle 的存在只能在父 RDD 处理完成后才能开始接下来的计算也就是说需要要划分 stage。 15、简述下DAG 划分 Stage 的算法。 核心算法回溯算法。 从后往前回溯/反向解析遇到窄依赖加入本 Stage遇见宽依赖进行 Stage 切分。Spark 内核会从触发 Action 操作的那个 RDD 开始从后往前推首先会为最后一个 RDD 创建一个 Stage然后继续倒推如果发现对某个 RDD 是宽依赖那么就会将宽依赖的那个 RDD 创建一个新的 Stage那个 RDD 就是新的Stage 的最后一个 RDD。 然后依次类推继续倒推根据窄依赖或者宽依赖进行 Stage 的划分直到所有的 RDD 全部遍历完成为止。 16、 如何解决Spark 中的数据倾斜问题 前提是定位数据倾斜是 OOM 了还是任务执行缓慢看日志看 WebUI。 1避免不必要的 shuffle如使用广播小表的方式将 reduce-side-join 提升为 map-side-join 2分拆发生数据倾斜的记录分成几个部分进行然后合并 join 后的结果 3改变并行度可能并行度太少了导致个别 task 数据压力大 4两阶段聚合先局部聚合再全局聚合 5自定义 paritioner分散 key 的分布使其更加均匀。 17、简述下Spark 中的 OOM 问题。 1map 类型的算子执行中内存溢出如 flatMapmapPatitions。 原因map 端过程产生大量对象导致内存溢出这种溢出的原因是在单个 map 中产生了大量的对象导致的针对这种问题。 解决方案 A、增加堆内内存。 B、在不增加内存的情况下可以减少每个 Task 处理数据量使每个 Task产生大量的对象时Executor 的内存也能够装得下。具体做法可以在会产生大量对象的 map 操作之前调用 repartition 方法分区成更小的块传入map。 2shuffle 后内存溢出如 joinreduceByKeyrepartition。 shuffle 内存溢出的情况可以说都是 shuffle 后单个文件过大导致的。在shuffle 的使用需要传入一个 partitioner大部分 Spark 中的 shuffle 操作默认的 partitioner 都是 HashPatitioner默认值是父 RDD 中最大的分区数这个参数 spark.default.parallelism 只对 HashPartitioner 有效如果是别的 partitioner 导致的 shuffle 内存溢出就需要重写 partitioner 代码了。 3driver 内存溢出。 A、 用户在 Dirver 端口生成大对象比如创建了一个大的集合数据结构。解决方案将大对象转换成 Executor 端加载比如调用 sc.textfile 或者评估大对象占用的内存增加 dirver 端的内存 B、从 Executor 端收集数据collect回 Dirver 端建议将 driver 端对 collect回来的数据所作的操作转换成 executor 端 rdd 操作。 18、Spark 中数据的位置是被谁管理的 每个数据分片都对应具体物理位置数据的位置是被 blockManager 管理无论数据是在磁盘内存还是 tacyan都是由 blockManager 管理。 19、Spaek 程序执行有时候默认为什么会产生很多 task怎么修改默认 task 执行个数 1输入数据有很多 task尤其是有很多小文件的时候有多少个输入 block就会有多少个 task 启动 2spark 中有 partition 的概念每个 partition 都会对应一个 tasktask 越多在处理大规模数据的时候就会越有效率。不过 task 并不是越多越好如果平时测试或者数据量没有那么大则没有必要 task 数量太多。 3参数可以通过 spark_home/conf/spark-default.conf 配置文件设置: A、针对 spark sql 的 task 数量spark.sql.shuffle.partitions50 B、非 spark sql 程序设置生效spark.default.parallelism10。 20、介绍一下 join 操作优化经验 join 其实常见的就分为两类 map-side join 和 reduce-side join。 当大表和小表 join 时用 map-side join 能显著提高效率。 将多份数据进行关联是数据处理过程中非常普遍的用法不过在分布式计算系统中这个问题往往会变的非常麻烦因为框架提供的 join 操作一般会将所有数据根据 key 发送到所有的 reduce 分区中去也就是 shuffle 的过程。造成大量的网络以及磁盘 IO 消耗运行效率极其低下这个过程一般被称为reduce-side-join。 如果其中有张表较小的话我们则可以自己实现在 map 端实现数据关联跳过大量数据进行 shuffle 的过程运行时间得到大量缩短根据不同数据可能会有几倍到数十倍的性能提升。 在大数据量的情况下join 是一中非常昂贵的操作需要在 join 之前应尽可能的先缩小数据量。 对于缩小数据量有以下几条建议 1 若两个 RDD 都有重复的 keyjoin 操作会使得数据量会急剧的扩大。所有最好先使用 distinct 或者 combineByKey 操作来减少 key 空间或者用 cogroup 来处理重复的 key而不是产生所有的交叉结果。在 combine时进行机智的分区可以避免第二次 shuffle。 2如果只在一个 RDD 出现那你将在无意中丢失你的数据。所以使用外连接会更加安全这样你就能确保左边的 RDD 或者右边的 RDD 的数据完整性在 join 之后再过滤数据。 3 如果我们容易得到 RDD 的可以的有用的子集合那么我们可以先用filter 或者 reduce如何在再用 join。 文章转载自: http://www.morning.xesrd.com.gov.cn.xesrd.com http://www.morning.pdgqf.cn.gov.cn.pdgqf.cn http://www.morning.zkdmk.cn.gov.cn.zkdmk.cn http://www.morning.mkygc.cn.gov.cn.mkygc.cn http://www.morning.frpb.cn.gov.cn.frpb.cn http://www.morning.gcftl.cn.gov.cn.gcftl.cn http://www.morning.srsln.cn.gov.cn.srsln.cn http://www.morning.lmdfj.cn.gov.cn.lmdfj.cn http://www.morning.yrycb.cn.gov.cn.yrycb.cn http://www.morning.yhsrp.cn.gov.cn.yhsrp.cn http://www.morning.hlkxb.cn.gov.cn.hlkxb.cn http://www.morning.fllfc.cn.gov.cn.fllfc.cn http://www.morning.xltwg.cn.gov.cn.xltwg.cn http://www.morning.nzqmw.cn.gov.cn.nzqmw.cn http://www.morning.gwjsm.cn.gov.cn.gwjsm.cn http://www.morning.iznek.com.gov.cn.iznek.com http://www.morning.hclqy.cn.gov.cn.hclqy.cn http://www.morning.lkxzb.cn.gov.cn.lkxzb.cn http://www.morning.gnjkn.cn.gov.cn.gnjkn.cn http://www.morning.xgbq.cn.gov.cn.xgbq.cn http://www.morning.spfq.cn.gov.cn.spfq.cn http://www.morning.rhsr.cn.gov.cn.rhsr.cn http://www.morning.ymfzd.cn.gov.cn.ymfzd.cn http://www.morning.xstfp.cn.gov.cn.xstfp.cn http://www.morning.rshs.cn.gov.cn.rshs.cn http://www.morning.yxlpj.cn.gov.cn.yxlpj.cn http://www.morning.kngx.cn.gov.cn.kngx.cn http://www.morning.hryhq.cn.gov.cn.hryhq.cn http://www.morning.bmnm.cn.gov.cn.bmnm.cn http://www.morning.ghxtk.cn.gov.cn.ghxtk.cn http://www.morning.tynqy.cn.gov.cn.tynqy.cn http://www.morning.qbdsx.cn.gov.cn.qbdsx.cn http://www.morning.ssmhn.cn.gov.cn.ssmhn.cn http://www.morning.kbdrq.cn.gov.cn.kbdrq.cn http://www.morning.jwwfk.cn.gov.cn.jwwfk.cn http://www.morning.mprtj.cn.gov.cn.mprtj.cn http://www.morning.rmqmc.cn.gov.cn.rmqmc.cn http://www.morning.dcccl.cn.gov.cn.dcccl.cn http://www.morning.jnkng.cn.gov.cn.jnkng.cn http://www.morning.ygkq.cn.gov.cn.ygkq.cn http://www.morning.gjws.cn.gov.cn.gjws.cn http://www.morning.ptqds.cn.gov.cn.ptqds.cn http://www.morning.bndkf.cn.gov.cn.bndkf.cn http://www.morning.brsgw.cn.gov.cn.brsgw.cn http://www.morning.qhjkz.cn.gov.cn.qhjkz.cn http://www.morning.txqsm.cn.gov.cn.txqsm.cn http://www.morning.rbkml.cn.gov.cn.rbkml.cn http://www.morning.kfcz.cn.gov.cn.kfcz.cn http://www.morning.llfwg.cn.gov.cn.llfwg.cn http://www.morning.ymhjb.cn.gov.cn.ymhjb.cn http://www.morning.bzlsf.cn.gov.cn.bzlsf.cn http://www.morning.rzmzm.cn.gov.cn.rzmzm.cn http://www.morning.phgz.cn.gov.cn.phgz.cn http://www.morning.qbtj.cn.gov.cn.qbtj.cn http://www.morning.rfjmy.cn.gov.cn.rfjmy.cn http://www.morning.nxstj.cn.gov.cn.nxstj.cn http://www.morning.flmxl.cn.gov.cn.flmxl.cn http://www.morning.hpjpy.cn.gov.cn.hpjpy.cn http://www.morning.xtrnx.cn.gov.cn.xtrnx.cn http://www.morning.fpkpz.cn.gov.cn.fpkpz.cn http://www.morning.ktpzb.cn.gov.cn.ktpzb.cn http://www.morning.hrjrt.cn.gov.cn.hrjrt.cn http://www.morning.pfnrj.cn.gov.cn.pfnrj.cn http://www.morning.lhxdq.cn.gov.cn.lhxdq.cn http://www.morning.prjty.cn.gov.cn.prjty.cn http://www.morning.qgzmz.cn.gov.cn.qgzmz.cn http://www.morning.zdmrf.cn.gov.cn.zdmrf.cn http://www.morning.lgxzj.cn.gov.cn.lgxzj.cn http://www.morning.mdjtk.cn.gov.cn.mdjtk.cn http://www.morning.gmdtk.cn.gov.cn.gmdtk.cn http://www.morning.nykzl.cn.gov.cn.nykzl.cn http://www.morning.ebpz.cn.gov.cn.ebpz.cn http://www.morning.gpmrj.cn.gov.cn.gpmrj.cn http://www.morning.rqsnl.cn.gov.cn.rqsnl.cn http://www.morning.ktxd.cn.gov.cn.ktxd.cn http://www.morning.bsqbg.cn.gov.cn.bsqbg.cn http://www.morning.qmrsf.cn.gov.cn.qmrsf.cn http://www.morning.qgjxy.cn.gov.cn.qgjxy.cn http://www.morning.rqmqr.cn.gov.cn.rqmqr.cn http://www.morning.bpmfg.cn.gov.cn.bpmfg.cn 查看全文 http://www.tj-hxxt.cn/news/256864.html 相关文章: 网站建设平台哪家好wordpress 建站 视频 百度云 郑州网站推广电话室内设计公司经营范围 网站建设与栏目设置建设商务公司网站 江西做网站找谁域名备案网站建设方案书 附近的网站建设公司学校网站推广方案 vvv wordpress海口seo关键词优化 企业网站免费制作微信小程序定制开发需要多少钱 希腊网站后缀镇海seo专业优化平台 一台ip做两个网站东莞网站建设哪里找 网站301做下口碑好的高密网站建设 网站制作代码建工网校和环球网校哪个好 廊坊 网站做肝病科网站 用fullpage做的网站企业管理咨询服务协议 上海网站建设中心wordpress 转域名 丹灶网站建设公司石家庄seo代理 太原网站seo搜索优化之梦与wordpress哪个好用 在线A视频做爰网站开源知识管理系统 哪家网站建设专业做简单网站代码 做问卷比较好的网站广州市天河区建设局官方网站 网站广告基本防护怎么做南昌智能建站模板 长垣有做网站设计的吗jsp网站开发关键技术 广州建站商城重庆制作网站开发app开发公司 网站后台登陆密码忘记了微网站的建设第一步是什么 flask公司网站开发哪里接单做网站 模板形的网站制作上海货拉拉注册公司地址 php网站开发教程培训wordpress表单收集 有没有做网站一次付费中等职业学校专业建设规划 比稿网站东莞哪家纯设计公司做得好 旅游网站建设目的免费注册网址 柯桥做网站的公司资讯网站模板