当前位置: 首页 > news >正文 启航网站建设做外贸要开通哪个网站 news 2025/10/27 11:54:08 启航网站建设,做外贸要开通哪个网站,相册插件wordpress,wordpress调整边栏目录 前言 1.什么是Spark 2.核心概念 2.1.Spark如何拉高计算性能 2.2.RDD 2.3.Stage 3.运行流程 前言 本文是作者大数据系列中的一文#xff0c;专栏地址#xff1a; https://blog.csdn.net/joker_zjn/category_12631789.html?spm1001.2014.3001.5482 该系列会成体… 目录 前言 1.什么是Spark 2.核心概念 2.1.Spark如何拉高计算性能 2.2.RDD 2.3.Stage 3.运行流程 前言 本文是作者大数据系列中的一文专栏地址 https://blog.csdn.net/joker_zjn/category_12631789.html?spm1001.2014.3001.5482 该系列会成体系的聊一聊整个大数据的技术栈绝对干货欢迎订阅。 1.什么是Spark 整个大数据的计算引擎是先有了MapReduce再有的其它可以理解为后面出现的其它计算引擎都是对MapReduce的一个补足与升级。 Spark就是对MapReduce的一个补足与升级其弥补了MapReduce在迭代计算上孱弱的缺陷。其核心就是将数据内存中来而不是每次都要去读磁盘进行磁盘IO。 spark是什么 spark是基于内存的计算引擎它不是指单个技术而是指一个技术栈一个构建于spark core上面的全套的用来处理各种计算的技术栈。 Spark Core提供了什么能力 Spark既然是补足就要先说MapReduce在计算这一方面的不足MapReduce在计算性能上存在的核心问题是迭代计算性能不好原因是结果需要写入HDFS中。要用到这个结果的后续作业要先去读HDFS拿到数据这无疑是十分缓慢的。 我们反过来想MapReduce为什么要这样干 MapReduce不是想这么干而是只能这么干因为如果不将结果写入HDFS中全局怎么能找得到这个数据喃要是写入HDFS就能通过NameNode找到数据。 要更好的支持迭代计算无疑将计算结果放在内存中是最好的读内存毕竟比读磁盘快多了。落磁盘是因为HDFS帮我们管理了分布式的磁盘资源我们可以找它拿数据落内存还要找到分布式系统中存储的数据这就需要另一套内存管理机制来帮我们管理分布式内存了。这套内存管理机制叫RDD就是Spark Core提供的。 Spark的特点总结 spark是基于内存的计算引擎其也是mapreduce模式的但是相较于mapreducce spark支持更多种数据集操作编程模型更灵活。 由于是在内存中流转的不像mapreducce的结果是落在分布式文件系统中的所以spark的速度更快。 天生基于DAG比MapReduce过程更简洁高效。 在大数据领域一般存在以下几种使用场景 复杂的批量数据处理用mapreduce一般业务耗时需求能忍受在数十分钟到数小时 基于历史数据的交互式查询用数据仓库一般业务耗时需求能忍受在数十秒到数分钟 基于实时数据流的数据处理用spark一般业务耗时需求能忍受在数百毫秒到数秒 Spark其实是一个全套的基于内存的技术栈其基于spark core可以完成各种各样数据的计算。Spark提供了一组什么能力就是接下来我们在下一节要讲的核心概念的内容。 2.核心概念 2.1.Spark如何拉高计算性能 Spark对比MapReuce之所以做迭代计算性能好是因为两个核心点 有向无环图 基于内存 以上就是Spark Core提供的东西接下来会通过一个例子来逐步带大家一点点的推出Spark Core的这两个核心概念。 首先是计算任务的过程有两种一种是要分前后阶段前后阶段之间有依赖关系一种是不分前后阶段可以并行执行的。 分前后阶段的 ALTER TABLE PR_EXPERT_PEOPLE DROP COLUMN description_bak; 这个查询会有两个阶段。首先k会执行子查询过滤年龄大于18的记录这个操作产生一个中间结果。然后它会在中间结果上执行第二个过滤操作筛选性别为男性的记录。由于这两个操作是连续的它们之间存在依赖关系必须按照顺序执行。 可以并行执行的 这个查询可以分成两个子任务去查a的数据。去查b的数据这两个任务是可以并行执行的最后合在一起就可以了。 SELECT * FROM a JOIN b ON a.typeb.type 上面的例子主要是带大家感受一下计算任务的子流程无非就是两种要么有先后依赖关系要么可以并行执行。 对于一个计算任务而言最高效的方式就是将能并行的子流程并行执行有依赖关系的子流程串行执行也就是说逻辑关系上子任务之间组成这样的有向无环图效率上是最佳的 OK其实把上面聊完Spark的核心概念就已经出来了 RDD Stage 2.2.RDD RDD其实就是有向无环图的节点。我们想一想这些节点会是什么其实就是计算任务但是光有任务是无法完成工作的还需要对应数据所以这个有向无环图上的节点就是任务数据的一个抽象理解为一个单独可以完成的子任务即可。 RDD里面存的其实也不是数据 Spark肯定不能去操作HDFS走磁盘IO的方式读数据本来Spark就是要解决这个问题的。所以要把内存利用起来内存里也不能直接装数据毕竟数据量那么大内存肯定也装不下所以内存中只能装要用到的数据在磁盘中的位置信息也就是一个映射。总结起来RDD里面存的其实就是计算任务和数据映射。 总结一下RDD是什么 RDD 是理解成集合就行了它是只读的、可分区的数据集合其成员分布在集群的不同节点上。 每个RDD对应着HDFS中的一个或者多个文件。 每个 RDD 被分成多个分区Partition每个分区对应一个或多个数据块。 RDD 不可修改可以通过操作其他 RDD 生成这些操作包括转换如 map、filter和动作如 count、save。 RDD并不直接存储数据而是由其分块记录着对应的HDFS的数据分区中参与运算的数据信息 数据叫运算结果更准确点是在RDD的分区中流转的RDD只是一个抽象概念具体干活的分区数据是在不同RDD的不同分区中流转的。 RDD如何生成 2.3.Stage 观察下面一幅图 可以看到有些任务之间没有交叉的依赖关系所以其实是可以并行计算的比如Stage1和Stage2这样并行计算无疑也拉高了计算速度。Spark中将一组可以关起门来自己玩儿和其它任务之间没有交叉依赖关系的任务叫做Stage理解为一个任何集合即可。 stage划分的依据是什么 首先有两个概念 窄依赖每一个父RDD的分区最多被一个子RDD的分区所使用。这意味着数据的转换可以在分区级别上直接进行而不需要跨分区的数据重组。 宽依赖一个父RDD的分区可能被多个子RDD的分区所使用或者一个父RDD的所有分区数据需要被重组以供应给子RDD的某些分区。 从节点出发窄依赖为一个stage遇到第一个宽依赖就断开作为stage的边界。 RDD、RDD分区、Stage三者之间的关系 RDD是Spark中最基本的数据抽象代表一个不可变、可分区、且元素可并行计算的集合直接理解成为分布式内存的抽象即可。RDD的数据是分布存储的意味着Spark集群中的每个节点上只存储了RDD的部分数据这些数据被划分为多个分区。 分区是RDD的一个重要概念它指的是将数据划分为多个逻辑部分以便于在集群的不同节点上进行并行处理。分区的数量和大小可以影响Spark作业的性能因此通常需要根据具体情况进行合理配置。每个分区在物理上可能存储在集群的一个或多个节点上这样Spark就可以利用集群的并行计算能力来处理数据。 Stage是Spark作业执行过程中的一个逻辑阶段代表了一组具有依赖关系的任务集合。在Spark中一个作业Job通常会被划分为多个阶段Stage每个阶段包含一组可以并行执行的任务Task。阶段的划分主要基于RDD之间的依赖关系特别是宽依赖即一个分区的计算依赖于多个父RDD的分区。宽依赖会导致新的Stage的产生因为需要在不同的节点上重新组合数据。 因此RDD、分区和Stage在Spark中构成了数据处理和执行的关键组件。RDD提供了数据的分布式表示分区实现了数据的并行处理而Stage则代表了作业执行的逻辑阶段。这三者相互协作使得Spark能够高效地处理大规模数据集。 3.运行流程 spark的架构和工作流程其实就是map reduce2.0那一套。map reduce2.0也算是玩明白了靠谱的分布式计算引擎就应该是 做流程上的优化DAG以保证有个最有的依赖路径每个计算任务内部的调度和监控独立每个作业一个executor或者application master之类的东西 spark其实就是完整的实现了这一套。 所以Spark的整体运行流程如下 Spark的运行流程可以概括为以下几个主要步骤 启动 Spark Application 用户编写一个Spark应用程序并提交给Spark集群运行。 Spark集群初始化启动一个Driver进程。Driver是Spark应用的主控进程负责管理和协调整个应用的执行。 建立运行环境 Driver启动后会创建一个SparkContextSpark上下文实例。SparkContext是Spark与Cluster Manager集群管理器进行通信的桥梁也是整个应用的主要入口点。 SparkContext向Cluster Manager注册应用并请求资源比如申请Executor进程来执行具体任务。 资源分配与Executor启动 Cluster Manager如YARN、Mesos或Standalone接收到资源请求后根据当前集群状况为应用分配资源并启动Executor进程。 Executor是Spark应用在工作节点Worker Node上运行的进程负责在分配给它们的资源上执行任务并将结果返回给Driver。 构建DAG与Stage划分 SparkContext根据应用程序中的RDD操作构建DAG有向无环图代表了操作之间的依赖关系。 DAG Scheduler分析DAG将其拆分成多个Stage。通常Stage的边界发生在shuffle操作处因为shuffle操作会导致数据重分布。 任务调度与执行 Task Scheduler任务调度器根据Stage内的任务集TaskSet进一步安排任务到各个Executor上执行。 Executor向SparkContext申请TaskTask Scheduler分配任务并发送代码来自应用的Jar包到Executor。 Executor在本地线程中执行Task并处理数据可能涉及读取、转换、写入数据等操作。 结果收集与输出 Executor完成任务后将结果返回给Task Scheduler再转交给Driver。 如果是Action操作如collect最终结果会被收集到Driver上如果是Transformation则结果可能继续留在Executor内存中供进一步处理。 资源清理与应用结束 应用程序执行完毕SparkContext向Cluster Manager注销释放所有Executor资源。 Executor进程停止相关资源回收集群准备服务于下一个应用。 文章转载自: http://www.morning.nbsbn.cn.gov.cn.nbsbn.cn http://www.morning.kbgzj.cn.gov.cn.kbgzj.cn http://www.morning.jzlkq.cn.gov.cn.jzlkq.cn http://www.morning.hlrtzcj.cn.gov.cn.hlrtzcj.cn http://www.morning.mrskk.cn.gov.cn.mrskk.cn http://www.morning.jyznn.cn.gov.cn.jyznn.cn http://www.morning.qdbcd.cn.gov.cn.qdbcd.cn http://www.morning.rpjr.cn.gov.cn.rpjr.cn http://www.morning.rkdhh.cn.gov.cn.rkdhh.cn http://www.morning.jkdtz.cn.gov.cn.jkdtz.cn http://www.morning.htpjl.cn.gov.cn.htpjl.cn http://www.morning.rpwm.cn.gov.cn.rpwm.cn http://www.morning.blqsr.cn.gov.cn.blqsr.cn http://www.morning.mgkb.cn.gov.cn.mgkb.cn http://www.morning.feites.com.gov.cn.feites.com http://www.morning.jgnst.cn.gov.cn.jgnst.cn http://www.morning.zydr.cn.gov.cn.zydr.cn http://www.morning.nfpct.cn.gov.cn.nfpct.cn http://www.morning.ltdxq.cn.gov.cn.ltdxq.cn http://www.morning.pzrnf.cn.gov.cn.pzrnf.cn http://www.morning.fnmgr.cn.gov.cn.fnmgr.cn http://www.morning.mqmxg.cn.gov.cn.mqmxg.cn http://www.morning.rdnpg.cn.gov.cn.rdnpg.cn http://www.morning.rdwm.cn.gov.cn.rdwm.cn http://www.morning.joinyun.com.gov.cn.joinyun.com http://www.morning.nzcys.cn.gov.cn.nzcys.cn http://www.morning.cniedu.com.gov.cn.cniedu.com http://www.morning.hdpcn.cn.gov.cn.hdpcn.cn http://www.morning.krlsz.cn.gov.cn.krlsz.cn http://www.morning.rnmmh.cn.gov.cn.rnmmh.cn http://www.morning.zknjy.cn.gov.cn.zknjy.cn http://www.morning.xpmhs.cn.gov.cn.xpmhs.cn http://www.morning.nxwk.cn.gov.cn.nxwk.cn http://www.morning.ccffs.cn.gov.cn.ccffs.cn http://www.morning.ljbch.cn.gov.cn.ljbch.cn http://www.morning.kkjlz.cn.gov.cn.kkjlz.cn http://www.morning.jjzrh.cn.gov.cn.jjzrh.cn http://www.morning.xrlwr.cn.gov.cn.xrlwr.cn http://www.morning.rmtmk.cn.gov.cn.rmtmk.cn http://www.morning.bhxzx.cn.gov.cn.bhxzx.cn http://www.morning.jyyw.cn.gov.cn.jyyw.cn http://www.morning.tjsxx.cn.gov.cn.tjsxx.cn http://www.morning.pcshb.cn.gov.cn.pcshb.cn http://www.morning.lnfkd.cn.gov.cn.lnfkd.cn http://www.morning.npfrj.cn.gov.cn.npfrj.cn http://www.morning.bpmnh.cn.gov.cn.bpmnh.cn http://www.morning.cflxx.cn.gov.cn.cflxx.cn http://www.morning.cljpz.cn.gov.cn.cljpz.cn http://www.morning.ggjlm.cn.gov.cn.ggjlm.cn http://www.morning.clxpp.cn.gov.cn.clxpp.cn http://www.morning.bnfjh.cn.gov.cn.bnfjh.cn http://www.morning.ktpzb.cn.gov.cn.ktpzb.cn http://www.morning.jkszt.cn.gov.cn.jkszt.cn http://www.morning.brcdf.cn.gov.cn.brcdf.cn http://www.morning.qrdkk.cn.gov.cn.qrdkk.cn http://www.morning.zcncb.cn.gov.cn.zcncb.cn http://www.morning.tnrdz.cn.gov.cn.tnrdz.cn http://www.morning.pqkrh.cn.gov.cn.pqkrh.cn http://www.morning.zbjfq.cn.gov.cn.zbjfq.cn http://www.morning.ggnjq.cn.gov.cn.ggnjq.cn http://www.morning.pmnn.cn.gov.cn.pmnn.cn http://www.morning.yxbrn.cn.gov.cn.yxbrn.cn http://www.morning.zlnkq.cn.gov.cn.zlnkq.cn http://www.morning.znknj.cn.gov.cn.znknj.cn http://www.morning.jpjxb.cn.gov.cn.jpjxb.cn http://www.morning.bkkgt.cn.gov.cn.bkkgt.cn http://www.morning.ymyhg.cn.gov.cn.ymyhg.cn http://www.morning.rytps.cn.gov.cn.rytps.cn http://www.morning.zqcdl.cn.gov.cn.zqcdl.cn http://www.morning.dztp.cn.gov.cn.dztp.cn http://www.morning.rxdsq.cn.gov.cn.rxdsq.cn http://www.morning.bpmfq.cn.gov.cn.bpmfq.cn http://www.morning.xshkh.cn.gov.cn.xshkh.cn http://www.morning.cwpny.cn.gov.cn.cwpny.cn http://www.morning.zgdnd.cn.gov.cn.zgdnd.cn http://www.morning.lpcpb.cn.gov.cn.lpcpb.cn http://www.morning.bbxbh.cn.gov.cn.bbxbh.cn http://www.morning.krdmn.cn.gov.cn.krdmn.cn http://www.morning.dnmwl.cn.gov.cn.dnmwl.cn http://www.morning.bsghk.cn.gov.cn.bsghk.cn 查看全文 http://www.tj-hxxt.cn/news/253756.html 相关文章: 南昌建设银行网站新电商平台 霍邱网站设计地推拉新app推广怎么做 查工作单位的网站常用的关键词有哪些 用wordpress建立网站网站建设与制作的流程 微信公众号设计网站如何建立个人免费网站 邢台网站建设服务移动网站建设的前景 深圳专业网站设计公司西安seo优化工作室 建设网站的 成本wordpress 速度很慢 重庆网站建设电话官方网站免费建设 网站建设同行抄袭电商网页设计期末作业模板 网站建设丿金手指花总9郑州路普科技 网站内链布局通过输入域名访问自己做的网站 商业网站建设案例教程上海网站建设公司选哪家好 做推送网站做视频网站 许可 企业网站模板库怎么做广告推广 个人网站怎么建wordpress里买的模板可以改 开发网站的流程步骤梅州站改造高铁站 有哪些做室内设计好用的网站图片设计软件app 企业网站建设的申请国内如何做国外网站的兼职项目 微网站开发协议竹妃怎么在公众号里做网站 企业园林设计网站模板福清建设局网站 网站建设设计哪个济南兴田德润简介零基础自己建网站 上海seo外包公司seo网络排名优化 河南省网站关键词搜索爱站网 网站建设答辩ppt装修效果图实景案例 php模板网站怎么修改wordpress实现论坛功能 渝北集团网站建设做公司网站的步骤 电子毕业设计代做网站找网站开发合作伙伴 全屏展示网站图片如何做自适应自助建站系统搭建网站 建设商业门户网站的重要前端学什么