当前位置: 首页 > news >正文

中山网站建设方案外包请人做网站收费

中山网站建设方案外包,请人做网站收费,十大app黄皮软件排行榜,室内装潢设计专业培训【大家好#xff0c;我是爱干饭的猿#xff0c;本文重点介绍Spark的定义、发展、扩展阅读#xff1a;Spark VS Hadoop、四大特点、框架模块、运行模式、架构角色。 后续会继续分享其他重要知识点总结#xff0c;如果喜欢这篇文章#xff0c;点个赞#x1f44d;#xff…【大家好我是爱干饭的猿本文重点介绍Spark的定义、发展、扩展阅读Spark VS Hadoop、四大特点、框架模块、运行模式、架构角色。 后续会继续分享其他重要知识点总结如果喜欢这篇文章点个赞关注一下吧】 上一篇文章《【YOLOv5入门】目标检测》 1. Spark 框架概述 1.1 Spark 是什么 定义Apache Spark是用于大规模数据large-scala data处理的统一unified分析引擎。 Spark 最早源于一篇论文 Resilient Distributed Datasets: A Fault-Tolerant Abstraction for In-Memory Cluster Computing该论文是由加州大学柏克莱分校的 Matei Zaharia 等人发表的。论文中提出了一种弹性分布式数据集即 RDD的概念。 翻译过来就是RDD 是一种分布式内存抽象其使得程序员能够在大规模集群中做内存运算并且有一定的容错方式。而这也是整个 Spark 的核心数据结构Spark 整个平台都围绕着RDD进行。 简而言之Spark 借鉴了 MapReduce 思想发展而来保留了其分布式并行计算的优点并改进了其明显的缺陷。让中间数据存储在内存中提高了运行速度、并提供丰富的操作数据的API提高了开发速度。 为什么是统一分析引擎 Spark是一款分布式内存计算的统一分析引擎。 其特点就是对任意类型的数据进行自定义计算。 Spark可以计算结构化、半结构化、非结构化等各种类型的数据结构同时也支持使用Python、Java、Scala、R以及SQL语言去开发应用 程序计算数据。 Spark的适用面非常广泛所以被称之为 统一的适用面广的分析引擎数据处理 1.2 Spark风雨十年 Spark 是加州大学伯克利分校AMP实验室Algorithms Machines and People Lab开发的通用大数据处理框架。 Spark的发展历史经历过几大重要阶段如下图所示 1.3 扩展阅读Spark VS Hadoop Spark和前面学习的Hadoop技术栈有何区别呢 尽管Spark相对于Hadoop而言具有较大优势但Spark并不能完全替代Hadoop 在计算层面Spark相比较MRMapReduce有巨大的性能优势但至今仍有许多计算工具基于MR构架比如非常成熟的HiveSpark仅做计算而Hadoop生态圈不仅有计算MR也有存储HDFS和资源管理调度YARNHDFS和YARN仍是许多大数据体系的核心架构。 面试题Hadoop的基于进程的计算和Spark基于线程方式优缺点 答案Hadoop中的MR中每个map/reduce task都是一个java进程方式运行好处在于进程之间是互相独立的每个task独享进程资源没有互相干扰监控方便但是问题在于task之间不方便共享数据执行效率比较低。比如多个map task读取不同数据源文件需要将数据源加 载到每个map task中造成重复加载和浪费内存。而基于线程的方式计算是为了数据共享和提高执行效率Spark采用了线程的最小的执行单位但缺点是线程之间会有资源竞争。 1.4 Spark 四大特点 1. 速度快 由于Apache Spark支持内存计算并且通过DAG有向无环图执行引擎支持无环数据流所以官方宣称其在内存中的运算速度要比Hadoop的MapReduce快100倍在硬盘中要快10倍。 Spark处理数据与MapReduce处理数据相比有如下两个不同点 其一、Spark处理数据时可以将中间处理结果数据存储到内存中其二、Spark 提供了非常丰富的算子(API), 可以做到复杂任务在一个Spark 程序中完成. 2. 易于使用 Spark 的版本已经更新到 Spark 3.2.0截止日期2021.10.13支持了包括 Java、Scala、Python 、R和SQL语言在内的多种语言。为了兼容Spark2.x企业级应用场景Spark仍然持续更新Spark2版本。 3. 通用性强 在 Spark 的基础上Spark 还提供了包括Spark SQL、Spark Streaming、MLib 及GraphX在内的多个工具库我们可以在一个应用中无缝地使用这些工具库。 4. 运行方式 Spark 支持多种运行方式包括在 Hadoop 和 Mesos 上也支持 Standalone的独立运行模式同时也可以运行在云KubernetesSpark 2.3开始支持上。 对于数据源而言Spark 支持从HDFS、HBase、Cassandra 及 Kafka 等多种途径获取数据。 1.5 Spark 框架模块-了解 整个Spark 框架模块包含Spark Core、 Spark SQL、 Spark Streaming、 Spark GraphX、 Spark MLlib而后四项的能力都是建立在核心引擎之上 Spark CoreSpark的核心Spark核心功能均由Spark Core模块提供是Spark运行的基础。Spark Core以RDD为数据抽象提供Python、Java、Scala、R语言的API可以编程进行海量离线数据批处理计算。SparkSQL基于SparkCore之上提供结构化数据的处理模块。SparkSQL支持以SQL语言对数据进行处理SparkSQL本身针对离线计算场景。同时基于SparkSQLSpark提供了StructuredStreaming模块可以以SparkSQL为基础进行数据的流式计算。SparkStreaming以SparkCore为基础提供数据的流式计算功能。MLlib以SparkCore为基础进行机器学习计算内置了大量的机器学习库和API算法等。方便用户以分布式计算的模式进行机器学习计算。GraphX以SparkCore为基础进行图计算提供了大量的图计算API方便用于以分布式计算模式进行图计算。 1.6 Spark 运行模式 Spark提供多种运行模式包括 本地模式单机 本地模式就是以一个独立的进程通过其内部的多个线程来模拟整个Spark运行时环境Standalone模式集群 Spark中的各个角色以独立进程的形式存在并组成Spark集群环境Hadoop YARN模式集群 Spark中的各个角色运行在YARN的容器内部并组成Spark集群环境Kubernetes模式容器集群 Spark中的各个角色运行在Kubernetes的容器内部并组成Spark集群环境云服务模式运行在云平台上 1.7 Spark 架构角色 1. YARN角色回顾 YARN主要有4类角色从2个层面去看 资源管理层面 集群资源管理者MasterResourceManager单机资源管理者WorkerNodeManager 任务计算层面 单任务管理者MasterApplicationMaster单任务执行者WorkerTask容器内计算框 架的工作角色 2. Spark运行角色 Spark中由4类角色组成整个Spark的运行时环境 Master角色,管理整个集群的资源 - 类比与YARN的ResouceManagerWorker角色,管理单个服务器的资源 - 类比于YARN的NodeManagerDriver角色,管理单个Spark任务在运行的时候的工作 - 类比于YARN的ApplicationMasterExecutor角色,单个任务运行的时候的一堆工作者,干活的 - 类比于YARN的容器内运行的TASK 从2个层面划分: 资源管理层面: 管理者: Spark是Master角色YARN是ResourceManager工作中: Spark是Worker角色YARN是NodeManager 从任务执行层面: 某任务管理者: Spark是Driver角色YARN是ApplicationMaster某任务执行者: Spark是Executor角色YARN是容器中运行的具体工作进程。 本篇文章内容摘自-黑马程序员
http://www.tj-hxxt.cn/news/133674.html

相关文章:

  • 企业网站建设课件学习怎么做网站
  • 重庆网站推广 软件oppo自带软件商店下载
  • 做餐饮在环保局网站备案综合网站建设
  • 免费在线观看韩国电视剧网站推荐北滘禅城网站建设
  • 校园网站建设教程视频怎么做一网站
  • 论述网站建设的主要步骤内容平台策划书
  • 西安优化网站公司做网站的中文名字
  • 地方门户网站制作维影企业网站管理系统
  • 免费信息推广网站一键生成ppt
  • 微网站建设价格对比营销网站建设制作设计
  • 怎么用ps做静态网站tag做的最好的网站
  • 电子商务网站建设的流程服务器网站建设维护合同
  • 汕头响应式网站背景网站建设公司
  • 网站建设w亿码酷1流量订制竞价推广什么意思
  • 网站建设与网络推广计算机大二建设网站
  • 推荐做网站的公司张家界做网站
  • 东莞沙田门户网站建设免费字体网站
  • 没有域名做网站旅行网站设计
  • 如何做单位网站静态网站案例
  • 南充手机网站建设wordpress 无法升级
  • 惠州网站建设米普可思seo排名点击器
  • 评论网站建设安徽合肥做网站的公司有哪些
  • 做网站cookie传值哪个网站可以做全网推广
  • 河南省建设厅网站资质平移办法linux网站开发软件
  • 高校网站建设评比标准网站的建设服务平台
  • 做前后端网站教程wordpress 伪支付宝
  • 做设计有哪些好用的素材网站有哪些推广链接跳转
  • 微信网站建设公司上市公司集团网站建设
  • 怎样创建网站视频中国人寿寿险保险公司官方网站
  • 免费做全网解析电影网站赚钱南京做网站引流的公司