泉州网站建设定制,什么页游好玩,网络科技公司名字取名大全,办公室装修公司哪家好Hadoop入门
Hadoop四高
1#xff09;高可靠性
Hadoop底层维护多个数据副本#xff0c;所有即使hadoop某个计算元素或存储故障#xff0c;也不会造成数据丢失
2#xff09;高扩展性
在集群间分配任务数据#xff0c;可方便的扩展数以千计的节点
3#xff09;高效性 …Hadoop入门
Hadoop四高
1高可靠性
Hadoop底层维护多个数据副本所有即使hadoop某个计算元素或存储故障也不会造成数据丢失
2高扩展性
在集群间分配任务数据可方便的扩展数以千计的节点
3高效性
在mapreduce的思想下Hadoop是可以并行工作的以加快任务处理的速度。
4高容错性
能够自动将失败的任务重新分配
HDFS缺点
1不适合低延迟数据访问比如毫秒级的存储数据它做不到
2无法高效对大量小文件进行存储
存储大量小文件他会占用大量的NameNode大量的内存来存储文件目录和快信息。这样是不可取的因为NameNode内存是有限的
小文件的寻址时间会超过读取时间违反了HDFS的设计目标
3不支持并发写入、文件随机修改
一个文件只能有一个写不允许多个线程同时写
仅支持数据追加append不支持文件的随机修改
Hadoop组成
Hadoop1.x阶段
HDFS数据存储、MapReduce计算资源调度、Common辅助工具
1.x时期mr需要同时处理业务逻辑运算又要资源调度压力大耦合度大。
Hadoop2.x阶段
HDFS数据存储、MapReduce计算、YARN资源调度、Common辅助工具
Hadoop3.x阶段无变化
Hadoop集群包括两个HDFS集群、YARN集群两个集群逻辑上分离、通常物理上是在一起的两个集群都是标准的主从架构的集群
Hadoop架构
HDFS 集群
主角色NameNodeNN是Master它是管理者
存储文件元数据如文件名、文件目录结构、文件属性以及每个文件块列表、块所在DataNode等 管理HDFS的名称空间 配置副本策略 处理客户端读写请求
从角色DataNodeDN 是SlaveDataNode执行实际的操作
在本地文件系统存储文件块数据和读写数据块以及数据的校验和
主角色辅助角色SecondaryNameNodeSNN 相当于主角色的秘书
该节点并非NameNode的热备节点。当NameNode挂掉时它并不能马上替换NameNode并提供服务
它只辅助NameNode分担NameNode工作量比如定期合并Fsimage和Edits并推送给NameNode
每个一段时间对NameNode元数据做备份 紧急情况下可辅助恢复NameNode
Client客户端
1文件切片。文件上传HDFS时Client将文件分成一个个block然后进行上传
2与NameNode交互获取文件的位置信息
3与DataNode交互读取或写入信息
4Client提供了一些命名来管理HDFS比如NameNode格式化
5Client可以通过一些命名来访问HDFS比如对HDFS增删改查等操作
YARN集群
主角色ResourceManagerRM
整个集群资源cpu、内存等的老大
从角色NodeManagerNM
单个节点服务器资源的老大
ApplicationMasterAM
单个任务运行的老大
Container
容器相当于一台独立的服务器里面封装了任务运行时所需资源内存、cpu、磁盘、网络等
注集群上可以有很多ApplicationMaster每个NodeManager上可以有多个Container
Hadoop特征优点
扩容能力ScalableHadoop是在可用的计算机集群间分配数据并完成计算任务的这些集群可用方便的扩展到数以千计的节点中。
成本低EconomicalHadoop通过普通廉价的机器组成服务器集群来分发以及处理数据以至于成本很低。
高效率Efficient通过并发数据Hadoop可以在节点之间动态并行的移动数据使得速度非常快。
可靠性Rellable能自动维护数据的多份复制并且在任务失败后能自动地重新部署redeploy计算任务。所以Hadoop的按位存储和处理数据的能力值得人们信赖。