一个网站的构建,TP5.1做的网站首页被挂马原因,手机自助建站免费建站平台,上饶做网站要多少钱随着大数据技术的发展#xff0c;HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性#xff0c;HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本#xff0c;1TB的原始数据需要占用3TB的磁盘空间#xff0c;存储利用率只有1/3。而且系统中大部分… 随着大数据技术的发展HDFS作为Hadoop的核心模块之一得到了广泛的应用。为了数据的可靠性HDFS通过多副本机制来保证。在HDFS中的每一份数据都有两个副本1TB的原始数据需要占用3TB的磁盘空间存储利用率只有1/3。而且系统中大部分是使用频率非常低的冷数据却和热数据一样存储3个副本给存储空间和网络带宽带来了很大的压力。因此在保证可靠性的前提下如何提高存储利用率已成为当前HDFS面对的主要问题之一。Hadoop 3.0 引入了纠删码技术Erasure Coding它可以提高50%以上的存储利用率并且保证数据的可靠性。纠删码是采用计算的方法来维持数据的一致性并用解方程的方法对数据进行恢复容忍一定的误差。 概念
Reed-SolomonRS码是存储系统较为常用的一种纠删码它有两个参数k和m记为RS(km)。如下图所示k个数据块组成一个向量被乘上一个生成矩阵Generator MatrixGT从而得到一个码字codeword向量该向量由k个数据块和m个校验块构成。如果一个数据块丢失可以用(GT)-1乘以码字向量来恢复出丢失的数据块。RS(km)最多可容忍m个块包括数据块和校验块丢失。
基本原理
容忍度
冗余符号的个数可以人为指定
数据的生成
把输入数据视为向量D(D1D2…, Dn, 编码后数据视为向量D1, D2,…, Dn, C1, C2,…, Cm)RS编码可视为如下图所示矩阵运算。 上图最左边是编码矩阵或称为生成矩阵、分布矩阵Distribution Matrix编码矩阵需要 满足任意n*n子矩阵可逆。 为方便数据存储编码矩阵上部是单位阵n行n列下部是m行n列矩阵。下部矩阵可以选择范德蒙德矩阵或柯西矩阵。 这里我们假设7和50丢失了 下方是恢复的过程很简单解一个方程组就行。 7 x
50 y
x 2*8 3 * 9 y
4x 5*8 6 * 9 122数据的恢复
采用高斯消元的方法我们来看一个具体的例子。