CGFT大数据,什么是冗余数据的保存?
2020-10-11
1198
在CGFT大数据中,冗余数据的保存是很重要的知识点。对于熟练的掌握程度,对于考试起着至关重要的作用。
作为一个分布式文件系统,为了保 证系统的容错性和可用性,HDFS采用了多副本方式对数据进行冗余存储。
通常一个数据块的多个副本会被分不到不同的数据接单上,如下图所示,数据块1被分别存放到数据节点A和C上,数据块2被存放在数据节点A和B上。
这种多副本方式具有以下几个优点:
1、加快数据传输速度
当多个客户端需要同时访问同一个文件时,可以让多个客户端分别从不同的数据块副本中读取数据,这就大大加快了数据传输速度。
2、容易检查数据错误
HDFS的数据节点之间通过网络传输数据,采用多个副本可以很容易饿判断数据传输是否出错。
3、保 证数据的可靠性
即使某个数据节点出现故障失效,也不会造成数据丢失。