CGFT大数据,数据存取策略主要包含什么?
2020-10-13
1186
在学习CGFT大数据时,数据存储策略主要包含哪些内容是很重要的。下文是对它的详细介绍,一起了解一下!
数据存储策略包括数据存放、数据读取和数据复制等方面,它在很大程度上会影响到整个分布式文件系统的读写性能,是分布式文件系统的核心内容。
1、数据存放
为了提高数据的可靠性与系统的可用性,以及充分利用网络宽带,HDFS采用了以机架为基础的数据存放策略。
2、数据读取
HDFS提供了一个API可以确定一个数据节点所属的机架ID,客户端也可以调用API获取自己所属的机架ID。
3、数据复制
HDFS的数据复制采用了流水线复制的策略,大大提高了数据复制过程的效率。当客户端要往HDFS中写入一个文件时,这个文件会首先被写入本地,并被切分成若干个块,每个块的大小是由HDFS的设定值来决定的。
每个块都向HDFS集群中的名称节点发起写请求,名称节点会根据系统中各个数据节点的使用情况,选择一个数据节点列表返回给客户端。