CGFT大数据,数据存取策略主要包含什么?

2020-10-13
482

在学习CGFT大数据时,数据存储策略主要包含哪些内容是很重要的。下文是对它的详细介绍,一起了解一下!

数据存储策略包括数据存放、数据读取和数据复制等方面,它在很大程度上会影响到整个分布式文件系统的读写性能,是分布式文件系统的核心内容。

1、数据存放

为了提高数据的可靠性与系统的可用性,以及充分利用网络宽带,HDFS采用了以机架为基础的数据存放策略。

2、数据读取

HDFS提供了一个API可以确定一个数据节点所属的机架ID,客户端也可以调用API获取自己所属的机架ID。


特许全球金融科技师CGFT一级

当客户端读取数据时,从名称节点获得数据块不同副本的存放位置列表,列表中包含了副本所在的数据节点,可以调用API来确定客户端和这些数据节点所属的机架ID,当发现某个数据块副本对应的机架ID和客户端对应的机架ID相同时,就优先选择该副本读取数据,如果没有发现,就随机选择一个副本读取数据。


3、数据复制

HDFS的数据复制采用了流水线复制的策略,大大提高了数据复制过程的效率。当客户端要往HDFS中写入一个文件时,这个文件会首先被写入本地,并被切分成若干个块,每个块的大小是由HDFS的设定值来决定的。

每个块都向HDFS集群中的名称节点发起写请求,名称节点会根据系统中各个数据节点的使用情况,选择一个数据节点列表返回给客户端。

↑上一篇:CGFT:HDFS体系结构包含什么? ↓下一篇:CGFT:美联储的实际力量介绍!