本文介绍: HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统具有高容错、高吞吐量特性可以部署在低成本的硬件上。

一、介绍

HDFS (Hadoop Distributed File System)是 Hadoop 下的分布式文件系统具有高容错、高吞吐量特性可以部署在低成本的硬件上。

二、HDFS设计原理

2.1 HDFS 架构

HDFS 遵循主/从架构,由单个 NameNode(NN) 和多个 DataNode(DN) 组成:

在这里插入图片描述
注:

2.2 数据复制

为了保证容错性,HDFS 提供了数据复制机制。HDFS 将每一个文件存储为一系列block,每个块由多个副本来保证容错,块的大小复制因子可以自行配置默认情况下,块大小是 128M,默认复制因子是 3)
在这里插入图片描述

复制的实现原理

大型的 HDFS 实例在通常分布在多个机架的多台服务器上。在大多数情况下,同一机架中服务器间的网络带宽大于不同机架中服务器之间的带宽。因此 HDFS 采用机架感知副本放置策略,对于常见情况,当复制因子为 3 时,HDFS 的放置策略是:

策略可以减少机架间的写入流量,从而提高写入性能
在这里插入图片描述
注意:同一个 dataNode 上不允许有同一个块的多个副本

三、HDFS的特点

四、图解HDFS存储原理

下图引用博客翻译经典 HDFS 原理讲解漫画

1. 写过程

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

2. 读过程

在这里插入图片描述

3. HDFS故障类型和其检测方法

故障类型和其检测方法

在这里插入图片描述
在这里插入图片描述

读写故障处理

在这里插入图片描述

DataNode 故障处理

在这里插入图片描述

副本布局策略

在这里插入图片描述

发表回复

您的邮箱地址不会被公开。 必填项已用 * 标注