HDFS分布式文件存储系统详解（架构和设计）

作者：hangge | 2024-06-24 08:27

1，HDFS 的起源

（1）HDFS 源于 Google 在 2003 年 10 月份发表的论文 The Google File System（GFS），它其实就是 GFS 的一个开源简化版本。

（2）HDFS 属于 Hadoop 项目中的核心组件，主要负责海量数据存储。

（3）Hadoop 重要版本的发展历程如下，目前在企业中常用的版本是 2.x 和 3.x。

0.x 是 Hadoop 当中最早的一个开源版本，在此基础上演变而来的 1.x 以及 2.x 的版本
1.x 版本系列：Hadoop版本当中的第二代开源版本，主要修复 0.x 版本的一些 bug 等
2.x 版本系列：架构产生重大变化，引入了 yarn 平台等许多新特性；HDFS 最多支持两个 NameNode（一主一备）；
3.x 版本系列：最低运行时版本修订为 Java 8，最大改变的是 hdfs，包括 HDFS 支持数据的擦除编码，HDFS 支持多个 NameNode（一主多备）等

2，HDFS 的原理

（1）HDFS 是一种允许文件通过网络在多台主机上分享的分布式文件系统，可以让多台机器上的多个用户分享文件和存储空间。

（2）HDFS 的典型使用场景是“一次写入，多次读取”。一个文件被创建、写入及关闭之后，其中的内容就不会改变了。

（3）HDFS 是一种适合大文件存储的分布式文件系统，它不适合存储小文件。

提示：5KB、10MB 之类的文件可以被认为是小文件

（4）在向 HDFS 中存储文件时，客户端负责将文件切分成 Block（数据块）。Block 的大小默认是 128MB （在 Hadoop 1.x 版本中默认是 64MB，在 Hadoop 2.x 和 3.x 版本中默认是 128MB）。即在向 HDFS 中存储文件时，只要文件大小超过 128MB，就会被切分成多个 Block；如果一个文件不够 128MB，默认只产生 1 个 Block。

注意：如果 1 个文件只有 10MB，最终只会产生 1 个 Block，这个 Block 并不会占用 128MB 的磁盘空间，它会根据自身的实际大小占用相应的磁盘空间。

3，HDFS 分布式文件系统的优点

通透性：通过网络访问文件的动作，在程序与用户看来就像是在访问本地磁盘。
高容错性：即使系统中某些节点宕机，整体来说系统仍然可以持续运作而不会丢失数据。因为 HDFS 中的数据会保存多个副本（默认 3 份），且提供了容错机制，副本丢失也可以自动恢复。
性价比高：可以运行在大量的廉价机器上，节约成本。

4，HDFS 分布式文件系统的缺点

不适合低延时数据访问：数据延时比较高，无法支持“毫秒”级别的数据存储。
不适合小文件存储：HDFS 的主节点（NameNode）的内存是有限的，每个 Block 对应的元数据信息都会在 NameNode 中占用 150 byte 的内存空间。1 个 1MB 的文件对应 1 个 Block，会占用 150 byte。1 个 128MB 的文件也对应 1 个 Block，也只会占用 150 byte。所以，存储大量小文件就没有意义了，这违背了 HDFS 的设计理念。
不支持文件并发写入和随机修改：1 个文件同时只能有 1 个线程执行写操作，不允许多个线程同时执行写操作。只支持对文件执行追加操作，不支持对文件执行随机修改操作。

5，HDFS 架构分析

（1）以 Hadoop 3.x 版本为例，HDFS 集群支持主从结构，包括主节点和从节点。

主节点上运行的是 NameNode 进程。一般把主节点称为 NameNode 节点。HDFS 集群中支持 1 个或者多个 NameNode 节点。
从节点上运行的是 DataNode 进程。一般把从节点称为 DataNode 节点。HDFS 集群中支持 1 个或者多个 DataNode 节点。
HDFS 集群中还包含 1 个 SecondaryNameNode 进程，从字面意思上来理解它是“第 2 个 NameNode”的意思，其实并不是。

（2）这 3 种角色（进程）的工作职责如下：

NameNode：文件系统的管理节点，它主要维护整个文件系统的元数据，包括文件目录树、文件/目录的信息，以及每个文件对应的 Block 列表等。
SecondaryNameNode：辅助 NameNode 工作，定期合并 NameNode 的元数据信息（Fsimage 和 Edits），然后推送给 NameNode。
DataNode：文件系统的数据节点，提供真实文件数据（Block）的存储服务。

附一：HDFS 的高可用（HA）

1，HA 实现原理

（1）HDFS 的 HA（High Available），指的是在一个集群中存在多个 NameNode，分别运行在独立的物理节点上。在任何时间点，只有一个 NameNode 是处于 Active 状态，其它的是处于 Standby 状态。 Active NameNode（简写为 Active NN）负责所有的客户端的操作，而 Standby NameNode（简写为 Standby NN）用来同步 Active NameNode 的状态信息，以提供快速的故障恢复能力。

注意:使用 HA 的时候，不能启动 SecondaryNameNode，会出错。之前是 SecondaryNameNode 负责合并 edits 到 fsimage 文件，那么现在这个工作被 standby NN 负责了。

（2）为了保证 Active NN 与 Standby NN 节点状态同步，即元数据保持一致。除了 DataNode 需要向这些 NameNode 发送 block 位置信息外，还构建了一组独立的守护进程“JournalNodes”（简写为 JN），用来同步 Edits 信息。

当 Active NN 执行任何有关命名空间的修改，它需要持久化到一半以上的 JNs 上。
而 Standby NN 负责观察 JNs 的变化，读取从 Active NN 发送过来的 Edits 信息，并更新自己内部的命名空间。
一旦 Active NN 遇到错误，Standby NN 需要保证从 JNs 中读出了全部的 Edits，然后切换成 Active 状态，如果有多个 Standby NN，还会涉及到选主的操作，选择一个切换为 Active 状态。

2，如何使元数据保持一致？

（1）为了保证 Active NN 与 Standby NN 节点状态同步，即元数据保持一致。这里的元数据包含两块，一个是静态的，一个是动态的。

（2）静态的是 fsimage 和 edits，其实 fsimage 是由 edits 文件合并生成的，所以只需要保证 edits 文件内容的一致性。这个就是需要保证多个 NameNode 中 edits 文件内容的事务性同步。这块的工作是由 JournalNodes 集群进行同步的。

（3）动态数据是指 block 和 DataNode 节点的信息。当 DataNode 启动的时候，上报数据信息的时候需要向每个 NameNode 都上报一份。这样就可以保证多个 NameNode 的元数据信息都一样了，当一个 NameNode down 掉以后，立刻从 Standby NN 中选择一个进行接管，没有影响，因为每个 NameNode 的元数据时刻都是同步的。

3，NameNode 切换方式

（1）NameNode 切换可以自动切换，也可以手工切换。如果想要实现自动切换，需要使用到 zookeeper 集群。

（2）使用 zookeeper 集群自动切换的原理是这样的：当多个 NameNode 启动的时候会向 zookeeper 中注册一个临时节点，当 NameNode 挂掉的时候，这个临时节点也就消失了，这属于 zookeeper 的特性。这个时候，zookeeper 就会有一个 watcher 监视器监视到，就知道这个节点 down 掉了，然后会选择一个节点转为 Active，把 down 掉的节点转为 Standby。

附二：HDFS 的高扩展（Federation）

1，HDFS Federation 作用

（1）HDFS Federation 可以解决单一命名空间存在的问题，使用多个 NameNode，每个 NameNode 负责一个命令空间。

（2）这种设计可提供以下特性：

HDFS 集群扩展性：多个 NameNode 分管一部分目录，使得一个集群可以扩展到更多节点，不再因内存的限制制约文件存储数目。
性能更高效：多个 NameNode 管理不同的数据，且同时对外提供服务，将为用户提供更高的读写吞吐率。
良好的隔离性：用户可根据需要将不同业务数据交由不同 NameNode 管理，这样不同业务之间影响很小。

2，Federation 与 HA 结合

（1）通常来说 Federation 一般会和前面的 HA 结合起来使用。比如下面架构用到了 4 个 NameNode 和 6 个 DataNode：

NN-1、NN-2、NN-3、NN-4
DN-1、DN-2、DN-3、DN-4、DN-5、DN-6

（2）它们作用如下：

其中 NN-1、和 NN-3 配置了 HA，提供了一个命令空间 /share，其实可理解为一个顶级目录
NN-2 和 NN-4 配置了 HA，提供了一个命名空间 /user

（3）这样后期我们存储数据的时候，就可以根据数据的业务类型来区分是存储到 share 目录下还是 user 目录下，此时 HDFS 的存储能力就是 /share和 /user 两个命名空间的总和了。

附三：常见的分布式文件系统

（1）目前行业内除 HDFS 这个分布式文件系统外，还有 GFS、TFS、S3 等分布式文件系统：

（2）这些分布式文件系统具备不同的特点，适用于不同的应用场景。

GFS：全称是 Google File System，是 Google 公司为了存储海量搜索数据而设计的专用文件系统。它适合存储海量大文件，支持多客户端并发写入同一个文件。
HDFS：全称是 Hadoop Distributed File System，属于 Hadoop 的组件，Apache 的顶级开源项目。HDFS 的设计参考了 GFS，可以认为它是 GFS 的简化开源版本。它适合存储海量大文件，不支持多客户端并发写入同一个文件。
TFS：全称是 Taobao File Systerm，是淘宝团队开源的分布式文件系统。它作为淘宝内部使用的分布式文件系统，对于海量小文件的随机读写访问性能做了特殊优化，适合存储海量小文件。
S3：全称是 Simple Storage Service（简单存储服务），是亚马逊提供的云存储解决方案。它是收费的，可以实现海量数据存储。

大数据