从零到一剖析 HDFS 核心机制

2024-01-15 04:37:08

引言

大数据时代的到来，催生了海量数据的存储需求。Hadoop 分布式文件系统 (HDFS) 作为 Hadoop 生态系统的重要组成部分，以其高可靠性、高容错性、高吞吐量等特性，在处理海量数据方面发挥着不可替代的作用。本文将带领读者从零开始，深入剖析 HDFS 的核心机制，领略其背后的设计思想和实现原理。

1. HDFS 架构

HDFS 采用主从架构，由一个 NameNode 和多个 DataNode 组成。其中，NameNode 负责管理元数据，即文件系统目录结构和文件块的地址映射关系；而 DataNode 负责存储和管理数据块。

2. 数据存储

HDFS 将数据划分为固定大小的块（默认 128MB），并以块为单位进行存储和管理。数据块通常存储在不同的 DataNode 上，以实现数据的冗余备份。冗余副本的数量可由用户配置，默认为 3，即每个块在不同的 DataNode 上存储 3 个副本。

3. 数据读取

当客户端需要读取文件时，会首先向 NameNode 请求文件的元数据。NameNode 返回文件块的地址映射关系，客户端再向相应的 DataNode 发起读取请求。由于数据块可能分散存储在不同的 DataNode 上，HDFS 采用流式传输机制，从多个 DataNode 并行读取数据，以提高读取速度。

4. 数据写入

当客户端需要写入文件时，会向 NameNode 请求文件块分配。NameNode 分配一个新的块 ID，并返回该块在不同 DataNode 上的存储位置。客户端将数据块分别写入到这些 DataNode 上，并向 NameNode 报告写入成功。

5. 容错机制

HDFS 的容错性主要体现在以下两个方面：

数据块冗余： 通过将数据块存储在多个 DataNode 上，当某个 DataNode 发生故障时，可以从其他 DataNode 获取副本进行恢复。
NameNode 冗余： HDFS 支持部署多个 NameNode，并通过 ZooKeeper 实现主备切换，当主 NameNode 故障时，可以自动切换到备 NameNode，避免单点故障。

6. 扩展性

HDFS 的扩展性主要体现在以下两个方面：