HDFS 从入门到精通：详解 Hadoop 分布式文件系统

2023-12-05 08:38:05

前言

HDFS（Hadoop 分布式文件系统）作为 Hadoop 生态系统的重要基石，为其提供强大而可靠的数据存储和处理能力。对于初学者而言，深入了解 HDFS 至关重要，它不仅有助于构建稳健的 Hadoop 应用程序，还为更深入理解 Hadoop 的整体架构奠定基础。

HDFS 体系架构

HDFS 采用主从式架构，由一个 NameNode 和多个 DataNode 组成。NameNode 负责管理 HDFS 中的所有文件和目录元数据，而 DataNode 则负责存储实际的数据块。这种分布式架构带来了高吞吐量、容错性和可扩展性。

数据写入流程

客户端写请求： 客户端应用程序将文件写入 HDFS 时，会向 NameNode 发起写请求。
NameNode 分配块： NameNode 根据文件大小和数据块大小将文件分成多个块，并为每个块分配一个 DataNode。
DataNode 接收块： 被分配块的 DataNode 将接收这些块并存储在本地。
数据副本： 为了确保数据可靠性，HDFS 复制数据块，默认情况下每个块有三个副本。
NameNode 更新元数据： NameNode 更新元数据以反映块的副本位置。

数据读取流程

客户端读请求： 客户端应用程序从 HDFS 读取文件时，会向 NameNode 发起读请求。
NameNode 定位块： NameNode 根据文件名查找文件元数据并返回存储块位置的 DataNode 列表。
客户端读取块： 客户端从离它最近的 DataNode 读取块，并根据副本策略在出现故障的情况下自动切换到其他 DataNode。
数据拼接： 客户端将从不同 DataNode 读取的块拼接起来，重新组装成原始文件。

编程示例

Java 写入示例

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);

Path path = new Path("/user/hdfs/input.txt");
FSDataOutputStream out = fs.create(path);

out.write("Hello, HDFS!".getBytes());
out.close();

Java 读取示例

Configuration conf = new Configuration();
FileSystem fs = FileSystem.get(conf);

Path path = new Path("/user/hdfs/input.txt");
FSDataInputStream in = fs.open(path);

byte[] buffer = new byte[1024];
int len = in.read(buffer);

while (len > 0) {
  System.out.println(new String(buffer, 0, len));
  len = in.read(buffer);
}

in.close();