深入浅出：HDFS 写过程剖析

2023-10-16 21:38:45

写，这一看似简单的操作，在分布式文件系统 HDFS 背后却是一段曲折离奇的旅程。今天，我们就踏上这场探险，揭开 HDFS 写过程的神秘面纱。

DFSOutputStream：旅程的起点

打开一个 HDFS 输出流 DFSOutputStream，就如同开启了一扇通往 HDFS 写入机制的大门。数据通过这个流源源不断地涌入，被小心翼翼地封装进一个个 64KB 的数据包中，我们称之为 Packet。每个 Packet 就像一个微型容器，承载着数据在 HDFS 中穿梭。

管道：数据高速公路

Packet 并不直接被写入 HDFS，而是被推入一条高速管道——Pipeline。这条管道由一组 DataNode 组成，它们就像一个个中继站，负责将数据高效地传输到最终目的地。每当一个 Packet 被推入管道时，它都会被依次传递给这些 DataNode，每个 DataNode 都会对数据进行存储和校验，以确保数据完整性和可靠性。

副本：多重保障

为了确保数据的安全，HDFS 会为每个数据块创建多个副本，这些副本被分散存储在不同的 DataNode 上。这样一来，即使某个 DataNode 发生故障，数据也不会丢失，因为其他副本仍然存在。副本数量由副本系数决定，副本系数越大，数据的安全性就越高。

文件系统元数据：HDFS 的大脑

HDFS 文件系统元数据记录了 HDFS 中所有文件和目录的信息，包括文件大小、块大小、副本数等。这个元数据由 NameNode 管理，它就像 HDFS 的大脑，负责协调整个文件系统的操作。

写入过程剖析