MapReduce 的工作流程剖析，助力理解 Hadoop

2024-01-06 00:11:42

MapReduce 的工作流程可以分为以下几个步骤：

输入数据准备 ：首先，需要将要处理的数据集划分为多个块（block），每个块的大小通常为 64MB 或 128MB。然后，将这些数据块存储在分布式文件系统（如 HDFS）中。
Map 任务 ：Map 任务是 MapReduce 计算的核心。Map 任务会将输入数据块映射成一系列键值对。例如，如果我们要统计一个文本文件中的单词频次，那么 Map 任务会将每个单词映射成一个键值对，其中键是单词本身，值是单词出现的次数。
Shuffle 和 Sort ：在 Map 任务完成之后，需要对中间结果进行 Shuffle 和 Sort 操作。Shuffle 操作是指将具有相同键的键值对聚集到一起。Sort 操作是指将具有相同键的键值对按键进行排序。
Reduce 任务 ：Reduce 任务是 MapReduce 计算的最后一个阶段。Reduce 任务会将 Shuffle 和 Sort 后的中间结果聚合起来，形成最终的结果。例如，在单词频次统计的例子中，Reduce 任务会将具有相同单词的键值对聚合起来，并计算每个单词出现的总次数。
输出结果 ：最后，将 Reduce 任务的结果输出到指定的位置，例如 HDFS 或关系型数据库中。