无代码搭建Hadoop，解锁词频统计！

后端

2023-10-17 18:13:47

Hadoop 大数据处理：深入浅出构建工程并实现词频统计

为什么选择 Maven？

在构建 Java 项目时，Maven 凭借其高效和便捷性脱颖而出。它不仅可以管理依赖项，构建项目，还可以生成文档，大大简化了开发流程。对于 Hadoop 工程而言，Maven 更是一名不可或缺的助手。

搭建 Hadoop 工程

创建 Maven 项目

打开你的 IDE（如 IDEA），创建一个新的 Maven 项目。在 "GroupId" 中填写你的包名（例如com.example），在 "ArtifactId" 中填写项目名称（例如hadoop-project）。

添加 Hadoop 依赖项

在 pom.xml 文件中，添加以下依赖项：

<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-common</artifactId>
  <version>3.1.3</version>
</dependency>
<dependency>
  <groupId>org.apache.hadoop</groupId>
  <artifactId>hadoop-mapreduce-client-core</artifactId>
  <version>3.1.3</version>
</dependency>

编写 Java 代码

创建一个 Java 类（例如 WordCount.java），编写词频统计的逻辑代码。

打包运行

在 IDE 中，右键单击项目，选择 "Run"->"Run 'maven build'"。打包完成后，执行命令 "hadoop jar target/hadoop-project-1.0-SNAPSHOT.jar com.example.hadoop.WordCount input output"。

实现词频统计

在 WordCount.java 中，实现 MapReduce 的词频统计逻辑。首先，Mapper 类负责将输入数据（文本文件）中的单词解析出来，并输出单词和频次对；然后，Reducer 类负责汇总每个单词的频次，并输出最终结果。

代码示例

// Mapper 类
public class WordCountMapper extends Mapper<Object, Text, Text, IntWritable> {

  @Override
  public void map(Object key, Text value, Context context) throws IOException, InterruptedException {
    StringTokenizer tokenizer = new StringTokenizer(value.toString());
    while (tokenizer.hasMoreTokens()) {
      String word = tokenizer.nextToken();
      context.write(new Text(word), new IntWritable(1));
    }
  }
}

// Reducer 类
public class WordCountReducer extends Reducer<Text, IntWritable, Text, IntWritable> {

  @Override
  public void reduce(Text key, Iterable<IntWritable> values, Context context) throws IOException, InterruptedException {
    int sum = 0;
    for (IntWritable value : values) {
      sum += value.get();
    }
    context.write(key, new IntWritable(sum));
  }
}