Spark在IDEA中的运行教程：从零开始玩转大数据

后端

2023-05-21 06:38:03

在 IntelliJ IDEA 中运行你的第一个 Apache Spark 程序

准备好踏入 Apache Spark 的奇妙世界了吗？这篇文章将带你一步步安装 IntelliJ IDEA、Spark 和所需依赖项，并编写和运行你的第一个 Spark 程序。准备好开始这段激动人心的旅程了吗？

Step 1：安装 IntelliJ IDEA

首先，让我们为 IntelliJ IDEA 腾出空间。访问他们的官方网站，下载并安装社区版即可开始使用。

Step 2：安装 Spark

现在轮到 Apache Spark 登场了！从其官方网站下载最新版本，或者使用诸如 Homebrew 或 APT 之类的包管理器进行安装。

Step 3：配置 IDEA

打开 IDEA，创建一个新的 Java 项目。接下来，前往项目结构对话框，选择“Libraries”选项卡，点击“+”号，添加一个新的库。从弹出的对话框中，选择“Java”并定位 Spark 的 jar 包。

Step 4：编写第一个 Spark 程序

让我们编写我们的第一个 Spark 程序。创建一个新的 Java 类并输入以下代码：

// HelloSpark.java

import org.apache.spark.SparkConf;
import org.apache.spark.api.java.JavaSparkContext;

public class HelloSpark {

    public static void main(String[] args) {
        SparkConf conf = new SparkConf().setAppName("HelloSpark");
        JavaSparkContext sc = new JavaSparkContext(conf);

        String inputFile = "hdfs://localhost:9000/input.txt";
        JavaRDD<String> lines = sc.textFile(inputFile);

        JavaRDD<String> words = lines.flatMap(line -> Arrays.asList(line.split(" ")));

        JavaPairRDD<String, Integer> wordCounts = words.mapToPair(word -> new Tuple2<>(word, 1))
                .reduceByKey((count1, count2) -> count1 + count2);

        wordCounts.saveAsTextFile("hdfs://localhost:9000/output.txt");

        sc.close();
    }
}