返回

新手福音:手把手教你快速在本地安装 Spark

人工智能

1. 前期准备:软件和环境需求

1.1 操作系统要求

  • Windows 10 (64 位)
  • macOS 10.15 (Catalina) 或更高版本
  • Ubuntu 18.04 (Bionic Beaver) 或更高版本

1.2 Java 运行时环境 (JRE)

确保已安装 Java 8 或更高版本。您可以通过以下命令检查 Java 版本:

java -version

如果结果显示 Java 版本低于 8,请访问 Oracle 网站下载并安装 Java 8 或更高版本。

1.3 安装 Scala

Spark 使用 Scala 语言进行编程。您可以通过以下命令安装 Scala:

brew install scala

2. 安装 Apache Spark

2.1 下载 Apache Spark

访问 Apache Spark 官网下载最新版本的 Spark。

2.2 解压 Apache Spark

将下载的 Spark 压缩包解压到一个方便的位置,例如您的主目录。

2.3 配置环境变量

在您的环境变量中添加以下变量:

SPARK_HOME=/path/to/spark
JAVA_HOME=/path/to/java

/path/to/spark 替换为您解压的 Spark 的路径,将 /path/to/java 替换为 Java 的安装路径。

3. 验证 Spark 安装

3.1 启动 Spark Shell

打开终端,导航到 Spark 的 bin 目录,然后运行以下命令启动 Spark Shell:

./spark-shell

3.2 验证 Spark 安装

在 Spark Shell 中,运行以下命令验证 Spark 是否正确安装:

sc.version

如果看到类似以下的输出,则说明 Spark 安装成功:

2.4.5

4. 运行示例代码

4.1 创建 SparkContext

SparkContext 是 Spark 的核心类,用于创建和管理 Spark 作业。在 Spark Shell 中,运行以下命令创建 SparkContext:

val sc = new SparkContext("local[*]", "Spark Example")

4.2 读取数据

您可以使用 SparkContext 读取各种数据源,例如文本文件、CSV 文件、JSON 文件等。以下示例展示如何读取文本文件:

val textFile = sc.textFile("path/to/text_file.txt")

4.3 转换和操作数据

使用 SparkContext 的各种算子转换和操作数据。以下示例展示如何过滤数据:

val filteredData = textFile.filter(_.contains("error"))

4.4 持久化数据

将数据持久化到内存或磁盘可以提高后续操作的效率。以下示例展示如何将数据缓存到内存:

filteredData.cache()

4.5 收集数据

可以使用 SparkContext 的 collect() 方法将数据收集到驱动程序。以下示例展示如何将数据收集到数组:

val errorLines = filteredData.collect()

5. 总结

恭喜您!您已经成功地在本地计算机上安装和配置了 Apache Spark。现在,您可以开始使用 Spark 进行数据分析和处理。