Spark on Yarn安装配置指南：一步一步搭建大数据处理引擎

2023-04-25 23:36:24

在 Apache Hadoop Yarn 上安装和配置 Apache Spark 的综合指南

Apache Spark 是一个流行的开源分布式计算引擎，用于大数据处理。将 Spark 集成到 Hadoop Yarn 集群中可以为 Spark 应用程序提供弹性和可扩展的执行环境。本文将提供一个全面的指南，逐步指导您在 Yarn 上安装和配置 Spark，让您能够利用 Spark 的强大功能来处理海量数据集。

准备工作

在开始之前，请确保您的系统满足以下要求：

操作系统： Linux（推荐 Ubuntu 或 CentOS）
Java 版本： Java 8 或更高版本
Hadoop 版本： Hadoop 2.x 或更高版本
Yarn 版本： Yarn 2.x 或更高版本

步骤 1：下载并解压 Spark 安装包

访问 Spark 官方网站，下载最新版本的 Spark 安装包。
将下载的安装包复制到目标服务器。
使用以下命令解压安装包：

tar -xzvf spark-X.X.X.tgz

其中，X.X.X 表示 Spark 的版本号。

步骤 2：配置 Spark 环境变量

编辑 /etc/profile 文件，在文件末尾添加以下行：

export SPARK_HOME=/opt/module/spark-X.X.X
export PATH=$SPARK_HOME/bin:$PATH

其中，/opt/module/spark-X.X.X 是 Spark 的安装目录。

保存并关闭文件。
使用以下命令使更改生效：

source /etc/profile

步骤 3：配置 Spark on Yarn

编辑 /opt/module/spark-X.X.X/conf/spark-defaults.conf 文件，在文件末尾添加以下行：

spark.master yarn
spark.submit.deployMode client
spark.yarn.am.memory 1g
spark.yarn.executor.memory 1g
spark.yarn.executor.cores 1

这些参数配置了 Spark on Yarn 的运行模式、内存和核心分配。

保存并关闭文件。

步骤 4：验证 Spark 是否正常运行

启动 Yarn 服务。
在命令行中，进入 Spark 安装目录。
运行以下命令启动 Spark Shell：

spark-shell --master yarn

如果 Spark Shell 成功启动，您将看到以下提示：

Welcome to
      ____              __
     / __ \____ _____  / /__
    / /_/ / __ `/ __ \/ //_/
   / _, _/ /_/ / / / / ,<
  /_/ | |\__,_/_/ /_/_/|_|
 /____/           \_\      version X.X.X
|=========================|=========================|
| Scala version           | 2.12.15                  |
| Java version            | 1.8.0_202                |
| Hadoop version          | 3.2.1                    |
| Spark version           | 3.1.2                    |
| Apache Arrow version    | 10.0.0                   |
| Hive version            | 4.3.0                    |
|=========================|=========================|

Using Scala version 2.12.15 (Java HotSpot(TM) 64-Bit Server VM, Java 1.8.0_202)
Type in expressions to have them evaluated.
Type :help for more information.