一文搞定！在Yarn集群环境中搭建Spark并运行示例

2024-02-04 17:11:24

进入大数据时代，分布式计算变得尤为重要。Apache Spark作为一种分布式计算框架，受到广泛关注。本篇文章将指导您如何在Yarn集群环境中搭建Spark，并运行一个示例以帮助您更好地理解其工作原理。

环境准备

在开始搭建Spark之前，我们需要确保环境已做好准备。以下列出详细步骤：

1. 准备Linux（CentOS7）虚拟机

2. 安装必要的软件版本

jdk1.8.0_60
scala2.11.12
hadoop3.1.3
spark2.4.6
livy0.7.0

3. 配置hosts文件
在/etc/hosts文件中添加以下内容：
127.0.0.1 localhost 192.168.1.10 master.example.com 192.168.1.11 worker1.example.com 192.168.1.12 worker2.example.com

搭建Spark

完成环境准备后，即可开始搭建Spark：

1. 将Spark二进制文件复制到集群节点

2. 配置Spark配置文件
编辑/opt/spark/conf/spark-env.sh文件，并添加以下内容：
JAVA_HOME=/usr/java/jdk1.8.0_60

3. 格式化HDFS
执行以下命令来格式化HDFS：
hdfs namenode -format

4. 启动Spark
执行以下命令来启动Spark：
spark-daemon.sh start all

5. 验证Spark是否运行正常
执行以下命令来验证Spark是否运行正常：
spark-shell

运行示例

完成Spark搭建后，即可运行示例来验证其是否正常工作：

1. 创建一个Spark应用程序
使用以下命令创建一个Spark应用程序：
spark-submit --class org.apache.spark.examples.SparkPi --master yarn --deploy-mode client /opt/spark/examples/jars/spark-examples.jar 1000

2. 查看结果
执行以下命令查看结果：
hdfs dfs -cat /user/$USER/spark-pi/output/*