Linux上安装Hadoop分布式模式[Hadoop3学习笔记]

2023-10-12 09:22:36

如何在Linux上安装Hadoop分布式模式：深入指南

简介

Hadoop是一种流行的大数据处理框架，它使组织能够以分布式方式处理和存储海量数据集。Hadoop的分布式模式允许其组件分布在多台机器上，提高性能和可靠性。在本文中，我们将深入探讨如何在Linux上安装Hadoop分布式模式，并提供详细的步骤、配置和示例。

前提条件

多台CentOS服务器（至少3台）
SSH访问权限
Java 8或更高版本
Hadoop 3或更高版本
至少8GB的内存
至少100GB的存储空间

第1步：安装Java

安装Java是安装Hadoop的先决条件。使用以下命令在CentOS上安装OpenJDK 8：

yum install java-1.8.0-openjdk

第2步：安装Hadoop

使用以下命令下载并安装Hadoop 3：

wget https://mirror.centos.org/centos/9/AppStream/x86_64/os/Packages/hadoop-3.3.4-1.el9.x86_64.rpm
yum install hadoop-3.3.4-1.el9.x86_64.rpm

第3步：配置Hadoop

Hadoop需要配置才能在分布式模式下运行。执行以下步骤：

复制配置模板文件：

cp mapred-site.xml.template mapred-site.xml
cp hdfs-site.xml.template hdfs-site.xml
cp yarn-site.xml.template yarn-site.xml

在这些文件中修改以下配置：

hdfs-site.xml

<property>
   <name>dfs.namenode.name.dir</name>
   <value>/hadoop/hdfs/namenode</value>
</property>

<property>
   <name>dfs.datanode.data.dir</name>
   <value>/hadoop/hdfs/datanode</value>
</property>

yarn-site.xml

<property>
   <name>yarn.resourcemanager.hostname</name>
   <value>master</value>
</property>

<property>
   <name>yarn.nodemanager.aux-services</name>
   <value>mapreduce_shuffle</value>
</property>

mapred-site.xml

<property>
   <name>mapreduce.framework.name</name>
   <value>yarn</value>
</property>

第4步：启动Hadoop

配置完成后，启动Hadoop守护进程：

systemctl start hadoop-namenode
systemctl start hadoop-datanode
systemctl start hadoop-resourcemanager
systemctl start hadoop-nodemanager

第5步：验证Hadoop

使用以下命令验证Hadoop是否正在运行：

hdfs dfsadmin -report
yarn application -list

第6步：使用Hadoop

要使用Hadoop处理数据，您可以使用以下命令：

hdfs dfs -ls /
hdfs dfs -put local_file hdfs_file
hdfs dfs -get hdfs_file local_file
hadoop jar hadoop-mapreduce-examples.jar teragen 100000 /hdfs/terasort/input
hadoop jar hadoop-mapreduce-examples.jar terasort /hdfs/terasort/input /hdfs/terasort/output