Hadoop 伪分布式模式：CentOS 安装详解与实战验证

2023-09-25 18:31:46

Hadoop 伪分布式模式：CentOS 安装与功能验证

前言

Hadoop 是一个功能强大的分布式计算框架，专用于处理和分析海量数据。在伪分布式模式下，Hadoop 的所有组件（NameNode、DataNode、JobTracker 和 TaskTracker）都运行在同一台机器上。这种模式对于学习和测试 Hadoop 应用程序非常有用，因为无需配置多个物理机器。

安装先决条件

在开始安装 Hadoop 之前，确保您的 CentOS 系统满足以下先决条件：

CentOS 7 或更高版本
Java 1.8 或更高版本
SSH 服务器和客户端
至少 4GB 内存

安装 Hadoop

下载 Hadoop 发行版：从 Apache Hadoop 官方网站下载 Hadoop 3.3.1 发行版。
解压 Hadoop 发行版：使用以下命令解压下载的 Hadoop 发行版：
```
tar -xzvf hadoop-3.3.1.tar.gz
```
移动 Hadoop 目录：将解压后的 Hadoop 目录移动到 /opt 目录下：
```
mv hadoop-3.3.1 /opt/hadoop
```

配置 Hadoop

编辑 Hadoop 配置文件：使用文本编辑器打开 /opt/hadoop/etc/hadoop/core-site.xml 文件并添加以下内容：

<configuration>
  <property>
    <name>fs.defaultFS</name>
    <value>hdfs://localhost:9000</value>
  </property>
</configuration>

配置 Hadoop 守护进程：修改 /opt/hadoop/etc/hadoop/hdfs-site.xml 文件，添加以下内容：

<configuration>
  <property>
    <name>dfs.replication</name>
    <value>1</value>
  </property>
</configuration>

设置 Hadoop 环境变量：在用户配置文件（如 ~/.bashrc）中添加以下行：
```
export HADOOP_HOME=/opt/hadoop
export PATH=$HADOOP_HOME/bin:$PATH
```

启动 Hadoop 集群

格式化 NameNode：格式化 NameNode 以初始化 Hadoop 文件系统：
```
hdfs namenode -format
```
启动 Hadoop 守护进程：使用以下命令启动 Hadoop 守护进程：
```
start-dfs.sh
start-yarn.sh
```

验证 Hadoop 安装

查看 NameNode Web 界面：在浏览器中打开 http://localhost:50070，将显示 NameNode Web 界面。

创建和上传文件：使用以下命令创建和上传一个文件到 HDFS：

hadoop fs -mkdir /test
hadoop fs -put /path/to/local/file /test/remote_file

列出文件：使用以下命令列出 HDFS 中的文件：
```
hadoop fs -ls /
```

运行 MapReduce 作业：使用以下命令运行一个简单的 MapReduce 作业：

hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar pi 10000

结论

通过遵循本文中的步骤，您已成功在 CentOS 系统上安装并配置了 Hadoop 伪分布式模式。通过运行功能测试，您已验证 Hadoop 组件的正常运行。伪分布式模式是学习和开发 Hadoop 应用程序的宝贵工具。随着您的技能不断提升，您可以探索 Hadoop 的高级特性和应用，例如安全、高可用性和集群管理。