Hadoop 伪分布式模式:CentOS 安装详解与实战验证
2023-09-25 18:31:46
Hadoop 伪分布式模式:CentOS 安装与功能验证
前言
Hadoop 是一个功能强大的分布式计算框架,专用于处理和分析海量数据。在伪分布式模式下,Hadoop 的所有组件(NameNode、DataNode、JobTracker 和 TaskTracker)都运行在同一台机器上。这种模式对于学习和测试 Hadoop 应用程序非常有用,因为无需配置多个物理机器。
安装先决条件
在开始安装 Hadoop 之前,确保您的 CentOS 系统满足以下先决条件:
- CentOS 7 或更高版本
- Java 1.8 或更高版本
- SSH 服务器和客户端
- 至少 4GB 内存
安装 Hadoop
-
下载 Hadoop 发行版:从 Apache Hadoop 官方网站下载 Hadoop 3.3.1 发行版。
-
解压 Hadoop 发行版:使用以下命令解压下载的 Hadoop 发行版:
tar -xzvf hadoop-3.3.1.tar.gz
-
移动 Hadoop 目录:将解压后的 Hadoop 目录移动到
/opt
目录下:mv hadoop-3.3.1 /opt/hadoop
配置 Hadoop
-
编辑 Hadoop 配置文件:使用文本编辑器打开
/opt/hadoop/etc/hadoop/core-site.xml
文件并添加以下内容:<configuration> <property> <name>fs.defaultFS</name> <value>hdfs://localhost:9000</value> </property> </configuration>
-
配置 Hadoop 守护进程:修改
/opt/hadoop/etc/hadoop/hdfs-site.xml
文件,添加以下内容:<configuration> <property> <name>dfs.replication</name> <value>1</value> </property> </configuration>
-
设置 Hadoop 环境变量:在用户配置文件(如
~/.bashrc
)中添加以下行:export HADOOP_HOME=/opt/hadoop export PATH=$HADOOP_HOME/bin:$PATH
启动 Hadoop 集群
-
格式化 NameNode:格式化 NameNode 以初始化 Hadoop 文件系统:
hdfs namenode -format
-
启动 Hadoop 守护进程:使用以下命令启动 Hadoop 守护进程:
start-dfs.sh start-yarn.sh
验证 Hadoop 安装
-
查看 NameNode Web 界面:在浏览器中打开
http://localhost:50070
,将显示 NameNode Web 界面。 -
创建和上传文件:使用以下命令创建和上传一个文件到 HDFS:
hadoop fs -mkdir /test hadoop fs -put /path/to/local/file /test/remote_file
-
列出文件:使用以下命令列出 HDFS 中的文件:
hadoop fs -ls /
-
运行 MapReduce 作业:使用以下命令运行一个简单的 MapReduce 作业:
hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar pi 10000
结论
通过遵循本文中的步骤,您已成功在 CentOS 系统上安装并配置了 Hadoop 伪分布式模式。通过运行功能测试,您已验证 Hadoop 组件的正常运行。伪分布式模式是学习和开发 Hadoop 应用程序的宝贵工具。随着您的技能不断提升,您可以探索 Hadoop 的高级特性和应用,例如安全、高可用性和集群管理。