返回

Hadoop 伪分布式模式:CentOS 安装详解与实战验证

后端

Hadoop 伪分布式模式:CentOS 安装与功能验证

前言

Hadoop 是一个功能强大的分布式计算框架,专用于处理和分析海量数据。在伪分布式模式下,Hadoop 的所有组件(NameNode、DataNode、JobTracker 和 TaskTracker)都运行在同一台机器上。这种模式对于学习和测试 Hadoop 应用程序非常有用,因为无需配置多个物理机器。

安装先决条件

在开始安装 Hadoop 之前,确保您的 CentOS 系统满足以下先决条件:

  • CentOS 7 或更高版本
  • Java 1.8 或更高版本
  • SSH 服务器和客户端
  • 至少 4GB 内存

安装 Hadoop

  1. 下载 Hadoop 发行版:从 Apache Hadoop 官方网站下载 Hadoop 3.3.1 发行版。

  2. 解压 Hadoop 发行版:使用以下命令解压下载的 Hadoop 发行版:

    tar -xzvf hadoop-3.3.1.tar.gz
    
  3. 移动 Hadoop 目录:将解压后的 Hadoop 目录移动到 /opt 目录下:

    mv hadoop-3.3.1 /opt/hadoop
    

配置 Hadoop

  1. 编辑 Hadoop 配置文件:使用文本编辑器打开 /opt/hadoop/etc/hadoop/core-site.xml 文件并添加以下内容:

    <configuration>
      <property>
        <name>fs.defaultFS</name>
        <value>hdfs://localhost:9000</value>
      </property>
    </configuration>
    
  2. 配置 Hadoop 守护进程:修改 /opt/hadoop/etc/hadoop/hdfs-site.xml 文件,添加以下内容:

    <configuration>
      <property>
        <name>dfs.replication</name>
        <value>1</value>
      </property>
    </configuration>
    
  3. 设置 Hadoop 环境变量:在用户配置文件(如 ~/.bashrc)中添加以下行:

    export HADOOP_HOME=/opt/hadoop
    export PATH=$HADOOP_HOME/bin:$PATH
    

启动 Hadoop 集群

  1. 格式化 NameNode:格式化 NameNode 以初始化 Hadoop 文件系统:

    hdfs namenode -format
    
  2. 启动 Hadoop 守护进程:使用以下命令启动 Hadoop 守护进程:

    start-dfs.sh
    start-yarn.sh
    

验证 Hadoop 安装

  1. 查看 NameNode Web 界面:在浏览器中打开 http://localhost:50070,将显示 NameNode Web 界面。

  2. 创建和上传文件:使用以下命令创建和上传一个文件到 HDFS:

    hadoop fs -mkdir /test
    hadoop fs -put /path/to/local/file /test/remote_file
    
  3. 列出文件:使用以下命令列出 HDFS 中的文件:

    hadoop fs -ls /
    
  4. 运行 MapReduce 作业:使用以下命令运行一个简单的 MapReduce 作业:

    hadoop jar $HADOOP_HOME/share/hadoop/mapreduce/hadoop-mapreduce-examples.jar pi 10000
    

结论

通过遵循本文中的步骤,您已成功在 CentOS 系统上安装并配置了 Hadoop 伪分布式模式。通过运行功能测试,您已验证 Hadoop 组件的正常运行。伪分布式模式是学习和开发 Hadoop 应用程序的宝贵工具。随着您的技能不断提升,您可以探索 Hadoop 的高级特性和应用,例如安全、高可用性和集群管理。