返回

Windows 系统下单机版 Hadoop 搭建指南

后端

一步步搭建 Windows 单机版 Hadoop 环境

简介

Hadoop 是一个广受使用的开源框架,用于大数据存储和分析。如果你想在 Windows 系统上搭建一个单机版 Hadoop 环境,本指南将一步一步地为你提供详细的步骤。

先决条件

在开始安装之前,确保你的系统满足以下要求:

  • Windows 操作系统(64 位)
  • Java 8 或更高版本
  • 至少 4GB 内存
  • 至少 100GB 可用硬盘空间

安装 Hadoop

  1. 从 Apache Hadoop 官网下载最新版本的 Hadoop 发行版。
  2. 解压下载的压缩包到一个目录中,例如 C:\hadoop
  3. 设置 HADOOP_HOME 环境变量,指向 Hadoop 安装目录,例如:
set HADOOP_HOME=C:\hadoop

配置 Hadoop

  1. 打开 Hadoop 配置文件 hadoop-env.sh,设置 JAVA_HOME 环境变量,指向你的 Java 安装目录,例如:
export JAVA_HOME=C:\Program Files\Java\jdk1.8.0_201
  1. 打开 Hadoop 配置文件 core-site.xml,设置以下属性:
<property>
  <name>fs.defaultFS</name>
  <value>hdfs://localhost:9000</value>
</property>
  1. 打开 Hadoop 配置文件 hdfs-site.xml,设置以下属性:
<property>
  <name>dfs.namenode.name.dir</name>
  <value>file:///C:\hadoop\hdfs\namenode</value>
</property>
<property>
  <name>dfs.datanode.data.dir</name>
  <value>file:///C:\hadoop\hdfs\datanode</value>
</property>
  1. 打开 Hadoop 配置文件 mapred-site.xml,设置以下属性:
<property>
  <name>mapreduce.framework.name</name>
  <value>yarn</value>
</property>

启动 Hadoop

  1. 启动 NameNode:
hadoop namenode -format
hadoop-daemon.sh start namenode
  1. 启动 DataNode:
hadoop-daemon.sh start datanode
  1. 启动 ResourceManager:
yarn-daemon.sh start resourcemanager
  1. 启动 NodeManager:
yarn-daemon.sh start nodemanager

验证 Hadoop 安装

  1. 访问 Hadoop Web UI:
http://localhost:50070
  1. 查看 NameNode 和 DataNode 的状态:
hadoop dfsadmin -report
  1. 执行一个简单的 MapReduce 作业:
hadoop jar hadoop-mapreduce-examples.jar teragen 10000 /input
hadoop jar hadoop-mapreduce-examples.jar terasort /input /output

常见问题解答

1. Hadoop 安装时出现 Java 异常。

  • 检查你的 Java 版本是否符合要求。
  • 确保你的 JAVA_HOME 环境变量指向正确的 Java 安装目录。

2. Hadoop Web UI 无法访问。

  • 检查你的防火墙是否阻止了 Hadoop 进程的端口。
  • 确保 Hadoop 进程正在运行。

3. Hadoop 作业执行失败。

  • 检查 Hadoop 配置文件是否有错误。
  • 确保你的数据输入路径和输出路径有效。
  • 如果是 MapReduce 作业,请检查你的 Mapper 和 Reducer 类是否正确实现。

4. Hadoop 占用过多内存。

  • 检查你的 Hadoop 配置文件,调整 mapreduce.map.memory.mbmapreduce.reduce.memory.mb 属性。
  • 监控你的系统资源使用情况,并根据需要调整 Hadoop 的内存设置。

5. 如何卸载 Hadoop?

  • 停止所有 Hadoop 进程。
  • 删除 Hadoop 安装目录(HADOOP_HOME)。
  • 从你的系统中删除 HADOOP_HOME 环境变量。

结论

通过遵循本指南,你已经成功地在 Windows 系统上搭建了一个单机版 Hadoop 环境。现在,你可以在 Hadoop 的支持下存储、处理和分析大数据集了。