一键搭建 CDH 集群:2-Web 快速安装指南
2023-09-26 13:49:22
引言
大数据技术蓬勃发展,企业急需一个可靠且可扩展的平台来管理和分析大量数据。Apache Hadoop 是业界领先的开源大数据框架,为存储和处理海量数据提供了强大的解决方案。Cloudera 分布式 Hadoop (CDH) 是 Apache Hadoop 的一个发行版,它增加了企业级功能,使大数据部署更加容易。
在本文中,我们将指导您完成使用 Web 安装程序在三台服务器上快速安装和配置 CDH 集群的步骤。我们将涵盖每个步骤的详细说明,从 JDK 安装到存储库选择和安全配置。通过遵循本指南,您将能够在短时间内启动并运行一个功能齐全的 CDH 集群。
先决条件
在开始 Web 安装之前,请确保满足以下先决条件:
- 三台服务器,配置为运行 Red Hat Enterprise Linux (RHEL) 7 或 CentOS 7
- 所有服务器上的 root 访问权限
- 配置了主机名和 DNS
- 防火墙已配置为允许必要的端口通信
步骤 1:JDK 安装
使用 Web 安装程序安装 CDH 之前,需要在所有三台服务器上安装 Java Development Kit (JDK)。
- 在每台服务器上,使用以下命令安装 OpenJDK:
yum install java-1.8.0-openjdk
- 验证 JDK 安装是否成功:
java -version
步骤 2:存储库选择
接下来,我们需要配置 CDH 存储库。该存储库包含安装 CDH 所需的所有软件包。
- 在每台服务器上,使用以下命令创建
/etc/yum.repos.d/cdh6.repo
文件:
vi /etc/yum.repos.d/cdh6.repo
- 将以下内容粘贴到文件中:
[cloudera-manager]
name=Cloudera Manager
baseurl=http://archive.cloudera.com/cm6/redhat/7/x86_64/cm/
gpgkey=http://archive.cloudera.com/cm6/redhat/7/x86_64/cm/RPM-GPG-KEY-cloudera
gpgcheck=1
[cloudera-cdh6]
name=Cloudera CDH 6
baseurl=http://archive.cloudera.com/redhat/7/x86_64/cdh/6/
gpgkey=http://archive.cloudera.com/redhat/7/x86_64/cdh/6/RPM-GPG-KEY-cloudera
gpgcheck=1
- 保存并关闭文件。
步骤 3:Web 安装
现在我们可以继续进行 Web 安装。
- 在一台服务器上(称为管理节点),使用以下命令安装 Cloudera Manager:
yum install cloudera-manager-server
- 安装完成后,启动 Cloudera Manager 服务:
systemctl start cloudera-scm-server
systemctl enable cloudera-scm-server
- 访问 Cloudera Manager Web 界面:
https://<管理节点 IP 地址>:7180
-
登录到 Web 界面,然后单击“创建集群”按钮。
-
在“选择安装程序类型”页面上,选择“Web 安装”。
-
在“选择安装选项”页面上,选择“快速安装”。
-
在“选择安装位置”页面上,浏览并选择 CDH 安装目录。
-
在“配置组件”页面上,选择要安装的 CDH 组件。
-
在“配置安全”页面上,选择安全类型。如果您使用的是新环境,建议选择“安全”。
-
输入 SSH 密钥或密码以加密群集。
-
选中“接受许可证协议”复选框。
-
单击“启动安装”按钮开始安装。
步骤 4:后安装任务
安装完成后,需要执行一些后安装任务:
- 安装 Hive Metastore:
yum install hive-metastore
- 安装 Oozie:
yum install oozie
- 安装 Pig:
yum install pig
- 安装 HBase:
yum install hbase
- 创建 HDFS 目录:
hdfs dfs -mkdir /user
hdfs dfs -mkdir /data
- 更改所有权:
chown hdfs:hadoop /user
chown hdfs:hadoop /data
结论
通过遵循本指南,您已成功使用 Web 安装程序在三台服务器上安装和配置了 CDH 集群。现在,您可以开始使用 CDH 的强大功能来存储、处理和分析大量数据,从而为您的业务做出数据驱动的决策。