Hadoop-3.3.6与JDK-8u381：大数据小白入门攻略

后端

2023-08-29 07:50:35

大数据入门：使用Hadoop-3.3.6和JDK-8u381

配置JDK-8u381

开启大数据之旅的第一步是安装JDK-8u381，即Java开发工具包。从Oracle官网下载安装包并进行安装。完成后，设置环境变量：

创建一个名为JAVA_HOME的新系统变量，值为JDK安装路径。
在Path变量中添加%JAVA_HOME%\bin路径。

安装Hadoop-3.3.6

接下来，从Apache官网下载并安装Hadoop-3.3.6。将安装包解压到新创建的目录中。

配置Hadoop

配置Hadoop涉及编辑以下配置文件：

hdfs-site.xml： 配置HDFS文件系统。
core-site.xml： 配置Hadoop核心设置。
yarn-site.xml： 配置YARN（Yet Another Resource Negotiator）。

启动Hadoop

配置完成后，依次启动以下组件：

NameNode ：HDFS的元数据存储器。
DataNode ：存储HDFS数据块的服务器。
ResourceManager ：YARN的资源管理器。
NodeManager ：执行YARN任务的服务器。

测试Hadoop

通过一些命令测试Hadoop功能：

hdfs dfs -ls /：查看HDFS文件系统。
yarn application -list：显示YARN应用程序列表。

代码示例：

// 从HDFS读取文件
Path path = new Path("hdfs://localhost:9000/mydata.txt");
FileSystem fs = FileSystem.get(new Configuration());
FSDataInputStream in = fs.open(path);
String line;
while ((line = in.readLine()) != null) {
    System.out.println(line);
}
in.close();

// 在HDFS上写入文件
Path path = new Path("hdfs://localhost:9000/output.txt");
FileSystem fs = FileSystem.get(new Configuration());
FSDataOutputStream out = fs.create(path);
out.writeBytes("Hello World!");
out.close();