编程新世界：5 分钟从零构建第一个 Flink 应用

2024-02-11 23:37:11

探索 Apache Flink：用于大数据处理的强大引擎

引言

大数据时代已经到来，对处理和分析海量数据的需求不断增长。Apache Flink 应运而生，作为一款强大的分布式数据处理引擎，它可以处理实时和批处理数据流。凭借高吞吐量、低延迟和丰富的 API，Flink 在实时分析、流处理和机器学习等领域备受青睐。

环境设置

踏入 Flink 之旅的第一步是确保您的机器安装了 Java 8.x 和 Maven。Java 是 Flink 的运行环境，而 Maven 是管理项目依赖和构建过程的构建工具。

创建 Flink 项目

接下来，使用 Flink Maven Archetype 创建项目结构和一些初始依赖。这将为您搭建一个 Flink 应用的框架。

编写 Flink 代码

在 src/main/java 目录中编写 Flink 代码。一个简单的 Flink 应用通常包含一个 main 方法，用于定义数据源、数据转换和数据输出。

执行 Flink 应用

最后，使用 Maven 命令执行 Flink 应用。Maven 会自动编译代码并启动 Flink 集群。

示例代码：单词计数

为了直观理解 Flink 的工作原理，让我们编写一个简单的单词计数应用：

import org.apache.flink.api.common.functions.FlatMapFunction;
import org.apache.flink.api.java.DataSet;
import org.apache.flink.api.java.ExecutionEnvironment;
import org.apache.flink.api.java.operators.AggregateOperator;
import org.apache.flink.api.java.operators.DataSource;
import org.apache.flink.api.java.tuple.Tuple2;
import org.apache.flink.util.Collector;

public class WordCount {

    public static void main(String[] args) throws Exception {
        // 创建执行环境
        ExecutionEnvironment env = ExecutionEnvironment.getExecutionEnvironment();

        // 从文本文件中读取数据
        DataSource<String> text = env.readTextFile("input.txt");

        // 将文本数据按空格分词，得到单词
        DataSet<String> words = text.flatMap(new FlatMapFunction<String, String>() {
            @Override
            public void flatMap(String value, Collector<String> out) {
                // 按空格分词
                String[] tokens = value.split(" ");
                // 将每个单词输出
                for (String token : tokens) {
                    out.collect(token);
                }
            }
        });

        // 按照单词分组，统计每个单词出现的次数
        AggregateOperator<Tuple2<String, Integer>> wordCounts = words.groupBy(0)
                .sum(1);

        // 打印结果
        wordCounts.print();
    }
}