Flink实时项目之业务数据分流：从实时数据到数据湖

后端

2024-01-28 15:59:06

引言

在上一篇文章中，我们已经获取到了业务数据的输出流，分别是dim层维度数据的输出流，及dwd层事实数据的输出流，接下来我们要做的就是把这些输出流分别再流向对应的数据介质中。

数据分流的必要性

在实际的生产环境中，业务数据往往是海量的，而且是不断增长的。如果我们把所有的业务数据都存储在一个数据仓库中，那么这个数据仓库很快就会变得非常庞大，难以管理和维护。因此，我们需要对业务数据进行分流，把不同类型的数据存储到不同的数据介质中。

数据分流的方案

数据分流的方案有很多种，常用的有以下几种：

根据数据类型分流 ：把不同类型的数据存储到不同的数据仓库中。例如，把维度数据存储到维度数据仓库中，把事实数据存储到事实数据仓库中。
根据数据粒度分流 ：把不同粒度的存储到不同的数据仓库中。例如，把日粒度的数据存储到日粒度数据仓库中，把月粒度的数据存储到月粒度数据仓库中。
根据数据时效性分流 ：把不同时效性的数据存储到不同的数据仓库中。例如，把实时数据存储到实时数据仓库中，把历史数据存储到历史数据仓库中。

Flink中的数据分流

Flink是一个分布式流处理框架，它可以很容易地实现数据的分流。我们可以使用Flink的DataStream API来实现数据的分流。

DataStream<Tuple2<String, Integer>> inputStream = ...;

// 根据数据类型分流
DataStream<Tuple2<String, Integer>> dimStream = inputStream.filter(t -> t.f0.startsWith("dim"));
DataStream<Tuple2<String, Integer>> dwdStream = inputStream.filter(t -> t.f0.startsWith("dwd"));

// 根据数据粒度分流
DataStream<Tuple2<String, Integer>> dayStream = inputStream.filter(t -> t.f1 == 1);
DataStream<Tuple2<String, Integer>> monthStream = inputStream.filter(t -> t.f1 == 2);

// 根据数据时效性分流
DataStream<Tuple2<String, Integer>> realTimeStream = inputStream.filter(t -> t.f2 == 1);
DataStream<Tuple2<String, Integer>> historyStream = inputStream.filter(t -> t.f2 == 2);