Flink SQL 入门：使用 File System Connector 写入流数据

2023-12-02 03:57:34

在 Flink 的强大生态系统中，File System Connector 扮演着至关重要的角色，它使我们能够将流式数据写入各种文件格式，包括 JSON、CSV、Avro、Parquet 和 ORC。使用 SQL 语句的简洁性和可扩展性，我们可以轻松地实现这一过程。

为了便于理解，我们将深入探索 File System Connector 的核心概念和实际应用。

File System Connector 简介

File System Connector 是 Flink 提供的一组开箱即用的表源，它允许我们以流式或批处理方式将数据写入各种文件格式。这意味着我们可以将流式数据持久化到文件系统，以便后续分析、存档或其他处理目的。

File System Connector 的核心优势在于其灵活性。它支持多种文件格式，使我们能够选择最适合特定用例和数据特征的文件格式。例如，如果我们希望保留数据架构并支持高效压缩，则 Parquet 将是一个不错的选择。

使用 SQL 写入流数据

要使用 SQL 将流数据写入文件系统，我们需要采取以下步骤：

1. 创建 Table

首先，我们需要创建一个指向 File System Connector 的表。该表将定义数据的写入位置和写入格式。

CREATE TABLE my_table (
  id INT,
  name STRING,
  age INT
) WITH (
  'connector' = 'filesystem',
  'path' = 'hdfs:///my/output/path',
  'format' = 'parquet'
);

2. 写入数据

一旦创建了表，我们就可以使用标准的 SQL INSERT 语句将数据写入该表。

INSERT INTO my_table VALUES (1, 'John', 30);

Flink 将自动将数据写入指定的 HDFS 路径，使用 Parquet 文件格式。

示例代码

以下是一个使用 Flink 1.11 和 SQL 将流数据写入 Parquet 文件的示例代码片段：

StreamExecutionEnvironment env = StreamExecutionEnvironment.getExecutionEnvironment();
DataStream<Tuple3<Integer, String, Integer>> inputStream = ... // 从数据源获取流数据

Table table = env.fromDataStream(inputStream)
  .toTable(Schema.newBuilder()
    .column("id", DataTypes.INT())
    .column("name", DataTypes.STRING())
    .column("age", DataTypes.INT())
    .build());

table.executeInsert("my_table");

env.execute();

在上面的代码片段中，我们首先从数据源获取一个流，该流包含 id、name 和 age 三个字段。然后，我们将流转换为一个 Table，并将其插入到前面定义的 "my_table" 中。最后，我们执行作业以触发写入操作。

结论

使用 Flink SQL 和 File System Connector，我们可以轻松高效地将流数据写入文件系统。通过利用 SQL 的简洁性和 File System Connector 的灵活性，我们能够满足各种数据处理场景的需求。从存档到分析，File System Connector 为我们提供了强大的工具来管理和利用流数据。