创建数据集时如何避免根据 Bean 函数生成不必要的列？

java

2024-03-13 10:25:05

创建数据集时避免根据 bean 函数生成新列

问题：

当你从 bean 类创建数据集时，Encoder.bean() 可能会根据 bean 中的函数生成新列，即使这些函数不应成为列。这可能会导致不必要的数据膨胀和混乱。

原因：

Encoder.bean() 使用 Java 反射来获取 bean 类的所有属性和字段，包括通过函数或 getter/setter 生成的属性。这会导致生成与这些函数或 getter/setter 对应的列。

解决方案：

有几种方法可以防止 Encoder.bean() 根据 bean 函数生成不需要的列：

重命名函数： 将不应生成列的函数重命名为以“is”、“get”或“has”开头，因为 Encoder.bean() 默认忽略以这些前缀开头的函数。
使用 select/drop： 在创建数据集后使用 select() 和 drop() 转换来选择所需列并删除不需要的列。
使用 Spark SQL： 使用 Spark SQL 来创建数据集并只选择所需的列。

示例代码：

方法 1：重命名函数

// 在 Client 类中重命名 isLegalAge 函数
public boolean getLegalAge() {
    return age >= 18;
}

方法 2：select/drop

// 创建数据集
Dataset<Client> clientsDS = spark.createDataset(
    Arrays.asList(
        new Client("1", "Alice", 15),
        new Client("2", "Bob", 18),
        new Client("3", "Charlie", 20)
    ),
    Encoders.bean(Client.class)
);

// 选择所需的列并删除不必要的列
Dataset<Client> selectedClientsDS = clientsDS
    .select("clientId", "name", "age")
    .drop("legalAge");

方法 3：Spark SQL

// 创建 DataFrame
DataFrame clientsDF = spark.sql(
    "SELECT clientId, name, age FROM "
    + "(SELECT clientId, name, age, isLegalAge() AS legalAge FROM clients)"
);

// 转换为数据集
Dataset<Client> selectedClientsDS = clientsDF
    .as(Encoders.bean(Client.class));