重复数据筛选：保留分组内最新记录（SQL 优化）

2025-02-10 10:24:55

重复数据筛选：保留分组内时间戳最大记录

当数据表中存在某些字段重复的记录，需要针对这些重复的组，仅保留其中时间戳较大（或具有其他优先级判定条件）的记录时，如何高效地完成数据筛选成了一个常见问题。

本文探讨一些常用的解决方案，并分析其优缺点。我们将主要针对类似于如下情景：有一个名为 messages 的数据表，包含 Id, Name, 和 Other_Columns 三个字段。我们需要针对 Name 字段进行分组，并在每个分组内选择 Id (可认为是时间戳，越大表示越新) 最大的那条记录。

方法一：子查询 + GROUP BY

最初的方案使用子查询先按照 Id 降序排序，然后在外层查询中使用 GROUP BY Name。尽管看起来简洁，但是效率通常较低。原因在于，数据库可能需要扫描并排序整个表，才能进行分组操作。

SELECT
  *
FROM (SELECT
  *
FROM messages
ORDER BY Id DESC) AS x
GROUP BY Name;

这种方法依赖于数据库实现细节，行为有时并不确定。不同数据库处理 GROUP BY 的方式存在差异，一些数据库可能并不保证总是返回每个分组的第一条记录（按照排序后的顺序）。

方法二：ROW_NUMBER() 窗口函数

更优的方法是使用 ROW_NUMBER() 窗口函数。窗口函数可以在不影响原数据集的情况下，为每行分配一个唯一的序号。通过 PARTITION BY 子句，可以将数据划分为多个分区，每个分区独立编号。

SELECT *
FROM (
    SELECT
        *,
        ROW_NUMBER() OVER (PARTITION BY Name ORDER BY Id DESC) AS rn
    FROM
        messages
) AS subquery
WHERE
    rn = 1;

该方法首先使用子查询，利用 ROW_NUMBER() 函数，针对每个 Name 分区，按照 Id 降序分配行号。然后，在外层查询中，筛选出行号为 1 的记录，即每个分组内 Id 最大的记录。

此方案相较于第一种方案，执行效率更高。数据库可以针对每个分区独立进行排序，避免了全局排序带来的开销。同时，显式地指定了行号，结果更加可控，消除了依赖数据库实现的风险。

方法三：JOIN + MAX()

另外一种可选的方案是使用 JOIN 结合 MAX() 函数。此方法首先找到每个 Name 对应的最大 Id，然后将结果与原表进行连接，筛选出符合条件的记录。

SELECT
    m.*
FROM
    messages m
INNER JOIN (
    SELECT
        Name,
        MAX(Id) AS MaxId
    FROM
        messages
    GROUP BY
        Name
) AS grouped_messages ON m.Name = grouped_messages.Name AND m.Id = grouped_messages.MaxId;

该方案的优势在于逻辑清晰，易于理解。通过明确的 JOIN 操作，能够快速定位到目标记录。不过，这种方案可能涉及两次扫描原表（一次用于 MAX() 计算，一次用于 JOIN），在高并发情况下，可能会对数据库性能产生一定的影响。需要注意的是，如果 Id 列没有索引，建立索引将大幅提升该方案的查询效率。

安全提示和额外考虑

索引优化： 确保参与分组和排序的列（如 Name 和 Id）上存在适当的索引，这将极大地提升查询性能。
数据量： 如果数据量非常大，可以考虑使用分布式计算框架，例如 Apache Spark 或 Apache Flink，进行并行处理。
时间戳精度： 注意时间戳的精度。如果多个记录的时间戳相同，可能会导致结果不确定。在实际应用中，需要根据具体场景选择合适的解决方案。考虑到这一点，可以使用更精确的时间戳字段（如纳秒级别）或引入其他优先级判定字段。

合理选择合适的解决方案能够显著提升数据筛选的效率。通过结合实际场景和数据特点，可以找到最适合当前需求的方案。记住，没有绝对最优的方案，只有最适合的方案。