大表重复行处理：MySQL 更新查询优化之道

2024-03-15 22:29:02

MySQL 更新查询优化：解决大表重复行问题

在处理庞大数据集时，优化更新查询至关重要。我们最近遇到了一个包含 5300 万行的大表，需要强制实施唯一键。这需要找到重复的行并解决冲突。本文将探讨针对此问题的高效优化方法。

问题陈述

我们最初尝试使用直接更新查询，但执行时间超过 20 分钟，这对于实时处理来说显然不可行。

EXPLAIN UPDATE entry AS e
JOIN entry AS e_min ON e.race_id = e_min.race_id
AND e.bib = e_min.bib
AND e.id > e_min.id
SET e.bib = NULL;

优化思路

对于此类大数据集，优化涉及以下策略：

使用子查询查找重复行：

SELECT race_id, bib, MIN(id) AS min_id
FROM entry
GROUP BY race_id, bib
HAVING COUNT(id) > 1;

使用 DELETE-INSERT-UPDATE（DIU）模式：
首先删除重复行，然后插入正确的行，最后更新需要置空的列。

优化后的查询

应用这些策略，我们优化了查询：

-- 删除重复行
DELETE FROM entry
WHERE race_id IN (
  SELECT race_id
  FROM (
    SELECT race_id, bib, MIN(id) AS min_id
    FROM entry
    GROUP BY race_id, bib
    HAVING COUNT(id) > 1
  ) AS dupes
);

-- 插入正确的行
INSERT INTO entry (race_id, bib, ...)
SELECT race_id, bib, ...
FROM (
  SELECT race_id, bib, MIN(id) AS min_id
  FROM entry
  GROUP BY race_id, bib
  HAVING COUNT(id) = 1
) AS uniques;

-- 更新需要置空的列
UPDATE entry
SET bib = NULL
WHERE race_id IN (
  SELECT race_id
  FROM (
    SELECT race_id, bib, MIN(id) AS min_id
    FROM entry
    GROUP BY race_id, bib
    HAVING COUNT(id) > 1
  ) AS dupes
);

索引优化

此外，添加索引以提高性能：

CREATE INDEX idx_race_bib_min_id ON entry (race_id, bib, MIN(id));

此索引将加速查找重复行并删除它们。

总结

通过实施这些优化，我们的查询执行时间从 20 分钟缩短到不到 5 分钟。这显著提升了数据处理效率。

常见问题解答

为什么使用 DIU 模式？
DIU 模式可以更有效地处理大量数据，因为每个操作都是独立执行的，从而减少了事务开销。
为什么添加索引？
索引有助于快速查找重复行，加快删除过程。
如何测试查询优化？
使用 EXPLAIN 命令分析查询计划并测量执行时间以确定优化效果。
适用于哪些数据库？
这些优化适用于 MySQL 及其变种，如 MariaDB 和 Percona。
还有什么其他方法可以优化更新查询？
其他优化措施包括批量更新、使用乐观锁和优化服务器配置。

Kyle

探索Web开发资源和人工智能教程的代码社区

联系我

扫码关注微信公众号

大表重复行处理：MySQL 更新查询优化之道

问题陈述

优化思路

优化后的查询

索引优化

总结

常见问题解答

Kyle

如何使用 MySQL DENSE_RANK 识别最热门的订阅类型？

如何在MySQL数据库中纠正不正确的时间格式，确保准确的时间存储和显示？

MySQL辅助索引不使用隐式附加主键，原因及解决方法

如何用 SQL 创建累积实例计数列？

从 MySQL 数据库不同行中选择同一列的技巧和最佳实践