如何仅删除job_id低于最大值的重复行？

2024-03-13 04:55:15

仅删除低于最大值的重复行

问题

在我们的数据库中，我们有重复行的表，我们希望仅删除 job_id 低于唯一行最大值的重复行。例如，我们有一个表 job_posts，其中包含重复的 title、email 和 msg_no 值。

解决方法

为了解决这个问题，我们可以使用 NOT IN 子查询和 DELETE 语句。NOT IN 子查询选择不在给定列表中的行，而 DELETE 语句删除这些行。

DELETE FROM job_posts
WHERE (title, email, msg_no) NOT IN (
    SELECT title, email, msg_no, MAX(job_id) AS max_job_id
    FROM job_posts
    GROUP BY title, email, msg_no
);

查询解释

这个查询首先使用一个子查询来获取每个唯一行组的 job_id 的最大值。然后，它使用 NOT IN 子查询从 job_posts 表中选择不在此最大值列表中的所有行。最后，DELETE 语句删除这些行。

示例

假设我们有以下 job_posts 表：

+--------+--------------+---------+--------+----------+
| job_id | title        | email    | msg_no | content  |
+--------+--------------+---------+--------+----------+
| 210    | some title   | user1@example.com | 123   | ...     |
| 209    | some title   | user1@example.com | 123   | ...     |
| 208    | some title   | user1@example.com | 123   | ...     |
| 329    | another title | user2@example.com | 243   | ...     |
| 328    | another title | user2@example.com | 243   | ...     |
+--------+--------------+---------+--------+----------+

执行上述查询将删除以下行：

+--------+--------------+---------+--------+----------+
| job_id | title        | email    | msg_no | content  |
+--------+--------------+---------+--------+----------+
| 209    | some title   | user1@example.com | 123   | ...     |
| 208    | some title   | user1@example.com | 123   | ...     |
| 328    | another title | user2@example.com | 243   | ...     |
+--------+--------------+---------+--------+----------+

结果表如下：

+--------+--------------+---------+--------+----------+
| job_id | title        | email    | msg_no | content  |
+--------+--------------+---------+--------+----------+
| 210    | some title   | user1@example.com | 123   | ...     |
| 329    | another title | user2@example.com | 243   | ...     |
+--------+--------------+---------+--------+----------+

结论

使用 NOT IN 子查询和 DELETE 语句，我们可以有效地仅删除重复行的 job_id 低于唯一行最大值的记录。这个查询对于清理数据库中的重复数据非常有用。

常见问题解答

1. 为什么我们使用 NOT IN 子查询而不是直接在 WHERE 子句中指定最大值？

NOT IN 子查询更简洁、更高效，因为它只选择不在给定列表中的行。如果我们在 WHERE 子句中指定最大值，我们需要编写一个更复杂的查询，来比较每个行的 job_id 与每个唯一行组的最大 job_id。

2. 如果我们想要删除所有重复行，而不仅仅是 job_id 低于最大值的重复行，我们应该如何修改查询？

要删除所有重复行，我们只需要从查询中删除 MAX(job_id) 子查询。

DELETE FROM job_posts
WHERE (title, email, msg_no) NOT IN (
    SELECT title, email, msg_no
    FROM job_posts
    GROUP BY title, email, msg_no
);

3. 如果我们的表中有更多列，我们如何修改查询？

如果表中有更多列，我们需要确保在 GROUP BY 子句中包含所有这些列。例如，如果表中有 title、email、msg_no 和 salary 列，我们的查询将如下所示：

DELETE FROM job_posts
WHERE (title, email, msg_no, salary) NOT IN (
    SELECT title, email, msg_no, salary, MAX(job_id) AS max_job_id
    FROM job_posts
    GROUP BY title, email, msg_no, salary
);