如何安全合并数据库中被外键引用的重复数据？

2024-08-05 05:29:12

数据库中出现重复数据并不罕见，但当这些重复数据与其他表的外键关系纠缠在一起时，合并操作就变得复杂起来。盲目删除重复记录可能导致数据丢失或外键约束错误。本文将介绍一种安全合并这类数据的策略，并提供详细的操作步骤和代码示例，帮助你轻松解决这个棘手问题。

场景重现

假设我们有一个名为 products 的数据库表，用于存储商品信息。每个商品都属于一个特定的分类，并通过 category_id 字段引用 categories 表的主键 id。

CREATE TABLE categories (
  id INT PRIMARY KEY,
  name VARCHAR(255) NOT NULL
);

CREATE TABLE products (
  id INT PRIMARY KEY,
  name VARCHAR(255) NOT NULL,
  category_id INT,
  FOREIGN KEY (category_id) REFERENCES categories(id) ON UPDATE CASCADE
);

现在，categories 表中存在一些名称相同但 id 不同的重复记录，导致部分商品关联到重复的分类记录上。

-- 插入重复的分类记录
INSERT INTO categories (id, name) VALUES (1, 'Electronics'), (2, 'Clothing'), (3, 'Electronics');

-- 插入商品记录，部分商品关联到重复的分类
INSERT INTO products (id, name, category_id) VALUES
(1, 'Laptop', 1),
(2, 'T-shirt', 2),
(3, 'Phone', 3),
(4, 'Headphones', 1);

我们的目标是合并这些重复的分类记录，将所有商品正确地关联到唯一的分类上，并确保数据一致性。

合并策略

直接删除重复的分类记录并修改商品表中的 category_id 看似可行，但容易出错且难以维护。我们可以采用一种更安全、更高效的策略：

识别重复记录 : 首先，我们需要确定哪些分类记录是重复的。我们可以使用分组和聚合函数来找到名称相同但 id 不同的记录。
```
SELECT name, GROUP_CONCAT(id) AS duplicate_ids
FROM categories
GROUP BY name
HAVING COUNT(*) > 1;
```
这条 SQL 语句将返回一个结果集，其中包含所有重复的分类名称以及对应的 id 列表。
确定主记录 : 针对每个重复的分类名称，我们需要选择一个 id 作为主记录，保留该记录并将其他重复记录合并到该记录下。选择主记录的标准可以根据实际情况灵活确定，例如选择 id 最小的记录。
```
SELECT name, MIN(id) AS master_id
FROM categories
GROUP BY name
HAVING COUNT(*) > 1;
```

更新外键 : 在删除重复记录之前，我们需要将所有引用了非主记录 id 的外键更新为指向对应的主记录 id。

UPDATE products
SET category_id = (
  SELECT master_id
  FROM (
    SELECT name, MIN(id) AS master_id
    FROM categories
    GROUP BY name
    HAVING COUNT(*) > 1
  ) AS master_categories
  WHERE master_categories.name = categories.name
)
WHERE EXISTS (
  SELECT 1
  FROM categories AS c2
  WHERE c2.name = categories.name AND c2.id != products.category_id
);

这段代码使用了子查询和连接操作，将 products 表中的 category_id 更新为对应的主记录 id。

删除重复记录 : 完成外键更新后，我们就可以安全地删除重复的分类记录了。
```
DELETE c1
FROM categories AS c1
INNER JOIN categories AS c2 ON c1.name = c2.name AND c1.id > c2.id;
```
这段代码使用了自连接和 id 比较，确保只删除非主记录。