如何在 MySQL 中查找 array<string> 类型列的重复值？

2024-07-14 22:37:13

如何在 MySQL 中查找 array 类型列中的重复值

在 MySQL 数据库中处理类似标签、类别等多值属性时，你可能会遇到需要查找包含重复值的数组类型列的情况。然而，直接在 array<string> 类型的列上使用 GROUP BY 和 HAVING COUNT(*) > 1 的传统方法并不可行。

为了解决这个问题，我们可以利用 MySQL 的内置函数和一些巧妙的查询技巧。假设你有一个名为 "Products" 的表，其中包含产品信息，包括产品 ID (product_id) 和产品标签 (tags)，tags 列的类型为 array<string>，用于存储每个产品的标签列表。

| product_id | tags |
|---|---|
| 1 | ["电子产品", "手机", "智能手机"] |
| 2 | ["家电", "电视", "智能电视"] |
| 3 | ["书籍", "小说", "科幻小说"] |
| 4 | ["电子产品", "手机", "耳机"] |
| 5 | ["家电", "冰箱", "洗衣机"] |

现在，你需要找到 tags 列中存在重复值的记录，例如 product_id 为 1 和 4 的记录，它们的 tags 列都包含 "电子产品" 和 "手机"。

步骤一：将数组转换为多行

首先，我们需要使用 JSON_TABLE 函数将 tags 数组转换为多行。

SELECT
    p.product_id,
    t.tag
FROM
    Products p,
    JSON_TABLE(p.tags, '$[*]' COLUMNS(tag VARCHAR(255) PATH 'SELECT
    p.product_id,
    t.tag
FROM
    Products p,
    JSON_TABLE(p.tags, '$[*]' COLUMNS(tag VARCHAR(255) PATH '$')) AS t;
#x27;)) AS t;

这段代码将会生成一个新的结果集，其中每行代表一个产品标签：

| product_id | tag |
|---|---|
| 1 | 电子产品 |
| 1 | 手机 |
| 1 | 智能手机 |
| 2 | 家电 |
| 2 | 电视 |
| 2 | 智能电视 |
... | ... |

步骤二：分组和筛选重复标签

接下来，我们对提取的标签进行分组，并使用 COUNT(*) 函数计算每个标签在每个产品中出现的次数。HAVING COUNT(*) > 1 条件用于筛选出出现次数大于 1 的标签，即存在重复值的标签。

SELECT
    product_id,
    tag,
    COUNT(*) AS occurrence
FROM
    (
        SELECT
            p.product_id,
            t.tag
        FROM
            Products p,
            JSON_TABLE(p.tags, '$[*]' COLUMNS(tag VARCHAR(255) PATH 'SELECT
    product_id,
    tag,
    COUNT(*) AS occurrence
FROM
    (
        SELECT
            p.product_id,
            t.tag
        FROM
            Products p,
            JSON_TABLE(p.tags, '$[*]' COLUMNS(tag VARCHAR(255) PATH '$')) AS t
    ) AS extracted_tags
GROUP BY
    product_id,
    tag
HAVING
    COUNT(*) > 1;
#x27;)) AS t
    ) AS extracted_tags
GROUP BY
    product_id,
    tag
HAVING
    COUNT(*) > 1;

这段代码将返回以下结果集，显示每个产品中重复出现的标签：

| product_id | tag | occurrence |
|---|---|---|
| 1 | 电子产品 | 2 |
| 1 | 手机 | 2 |
| 4 | 电子产品 | 2 |
| 4 | 手机 | 2 |

步骤三：查找包含重复标签的记录

最后，我们可以根据上一步的结果，筛选出包含重复标签的 product_id。

SELECT DISTINCT
    product_id
FROM
    (
        SELECT
            product_id,
            tag,
            COUNT(*) AS occurrence
        FROM
            (
                SELECT
                    p.product_id,
                    t.tag
                FROM
                    Products p,
                    JSON_TABLE(p.tags, '$[*]' COLUMNS(tag VARCHAR(255) PATH 'SELECT DISTINCT
    product_id
FROM
    (
        SELECT
            product_id,
            tag,
            COUNT(*) AS occurrence
        FROM
            (
                SELECT
                    p.product_id,
                    t.tag
                FROM
                    Products p,
                    JSON_TABLE(p.tags, '$[*]' COLUMNS(tag VARCHAR(255) PATH '$')) AS t
            ) AS extracted_tags
        GROUP BY
            product_id,
            tag
        HAVING
            COUNT(*) > 1
    ) AS duplicated_tags;
#x27;)) AS t
            ) AS extracted_tags
        GROUP BY
            product_id,
            tag
        HAVING
            COUNT(*) > 1
    ) AS duplicated_tags;