剖析 Pandas 处理重复值：从基础到进阶

2023-10-07 08:45:22

在处理数据时，重复值往往会成为困扰，影响分析的准确性和效率。Python 中的 Pandas 库提供了强大的工具，使我们能够轻松识别和处理数据中的重复值。本文将从基础知识出发，深入探讨 Pandas 处理重复值的方法，从基础的判断和删除重复值，到更高级的处理技术。

判断重复值：duplicated() 函数

Pandas 的 duplicated() 函数用于判断 DataFrame 中是否存在重复值。它返回一个布尔型 Series，其中 True 表示重复值，False 表示唯一值。

import pandas as pd

data = pd.DataFrame({'name': ['Alice', 'Bob', 'Alice', 'David'], 'age': [20, 25, 20, 30]})
data['duplicated'] = data['name'].duplicated()

print(data)

输出：

   name  age  duplicated
0  Alice   20       False
1    Bob   25       False
2  Alice   20        True
3  David   30       False

删除重复值：drop_duplicates() 函数

drop_duplicates() 函数用于删除 DataFrame 中的重复值。它默认删除所有重复值，保留第一个出现的唯一值。

unique_data = data.drop_duplicates()

print(unique_data)

输出：

   name  age
0  Alice   20
1    Bob   25
3  David   30

保留特定重复值

在某些情况下，我们可能希望保留特定的重复值，例如保留最新的或最旧的。我们可以使用 keep 参数来指定要保留的重复值。

# 保留最新重复值
latest_data = data.drop_duplicates(keep='last')

# 保留最旧重复值
oldest_data = data.drop_duplicates(keep='first')

按特定列删除重复值

我们还可以按特定列删除重复值。只需将列名作为 subset 参数传递给 drop_duplicates() 函数即可。

# 按 name 列删除重复值
unique_data = data.drop_duplicates(subset=['name'])

标识重复值行

除了删除重复值，我们还可以标识重复值行。这可以通过 duplicated() 函数返回的布尔型 Series 来实现。

duplicate_rows = data[data['duplicated']]

print(duplicate_rows)

输出：

   name  age  duplicated
2  Alice   20        True

总结

Pandas 处理重复值的方法提供了高度的灵活性，使我们能够根据特定需求轻松识别和处理数据中的重复值。从基础的 duplicated() 和 drop_duplicates() 函数到更高级的按特定列删除或标识重复值行，这些方法赋予了我们全面控制数据质量的能力。通过掌握这些技术，我们可以从数据中提取有价值的见解，做出明智的决策。