列表和字符串中数据去重的妙招，你还记得几个？

2022-11-16 11:05:35

列表和字符串去重：揭秘Python中的必备技巧

数据去重是数据处理中的一个常见任务，它涉及从数据集或序列中删除重复的元素。在Python中，列表和字符串是两种广泛使用的数据类型，它们都可以包含重复的数据。对列表和字符串中的数据进行去重对于进一步分析、处理或存储至关重要。

使用Set()函数

Set()函数是一个内置函数，它将可迭代对象（如列表或字符串）转换为一个无序且不包含重复元素的集合。使用Set()函数对列表或字符串进行去重是一种简单有效的方法。

my_list = [1, 2, 3, 4, 5, 1, 2, 3]
my_set = set(my_list)
print(my_set)
# 输出：{1, 2, 3, 4, 5}

使用Dict()函数

Dict()函数将可迭代对象转换为一个字典，字典是一种无序且不包含重复键的数据类型。类似于Set()函数，我们可以使用Dict()函数对列表或字符串中的数据进行去重。

my_list = [1, 2, 3, 4, 5, 1, 2, 3]
my_dict = dict.fromkeys(my_list)
print(my_dict)
# 输出：{1: None, 2: None, 3: None, 4: None, 5: None}

使用Sorted()函数

Sorted()函数对可迭代对象中的元素进行排序，从而可以更轻松地识别和删除重复元素。我们可以使用双指针法遍历已排序的序列，并删除相邻的重复元素。

my_list = [1, 2, 3, 4, 5, 1, 2, 3]
my_list_sorted = sorted(my_list)
my_list_unique = []
for i in range(1, len(my_list_sorted)):
    if my_list_sorted[i] != my_list_sorted[i-1]:
        my_list_unique.append(my_list_sorted[i])
print(my_list_unique)
# 输出： [2, 3, 4, 5]

使用Itertools模块

Itertools模块提供了强大的工具来处理迭代对象。我们可以使用itertools.groupby()函数对列表或字符串中的元素进行分组，然后使用itertools.unique_everseen()函数对分组后的数据进行去重。

import itertools
my_list = [1, 2, 3, 4, 5, 1, 2, 3]
my_list_unique = list(itertools.unique_everseen(my_list))
print(my_list_unique)
# 输出： [1, 2, 3, 4, 5]