别再手动查找电脑中的重复文件了，试试Python吧！

2023-11-04 16:24:00

背景
在现代数字化的时代里，电脑的使用已成为人们日常生活中不可或缺的一部分。作为工具，电脑自然肩负着存储文件的功能，工作、学习、娱乐，都会在电脑中留下不同种类、不同大小的文件。然而，当文件积累到一定程度，就会出现令人头疼的重复文件问题。它们不仅占用着宝贵的存储空间，还会让我们在寻找文件时陷入混乱。

传统方法的弊端

面对电脑中的重复文件，有人可能会选择手动一个个查找并删除，但这种方法无疑是效率低下的。一方面，很难保证所有的重复文件都能被发现，另一方面，随着重复文件数量的增加，这种手动查找的方法会变得越来越困难和费时。

Python的力量

Python是一种强大的编程语言，它不仅能用于复杂的数据分析和机器学习，也能轻松解决一些生活中的琐碎问题。其中，处理重复文件就是一个很好的例子。通过编写Python脚本，我们可以自动化重复文件查找并删除的过程，省去大量的人工劳动。

Python脚本实现步骤

首先，我们需要导入必要的库。在Python中，可以使用os库和shutil库来处理文件。
接着，我们需要定义一个函数来比较两个文件的内容。我们可以使用hashlib库来计算文件的哈希值，然后比较哈希值是否相同。
接下来，我们需要遍历电脑中的所有文件，并使用上一步定义的函数来比较每个文件的内容。如果发现两个文件的内容相同，则将其中一个文件删除。
最后，我们可以在脚本的末尾打印出删除的重复文件数量，以便用户了解脚本的运行结果。

脚本示例

import os
import shutil
import hashlib

def compare_files(file1, file2):
    with open(file1, 'rb') as f1, open(file2, 'rb') as f2:
        hash1 = hashlib.md5(f1.read()).hexdigest()
        hash2 = hashlib.md5(f2.read()).hexdigest()
    return hash1 == hash2

def find_and_delete_duplicates(directory):
    files = os.listdir(directory)
    deleted_files = 0

    for i in range(len(files)):
        for j in range(i + 1, len(files)):
            if compare_files(os.path.join(directory, files[i]), os.path.join(directory, files[j])):
                os.remove(os.path.join(directory, files[j]))
                deleted_files += 1

    return deleted_files

if __name__ == '__main__':
    directory = input('Enter the directory path: ')
    deleted_files = find_and_delete_duplicates(directory)
    print(f'{deleted_files} duplicate files have been deleted.')