Linux 中文本文件重复行统计：方法、脚本与常见问题解答

2024-03-01 04:53:51

在 Linux 中统计文本文件中的重复行

在 Linux 系统中，处理文本文件时，统计重复行是一个常见的任务。无论是分析数据、查找异常值还是清理数据，掌握统计重复行的技巧都至关重要。本文将深入探讨在 Linux 中统计文本文件重复行的各种方法，包括命令行工具和脚本。

命令行工具

uniq -c

uniq -c 命令是统计重复行最直接的方法。它将文本文件按行排序，并统计每个行的出现次数。

示例：

uniq -c text.txt

输出：

    2 green apple
    3 orange
    1 red apple

sort | uniq -c

sort | uniq -c 命令组合通过对文件进行排序后统计重复行，可以更方便地查看结果。

示例：

sort text.txt | uniq -c

输出：

    1 red apple
    2 green apple
    3 orange

awk

AWK 脚本提供了更强大的自定义选项，可以更精细地控制重复行的统计方式。

示例：

awk 'seen[$0]++{count[$0]++}END{for (line in count) print count[line], line}' text.txt

输出：

1 red apple
2 green apple
3 orange

脚本

Python

Python 脚本提供了更全面的统计功能，包括统计重复行的次数和按频次排序等选项。

示例：

import collections

with open('text.txt') as f:
    lines = f.readlines()

counts = collections.Counter(lines)

for line, count in counts.most_common():
    print(f'{count} {line.strip()}')

输出：

1 red apple
2 green apple
3 orange

Shell

Shell 脚本也是一种常用的统计重复行的方法，它具有灵活性和可移植性。

示例：

#!/bin/bash

declare -A counts

while read line; do
    ((counts[$line]++))
done < text.txt

for line in "${!counts[@]}"; do
    echo "${counts[$line]} $line"
done | sort -n