Python词频统计——轻松搞定词频问题！

2023-11-15 12:13:50

在广袤的数据海洋中，词频统计犹如一盏明灯，指引我们探寻文本的奥秘，揭示隐藏在文字背后的规律。Python作为一门功能强大的编程语言，为词频统计提供了丰富的工具和函数，使我们能够轻松高效地处理文本数据。

为了更好地理解词频统计的原理，让我们从一个简单的例子入手。假设我们有一段文本：

今天天气真好，阳光明媚，微风习习。

词频统计的目标就是计算出这段文本中每个单词出现的次数。我们可以使用Python中的split()方法将这段文本分割成单词，然后使用collections.Counter()方法对单词进行计数。代码如下：

from collections import Counter

text = "今天天气真好，阳光明媚，微风习习。"
words = text.split()
word_counts = Counter(words)

print(word_counts)

输出结果为：

Counter({'今天': 1, '天气': 1, '真好': 1, '阳光': 1, '明媚': 1, '微风': 1, '习习': 1})

从输出结果中，我们可以看到，这段文本中每个单词都只出现了一次。这表明，这段文本的词汇量比较贫乏，没有重复的单词。

如果我们想计算出这段文本中每个单词出现的相对频率，我们可以使用如下代码：

from collections import Counter

text = "今天天气真好，阳光明媚，微风习习。"
words = text.split()
word_counts = Counter(words)

total_words = len(words)

for word, count in word_counts.items():
    relative_frequency = count / total_words
    print(word, relative_frequency)

输出结果为：

今天 0.14285714285714285
天气 0.14285714285714285
真好 0.14285714285714285
阳光 0.14285714285714285
明媚 0.14285714285714285
微风 0.14285714285714285
习习 0.14285714285714285

从输出结果中，我们可以看到，这段文本中每个单词出现的相对频率都是0.14285714285714285。这表明，这段文本的词汇量比较均匀，没有特别突出的单词。

词频统计在文本分析和数据科学中有着广泛的应用。例如，我们可以通过词频统计来提取文本中的关键词，分析文本的情感倾向，研究文本的风格和结构。词频统计还可以用于推荐系统、机器学习和自然语言处理等领域。

希望这篇文章能够帮助读者轻松搞定Python中的词频统计问题。如果您有任何问题，欢迎随时留言交流。