词频排行: 识别文本中的高频词汇

2023-10-18 22:53:59

我们每天都会接触大量文本，无论是新闻、邮件、文档还是代码，这些文本中都蕴含着丰富的信息。为了从这些信息中提取有价值的知识，我们需要了解文本的构成，而词频统计就是一种重要的方法。词频统计可以帮助我们识别文本中最常出现的单词，从而了解文本的关键词，进而理解文本的主题和重点。

在本文中，我们将介绍词频统计的基本原理和应用，并手把手教你使用Python语言实现词频统计。我们将以力扣题692. 前K个高频单词为例，展示如何从文本中提取前K个高频单词。

词频统计原理

词频统计是一种统计文本中每个单词出现频率的方法。单词的频率越高，说明它在文本中越重要。词频统计可以帮助我们了解文本的主题和重点，还可以帮助我们进行文本分类、文本聚类等任务。

词频统计应用

词频统计的应用非常广泛，包括：

文本摘要：词频统计可以帮助我们提取文本的关键词，从而生成文本摘要。
文本分类：词频统计可以帮助我们判断文本属于哪个类别，例如新闻、邮件、文档或代码。
文本聚类：词频统计可以帮助我们把具有相似主题的文本聚类在一起。
自然语言处理：词频统计是自然语言处理的基础，可以帮助我们进行词性标注、句法分析、语义分析等任务。

Python实现词频统计

现在，我们来手把手教你使用Python语言实现词频统计。我们将以力扣题692. 前K个高频单词为例，展示如何从文本中提取前K个高频单词。

import collections

def topKFrequent(words, k):
    """
    :type words: List[str]
    :type k: int
    :rtype: List[str]
    """
    # 创建一个字典，存储单词及其频率
    word_freq = collections.defaultdict(int)
    for word in words:
        word_freq[word] += 1

    # 将字典中的单词按频率排序
    sorted_words = sorted(word_freq.items(), key=lambda x: x[1], reverse=True)

    # 提取前K个高频单词
    top_k_words = [word for word, freq in sorted_words[:k]]

    return top_k_words


if __name__ == "__main__":
    # 测试代码
    words = ["i", "love", "leetcode", "i", "love", "coding"]
    k = 2
    top_k_words = topKFrequent(words, k)
    print(top_k_words)  # 输出：['i', 'love']