力扣819：找出最常见的单词

前端

2024-01-09 10:33:19

引言

欢迎来到力扣819挑战！在这个激动人心的谜题中，我们潜入文本世界的深处，踏上一段寻找最常见单词的探险之旅。准备好迎接挑战了吗？

问题

给你一段文字，找出其中出现频率最高的单词。如果有多个单词出现频率相同，请返回其中一个。不得考虑诸如标点符号和换行符之类的非字母字符。

算法剖析

解决这个难题需要一种多管齐下的方法，我们将采用以下策略：

文本预处理： 使用正则表达式将文本拆分为单词，并将其全部转换为小写，以忽略大小写差异。
单词统计： 使用哈希表（字典）统计每个单词的出现次数。
频率比较： 遍历哈希表，找出出现频率最高的单词。

步骤详解

导入必要的库：

import re
from collections import Counter

预处理文本：

text = text.lower()
words = re.findall(r'[a-zA-Z]+', text)

统计单词出现次数：

word_counts = Counter(words)

找出最常见的单词：

most_common_word = max(word_counts, key=word_counts.get)

返回结果：

return most_common_word

示例代码

def most_common_word(paragraph):
  """
  :type paragraph: str
  :rtype: str
  """
  text = paragraph.lower()
  words = re.findall(r'[a-zA-Z]+', text)
  word_counts = Counter(words)
  most_common_word = max(word_counts, key=word_counts.get)
  return most_common_word

优化建议

为了进一步提升效率，我们可以考虑以下优化技巧：