返回

点互信息:解决词分布式表示稀疏性的利器

人工智能

点互信息 (PMI)

PMI 是一种统计度量,用于衡量两个事件或符号之间的共现强度。它定义为两个事件或符号的联合概率与它们独立概率的比值:

PMI(X, Y) = log(P(X, Y) / (P(X) * P(Y)))

其中:

  • P(X, Y) 是事件 X 和 Y 同时发生的概率。
  • P(X) 是事件 X 发生的概率。
  • P(Y) 是事件 Y 发生的概率。

PMI 的值为正表明两个事件或符号之间存在正相关性,值为负表明存在负相关性。PMI 越大,相关性越强。

稀疏性问题

在 NLP 中,词分布式表示是一种将词表示为稠密向量的技术。这些向量捕捉了词之间的语义和语法关系。然而,传统的分布式表示方法,如 Word2Vec 和 GloVe,在处理低频词时会产生稀疏向量。这意味着这些向量包含许多零值,这会影响它们的语义表示能力。

PMI 的优势

PMI 可以通过以下方式解决词分布式表示的稀疏性问题:

  • 强调共现: PMI 关注词之间的共现强度。通过强调经常共现的词,它可以增强稀疏向量的语义信息。
  • 减轻噪音: PMI 通过将联合概率除以独立概率来减轻由随机共现引起的噪音。这有助于识别真实语义关系。
  • 对数尺度: PMI 使用对数尺度,这意味着共现的强度会随着共现频率的增加而呈非线性增长。这有助于区分高频和低频词之间的相关性。

应用

PMI 已被广泛应用于 NLP 的各种任务中,包括:

  • 词相似性度量
  • 文本分类
  • 信息检索
  • 机器翻译

示例

考虑以下句子:"猫坐在垫子上。"

使用 PMI,我们可以计算词 "猫" 和 "垫子" 之间的共现强度:

P(猫, 垫子) = 1 / 10000(假设在语料库中出现 10000 个单词对)
P(猫) = 1 / 1000(假设单词 "猫" 出现 1000 次)
P(垫子) = 1 / 1000(假设单词 "垫子" 出现 1000 次)

PMI(猫, 垫子) = log((1 / 10000) / (1 / 1000 * 1 / 1000)) = 6.9078

这表明词 "猫" 和 "垫子" 之间存在强烈的正相关性。PMI 的这种强相关性可以用于增强词的分布式表示,从而提高 NLP 任务的性能。

结论

点互信息 (PMI) 是一种有效的统计度量,用于衡量词分布式表示中的共现强度。通过强调共现,减轻噪音和使用对数尺度,PMI 可以帮助解决稀疏性问题,从而增强词的语义表示。在 NLP 的各种任务中,PMI 已被证明是一种有价值的工具,因为它可以提高文本分类、信息检索和机器翻译等任务的性能。