返回
点互信息:解决词分布式表示稀疏性的利器
人工智能
2023-10-10 14:05:05
点互信息 (PMI)
PMI 是一种统计度量,用于衡量两个事件或符号之间的共现强度。它定义为两个事件或符号的联合概率与它们独立概率的比值:
PMI(X, Y) = log(P(X, Y) / (P(X) * P(Y)))
其中:
- P(X, Y) 是事件 X 和 Y 同时发生的概率。
- P(X) 是事件 X 发生的概率。
- P(Y) 是事件 Y 发生的概率。
PMI 的值为正表明两个事件或符号之间存在正相关性,值为负表明存在负相关性。PMI 越大,相关性越强。
稀疏性问题
在 NLP 中,词分布式表示是一种将词表示为稠密向量的技术。这些向量捕捉了词之间的语义和语法关系。然而,传统的分布式表示方法,如 Word2Vec 和 GloVe,在处理低频词时会产生稀疏向量。这意味着这些向量包含许多零值,这会影响它们的语义表示能力。
PMI 的优势
PMI 可以通过以下方式解决词分布式表示的稀疏性问题:
- 强调共现: PMI 关注词之间的共现强度。通过强调经常共现的词,它可以增强稀疏向量的语义信息。
- 减轻噪音: PMI 通过将联合概率除以独立概率来减轻由随机共现引起的噪音。这有助于识别真实语义关系。
- 对数尺度: PMI 使用对数尺度,这意味着共现的强度会随着共现频率的增加而呈非线性增长。这有助于区分高频和低频词之间的相关性。
应用
PMI 已被广泛应用于 NLP 的各种任务中,包括:
- 词相似性度量
- 文本分类
- 信息检索
- 机器翻译
示例
考虑以下句子:"猫坐在垫子上。"
使用 PMI,我们可以计算词 "猫" 和 "垫子" 之间的共现强度:
P(猫, 垫子) = 1 / 10000(假设在语料库中出现 10000 个单词对)
P(猫) = 1 / 1000(假设单词 "猫" 出现 1000 次)
P(垫子) = 1 / 1000(假设单词 "垫子" 出现 1000 次)
PMI(猫, 垫子) = log((1 / 10000) / (1 / 1000 * 1 / 1000)) = 6.9078
这表明词 "猫" 和 "垫子" 之间存在强烈的正相关性。PMI 的这种强相关性可以用于增强词的分布式表示,从而提高 NLP 任务的性能。
结论
点互信息 (PMI) 是一种有效的统计度量,用于衡量词分布式表示中的共现强度。通过强调共现,减轻噪音和使用对数尺度,PMI 可以帮助解决稀疏性问题,从而增强词的语义表示。在 NLP 的各种任务中,PMI 已被证明是一种有价值的工具,因为它可以提高文本分类、信息检索和机器翻译等任务的性能。