词向量入门：秒懂SkipGram词向量模型及余弦相似度计算

2023-10-11 09:06:06

词向量：自然语言处理的强大工具

词向量简介

在自然语言处理（NLP）中，词向量扮演着至关重要的角色。它是一种技术，将单词映射到固定长度的向量，从而允许我们用向量之间的距离来衡量单词之间的相似性。简单来说，它就像给每个单词赋予一个独特的数学标识，使我们能够对它们进行数量化的比较。

Skip-Gram 词向量模型

Skip-Gram 是一个流行的词向量训练模型，由 Tomas Mikolov 等人于 2013 年提出。它通过最大化目标单词周围上下文单词的似然函数来工作。想象一下，我们正在阅读一句话，Skip-Gram 模型会尝试预测我们接下来会看到什么单词。通过这样做，它学习了单词之间的关系，并将它们编码到向量中。

词向量相似度

衡量词向量相似性的常用方法是计算余弦相似度。这是两个向量夹角的余弦，取值范围为 [-1, 1]。值接近 1 表示高相似度，而值接近 -1 表示低相似度。

词向量的应用

词向量在 NLP 中有着广泛的应用，包括：

词义相似度计算： 比较单词之间的语义相似性，例如“汽车”和“卡车”。
文本分类： 将文本分配到预定义的类别，例如“新闻”、“体育”或“商业”。
机器翻译： 将一种语言的文本转换为另一种语言。
情感分析： 分析文本中表达的情绪，例如积极或消极。
命名实体识别： 识别文本中的命名实体，例如人名、地点和组织。
问答系统： 回答用户提出的自然语言问题。
聊天机器人： 与用户进行自然的对话。

代码示例

以下是一个使用 Python Gensim 库训练 Skip-Gram 词向量的代码示例：

from gensim.models import Word2Vec

# 训练语料
sentences = ["I love natural language processing.", "Natural language processing is awesome."]

# 创建 Skip-Gram 模型
model = Word2Vec(sentences, min_count=1)

# 获取单词 "processing" 的词向量
word_vector = model.wv['processing']

# 计算 "processing" 和 "awesome" 之间的余弦相似度
similarity = model.wv.similarity('processing', 'awesome')

# 打印相似度
print(similarity)