使用 sentence-transformers 查找语义相似的句子：分步指南

2024-03-18 16:57:20

使用 sentence-transformers 解决句子的语义相似性

句子语义相似性在自然语言处理 (NLP) 中至关重要，用于比较不同句子之间的含义相似度。sentence-transformers 提供了强大的工具，让开发者可以轻松地执行此任务。本文将探讨如何使用 sentence-transformers 来查找语义上相似的句子，包括详细的分步指南和代码示例。

加载模型

第一步是加载 sentence-transformers 提供的预训练模型。这些模型已经过训练，可以理解句子的含义，并将其转换为数字向量（嵌入）。

from sentence_transformers import SentenceTransformer

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

编码句子

要比较句子的相似性，需要将它们编码为数字向量。sentence-transformers 的 encode() 方法可以完成此任务。

query = '我今天很开心'
sentences = ['今天天气真好', '我今天过得很糟糕', '我有一个好主意']

query_embedding = model.encode(query)
sentence_embeddings = model.encode(sentences)

计算相似度

最后一步是计算编码之间余弦相似度，余弦相似度是一个度量，它量化了两个向量的方向相似性。

for i, sentence_embedding in enumerate(sentence_embeddings):
    similarity = cosine_similarity(query_embedding, sentence_embedding)
    print(f"相似度与 {sentences[i]}：{similarity}")

代码示例

以下是一个完整的代码示例，演示如何查找语义上相似的句子：

from sentence_transformers import SentenceTransformer
from sklearn.metrics.pairwise import cosine_similarity

model = SentenceTransformer('sentence-transformers/all-MiniLM-L6-v2')

query = '我今天很开心'
sentences = ['今天天气真好', '我今天过得很糟糕', '我有一个好主意']

query_embedding = model.encode(query)
sentence_embeddings = model.encode(sentences)

for i, sentence_embedding in enumerate(sentence_embeddings):
    similarity = cosine_similarity(query_embedding, sentence_embedding)
    print(f"相似度与 {sentences[i]}：{similarity}")