Lucene的点积革命：挖掘向量相似性潜能

2023-02-05 14:54:32

揭秘 Lucene 中点积的革命：释放向量相似性潜力

前言

在信息爆炸的时代，搜索引擎和推荐系统在帮助我们从浩瀚的信息海洋中获取相关信息方面发挥着至关重要的作用。Lucene，作为业界领先的全文搜索引擎库，在这一领域有着举足轻重的地位。最近，Lucene 的一个重要更新——点积（dot product）的扩展——正在重新定义向量相似性计算，为各种应用带来巨大的变革。

点积的传统限制

点积是一种强大的向量运算，用于衡量两个向量的相似性。然而，传统上，Lucene 限制点积只能在标准化向量上使用，这意味着向量的幅度必须相等。这种限制虽然可以简化计算，但却限制了点积的适用范围，尤其是当向量幅度存在差异时。

限制的弊端

标准化向量的限制带来了一个关键问题：它掩盖了向量之间的真正相似性。设想以下场景：你在搜索与“人工智能”相关的文档，却发现结果中的文档相关性较低。进一步检查后，你意识到这是因为查询向量和文档向量没有被标准化。查询向量的幅度较小，而文档向量的幅度较大，导致点积计算结果被文档向量的幅度所掩盖，从而导致低相关文档排名靠前。

Lucene 点积的扩展

为了解决这个问题，Lucene 对点积进行了扩展，不再局限于标准化向量。这一扩展通过解除标准化向量的限制，捕捉向量之间的真正相似性，即使它们具有不同的幅度。通过这种方式，Lucene 能够更准确地衡量向量相似性，提升搜索准确性。

余弦相似性：一种替代方法

除了点积的扩展，Lucene 还支持余弦相似性查询。余弦相似性是点积的归一化形式，它不受向量幅度的影响，因此能够更准确地衡量向量之间的相似性。为了在 Lucene 中使用余弦相似性查询，我们可以利用 Lucene 的 Similarities API 指定相似性度量标准，如下所示：

Query query = new TermQuery(new Term("field", "value"));
Similarity similarity = new CosineSimilarity();
Searcher searcher = new IndexSearcher(indexReader);
TopDocs topDocs = searcher.search(query, 10, similarity);