FST构建：Lucene源码系列（十）

2024-01-28 03:04:48

FST树：优化词元映射的利器

背景

倒排索引是搜索引擎的核心，它通过词元来关联文档，但如何通过词元快速定位其倒排数据呢？这时，映射词元和倒排位置的数据结构就至关重要。传统上，哈希表可能是我们的首选，但当词元数量达到数十亿时，哈希表的空间开销将难以承受，更不用说在磁盘上存储的挑战了。因此，我们需要一种更加巧妙的数据结构。

FST树

FST（Finite State Transducer），中文名：有限状态转换器。它是一种有穷状态转换器，由一个五元组（Σ，Q，I，F，δ）来，其中：

Σ为输入符号表
Q为状态集
I为初始状态
F为接受状态
δ：Q × Σ → Q，是状态转换函数，输入状态与符号，返回下一个状态

FST是一种有向无环图，每个节点代表一个状态，每条边代表输入一个符号后转换到另一个状态。最常见的FST是确定有穷状态自动机（DFA），它是FST的一种特殊情况，即每个状态只有一种输入符号可以转换。

在Lucene中，FST主要用来存储词元和文档ID的映射关系。FST树中每个节点代表一个词元的前缀，每个边的标签代表词元前缀的下一个字符，叶子节点代表一个完整的词元，叶子节点的值就是该词元对应的文档ID列表。

FST树的优点

FST树具有以下优点：

空间高效： FST树只存储了词元的前缀，大大节省了空间。
查找高效： 通过前缀查找可以快速定位词元的文档ID列表。
可扩展性好： FST树可以动态增量构建，随着词元数量的增加，可以平滑地扩展。

FST树在Lucene中的应用

在Lucene中，FST树被广泛用于term字典、term映射和文档ID映射等场景。

术语字典： 术语字典存储了索引中的所有术语以及它们在词汇表中的位置。FST树可以快速查找术语的位置，从而提高索引性能。
术语映射： 术语映射将术语映射到其文档频率。FST树可以快速查找文档频率，从而提高相关性计算的性能。
文档ID映射： 文档ID映射将文档ID映射到其在倒排列表中的位置。FST树可以快速查找文档ID的位置，从而提高文档检索的性能。

代码示例

以下是使用Lucene构建FST树的代码示例：

// 创建FST构建器
FST.Builder<Long> builder = new FST.Builder<>(FST.INPUT_TYPE.BYTE1, 0, 0, true, true, Integer.MAX_VALUE, null, true);

// 添加词元和文档ID到构建器中
builder.add("term1", 1L);
builder.add("term2", 2L);
builder.add("term3", 3L);

// 构建FST
FST<Long> fst = builder.finish();

// 使用FST查找文档ID
Long docId = fst.get("term1");