ES 中文分词器的不准与解决办法

后端

2023-11-25 00:33:59

提高 Elasticsearch 搜索准确性：自定义分词器的终极指南

在使用 Elasticsearch 进行中文搜索时，IK 分词器经常会出现分词不准的情况，导致搜索结果不尽人意。本文将深入探讨一种解决此问题的方案——自定义分词器。

自定义分词器的优势

自定义分词器使您可以根据特定需求调整分词规则，从而显著提高分词的准确性。它为您提供了以下优势：

更高的精度： 针对特定域或应用程序定制的分词器可以更准确地拆分文本，从而提高搜索结果的相关性。
更少的噪音： 通过过滤不相关的词语，自定义分词器可以减少搜索结果中的噪音，使查找所需信息变得更加容易。
更好的可控性： 您可以完全控制分词过程，调整分词规则以满足您的确切要求，并随着时间的推移进行优化。

如何实现自定义分词器

实现自定义分词器涉及以下步骤：

继承 Analyzer 类： 从 org.apache.lucene.analysis.Analyzer 类继承。
重写 createComponents 方法： 在该方法中，您将创建 Tokenizer 和 TokenFilter。
创建 Tokenizer： Tokenizer 将文本拆分为标记（令牌）。您可以使用标准的 Tokenizer 或创建自己的自定义 Tokenizer。
创建 TokenFilter： TokenFilter 对 Tokenizer 产生的标记进行进一步处理。可以使用各种内置过滤器，例如：
- LowerCaseFilter：将所有标记转换为小写。
- StopFilter：移除常见停用词。
- SnowballFilter：执行词干提取。
将组件添加到 Analyzer： 将 Tokenizer 和 TokenFilter 添加到 Analyzer 的 components 列表中。

示例代码

以下是一个自定义分词器的示例代码：

public class MyAnalyzer extends Analyzer {

    @Override
    protected TokenStreamComponents createComponents(String fieldName) {
        Tokenizer tokenizer = new StandardTokenizer();
        TokenFilter filter1 = new LowerCaseFilter(tokenizer);
        TokenFilter filter2 = new StopFilter(filter1, StopAnalyzer.ENGLISH_STOP_WORDS_SET);
        TokenFilter filter3 = new SnowballFilter(filter2, "English");
        return new TokenStreamComponents(tokenizer, filter3);
    }
}

使用自定义分词器

创建自定义分词器后，您需要在创建索引时指定它。在 Elasticsearch 中，可以如下所示配置分词器：

{
  "settings": {
    "index": {
      "analysis": {
        "analyzer": {
          "my_analyzer": {
            "type": "custom",
            "tokenizer": "standard",
            "filter": [
              "lowercase",
              "stop",
              "snowball"
            ]
          }
        }
      }
    }
  }
}