Elasticsearch 分词器 token 过滤器使用详解

2023-09-10 10:54:09

Elasticsearch 中的 Token 过滤器：释放分词器的强大功能

在 Elasticsearch 的世界中，分词器扮演着至关重要的角色。它们将文本分解成更小的组成部分，称为标记，为搜索和存储奠定基础。为了提升分词器的能力，Elasticsearch 引入了 token 过滤器，使我们能够进一步加工和修改分词结果，满足特定需求。

Token 过滤器的分类与职责

Elasticsearch 提供了丰富的 token 过滤器，每种过滤器都拥有独特的职责：

标准化： ASCIIFoldingFilter 和 LowerCaseFilter 将文本转换为小写，消除大小写差异，简化搜索。
优化存储： LengthFilter 和 RemoveDuplicatesFilter 删除不必要或重复的标记，减少索引体积。
增强搜索： EdgeNgramFilter 和 NGramFilter 生成 n 元标记，扩展短语和模糊查询的能力。
语言处理： ElisionFilter 和 StopFilter 剔除特定语言中的缩略词和停止词，提高搜索精确度。
定制化处理： SnowballFilter 和 StemmerOverrideFilter 实现自定义词干提取规则，满足特定领域需求。
实体识别： PatternCaptureFilter 和 PatternReplaceFilter 从文本中提取实体，例如日期或电子邮件，助力高级搜索。

实际应用场景

Token 过滤器在各种场景中发挥着重要作用：

标准化文本： 使用 ASCIIFoldingFilter 和 LowerCaseFilter 统一文本格式，便于不区分大小写的搜索。
节省存储空间： 利用 LengthFilter 和 RemoveDuplicatesFilter 清理不必要的标记，降低索引大小。
提升搜索相关性： 借助 EdgeNgramFilter 和 NGramFilter 生成 n 元标记，增强短语和模糊查询的效率。
优化特定语言处理： 使用 ElisionFilter 和 StopFilter 针对不同语言定制搜索，过滤掉无关词语。
满足行业需求： 通过 SnowballFilter 和 StemmerOverrideFilter 定义词干提取规则，适应特定行业术语。
提取重要信息： 利用 PatternCaptureFilter 和 PatternReplaceFilter 识别文本中的关键实体，例如日期或联系方式。

示例代码

让我们通过一个示例来理解 token 过滤器的应用：

{
  "analysis": {
    "analyzer": {
      "my_analyzer": {
        "tokenizer": "standard",
        "filter": [
          "lowercase",
          "asciifolding",
          "stop",
          "ngram"
        ]
      }
    }
  }
}

在这个示例中，我们创建了一个名为 "my_analyzer" 的分析器。它使用标准分词器，并应用了以下 token 过滤器：