Elasticsearch：创建自定义分析器的专家指南

2024-01-11 17:55:49

在当今信息爆炸的时代，人们需要一种快速有效的方法来获取相关信息。Elasticsearch 作为一种开源的分布式搜索和分析引擎，为用户提供了一种强大的工具来构建快速高效的搜索应用程序。为了实现最佳的搜索体验，使用合适的分析器对文本进行处理至关重要。

在 Elasticsearch 中，分析器是一种用于将文本分解成单独术语的工具，该过程被称为分词。分析器包含一系列字符过滤器、分词器和分词过滤器，每个组件都有其特定的作用。字符过滤器用于清除文本中的噪声，例如标点符号、数字或 HTML 标记；分词器用于将文本分解成单独的术语；分词过滤器用于进一步处理术语，例如将它们转换成小写或删除停用词。

通过理解分析器的各个组成部分，您可以创建适合特定需求的自定义分析器。在本文中，我们将介绍不同的内置字符过滤器、分词器和分词过滤器，以及如何创建适合我们需求的自定义分析器。

字符过滤器

字符过滤器是分析器链中的第一个组件，用于清除文本中的噪声。Elasticsearch 提供了多种内置的字符过滤器，例如：

Standard Char Filter： 标准字符过滤器，用于删除标点符号、数字和 HTML 标记。
Whitespace Char Filter： 空格字符过滤器，用于删除空格和制表符。
LowerCase Char Filter： 小写字符过滤器，用于将所有字符转换为小写。

分词器

分词器是分析器链中的第二个组件，用于将文本分解成单独的术语。Elasticsearch 提供了多种内置的分词器，例如：

Standard Tokenizer： 标准分词器，用于将文本分解成单词和数字。
Whitespace Tokenizer： 空格分词器，用于将文本分解成单词和短语。
Ngram Tokenizer： N-gram 分词器，用于将文本分解成指定长度的 N-gram。

分词过滤器

分词过滤器是分析器链中的第三个组件，用于进一步处理术语。Elasticsearch 提供了多种内置的分词过滤器，例如：

Stop Filter： 停用词过滤器，用于删除常见的停用词。
Stemmer Filter： 词干过滤器，用于将术语还原为其词根。
Length Filter： 长度过滤器，用于删除长度低于或高于指定阈值的术语。

创建自定义分析器

要创建自定义分析器，您需要使用 Elasticsearch 的分析器定义语法。该语法允许您指定要使用的字符过滤器、分词器和分词过滤器。例如，以下示例创建一个名为 "my_analyzer" 的自定义分析器，该分析器使用标准字符过滤器、标准分词器和停用词过滤器：

PUT /_index_template/my_template
{
  "index_patterns": ["my-index-*"],
  "mappings": {
    "properties": {
      "title": {
        "type": "text",
        "analyzer": "my_analyzer"
      }
    }
  },
  "analysis": {
    "analyzer": {
      "my_analyzer": {
        "type": "custom",
        "char_filter": [
          "html_strip"
        ],
        "tokenizer": "standard",
        "filter": [
          "lowercase",
          "stop"
        ]
      }
    }
  }
}