`

elasticsearch 中文分词 配置同义词

阅读更多
配置同义词
Elasticsearch 自带一个名为 synonym 的同义词 filter。为了能让 IK 和 synonym 同时工作,我们需要定义新的 analyzer,用 IK 做 tokenizer,synonym 做 filter。听上去很复杂,实际上要做的只是加一段配置。
打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置:

index:
  analysis:
    analyzer:
      ik_syno:
          type: custom
          tokenizer: ik_max_word
          filter: [my_synonym_filter]
      ik_syno_smart:
          type: custom
          tokenizer: ik_smart
          filter: [my_synonym_filter]
    filter:
      my_synonym_filter:
          type: synonym
          synonyms_path: analysis/synonym.txt


以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别如下:
ik_max_word:会将文本做最细粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合;
ik_smart:会将文本做最粗粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」;
ik_syno 和 ik_syno_smart 都会使用 synonym filter 实现同义词转换。
分享到:
评论

相关推荐

    Elasticsearch7.10.0集成IK相关性同义词改源码实现MySql5.7.2实现远程动态同义词词库实时更新.pdf

    IK分词器是ES中常用的中文分词插件,通过集成IK分词器并对其进行源码修改,可以实现从远程数据库MySql5.7.2动态更新同义词词库,并实现实时同步。 ### Elasticsearch集成IK分词器 集成IK分词器是通过在Elastic...

    es5.3.2使用热词、停用词、同义词词典.rar

    本资源包“es5.3.2使用热词、停用词、同义词词典.rar”提供了针对Elasticsearch 5.3.2版本的热词、停用词和同义词的相关工具和配置,帮助用户优化全文搜索引擎的表现。 首先,我们来理解一下这些概念: 1. **热词*...

    es 同义词 热更新 1.1版本

    标题中的“es 同义词 热更新 1.1版本”指的是Elasticsearch(简称ES)在1.1版本中对同义词功能进行了热更新的支持。Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎,常用于全文检索、结构化搜索以及...

    es安装ik分词器

    ### Elasticsearch 安装 IK 分词器详解 #### 一、背景及需求分析 Elasticsearch 是一款基于 Lucene 的搜索引擎,广泛...通过以上步骤,可以有效地在 Elasticsearch 中安装并配置 IK 分词器,提高中文文本处理的能力。

    ES同义词插件 analysis-dynamic-synonym7.5.1版本

    3. 配置同义词文件,可以是JSON格式或其他支持的格式,然后在Elasticsearch索引的分析器设置中引用这个文件。 4. 创建或更新索引模板,确保使用了包含同义词插件的分析器。 5. 最后,重启Elasticsearch服务以使更改...

    elasticsearch-analysis-ik 7.10.0 分词器

    5. **插件化设计**:方便与其他 Elasticsearch 插件配合使用,如拼音插件、同义词插件等。 **安装与使用** 安装 Elasticsearch-analysis-ik 插件非常简单,只需在 Elasticsearch 根目录下执行命令 `bin/elastic...

    ik分词器tar包 7.10.2

    5. **配置灵活性**:用户可以通过修改配置文件调整分词策略,如设置最大深度、是否开启同义词扩展等。 6. **与Elasticsearch集成**:IK分词器与Elasticsearch有良好的集成,安装简单,只需将解压后的`elasticsearch...

    IK分词器elasticsearch-analysis-ik-7.17.16

    IK分词器是针对Elasticsearch设计的一款强大的中文分词插件,其全称为"elasticsearch-analysis-ik"。在Elasticsearch中,分词器的作用至关重要,它负责将用户输入的文本进行词汇切分,以便进行后续的搜索和分析操作...

    elasticsearch7.17.11版本分词器插件安装包

    IK分词器(Intelligent Chinese Analyzer for Elasticsearch)是为Elasticsearch设计的一款强大、灵活且高效的中文分词插件。它支持自定义扩展词典、同义词扩展、动态词典加载等功能,能更好地适应中文的复杂语境。 ...

    elasticsearch7.8.0版本的IK分词器

    5. **同义词处理**: 支持同义词扩展,可以通过配置同义词词典,使得搜索时能同时匹配到原词和其同义词,提高搜索的包容性。 6. **停用词过滤**: 可以配置停用词表,忽略常见的无实际意义的词汇,如“的”、“和”等...

    ElasticSearch基于Mysql热更新IK词典项目

    1. 安装IK分词器:下载并安装`elasticsearch-analysis-ik-8.1.0`,配置ES的`plugins`目录。 2. 配置分词器:在ES的`analysis`配置中指定使用IK分词器,并设置词典更新的相关参数。 3. 创建MySQL连接:在ES中配置...

    elasticsearch7.6.1-ik分词器

    在 Elasticsearch 的索引模板或者映射设置中,可以通过以下方式配置 IK 分词器: ```json "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "ik_max_word" } }, "tokenizer": { ...

    基于HanLP自然语言处理包的elasticsearch分词器 hanlp-tokenizer-master

    基于HanLP自然语言处理包的elasticsearch分词器 功能 本分词器使用HanLP提供的维特比分词 屏蔽了本地配置用户词典 增加同义词索引功能 增加远程词典热更新(用户词典,停词典,同义词典) 使用 目前支持的es版本为...

    es6.4.0+中文分词器6.4.0.rar

    使用中文分词器后,Elasticsearch可以更好地处理和索引中文文本,支持复杂的搜索查询,如模糊匹配、同义词搜索、短语匹配等。这对于中文网站、社交媒体分析、新闻聚合等应用场景至关重要。 总的来说,"es6.4.0+中文...

    ElasticSearch7.4.2-ik分词.zip

    4. 在 Elasticsearch 的配置文件(elasticsearch.yml)中,设置 analyzer 为 ik,如 `analysis.analyzer.default.type: "ik_max_word"` 或 `ik_smart`,根据需求选择分词策略。 5. 使用 Elasticsearch 的 RESTful ...

    elasticsearch-analysis-ik-6.3.0 elasticsearch- 6.3.0 分词jar包

    在本场景中,我们关注的是"elasticsearch-analysis-ik-6.3.0",这是一个针对Elasticsearch 6.3.0版本的中文分词插件。下面将详细介绍这个插件以及相关的Elasticsearch知识。 首先,Elasticsearch 是一个开源的全文...

    elasticsearch-analysis-dynamic-synonym-7.0.0.zip

    "elasticsearch-analysis-dynamic-synonym-7.0.0.zip"是一个专为Elasticsearch设计的同义词插件,它的主要目的是在搜索过程中实现同义词的智能匹配,提高搜索的准确性和用户体验。 这个插件的独特之处在于它支持...

    ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词

    ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...

    es中文分词器 ik分词器.zip

    ** Elasticsearch (ES) 中文分词器:IK 分词器详解 ** Elasticsearch(ES)作为一款强大的全文搜索引擎,其内置的分词器在处理英文文本时表现出色,但在处理中文这种复杂的语言结构时,可能无法满足需求。为了解决...

    ElasticSearch的IK分词器包

    在构建高效的全文搜索引擎时,Elasticsearch(简称ES)是一个常用的选择,而IK分词器则是ES中针对中文处理的重要组件。本知识点将详细介绍ElasticSearch的IK分词器及其在微服务项目中的应用。 首先,Elasticsearch...

Global site tag (gtag.js) - Google Analytics