配置同义词
Elasticsearch 自带一个名为 synonym 的同义词 filter。为了能让 IK 和 synonym 同时工作,我们需要定义新的 analyzer,用 IK 做 tokenizer,synonym 做 filter。听上去很复杂,实际上要做的只是加一段配置。
打开 ~/es_root/config/elasticsearch.yml 文件,加入以下配置:
index:
analysis:
analyzer:
ik_syno:
type: custom
tokenizer: ik_max_word
filter: [my_synonym_filter]
ik_syno_smart:
type: custom
tokenizer: ik_smart
filter: [my_synonym_filter]
filter:
my_synonym_filter:
type: synonym
synonyms_path: analysis/synonym.txt
以上配置定义了 ik_syno 和 ik_syno_smart 这两个新的 analyzer,分别对应 IK 的 ik_max_word 和 ik_smart 两种分词策略。根据 IK 的文档,二者区别如下:
ik_max_word:会将文本做最细粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、中华人民、中华、华人、人民共和国、人民、人、民、共和国、共和、和、国国、国歌」,会穷尽各种可能的组合;
ik_smart:会将文本做最粗粒度的拆分,例如「中华人民共和国国歌」会被拆分为「中华人民共和国、国歌」;
ik_syno 和 ik_syno_smart 都会使用 synonym filter 实现同义词转换。
分享到:
相关推荐
IK分词器是ES中常用的中文分词插件,通过集成IK分词器并对其进行源码修改,可以实现从远程数据库MySql5.7.2动态更新同义词词库,并实现实时同步。 ### Elasticsearch集成IK分词器 集成IK分词器是通过在Elastic...
本资源包“es5.3.2使用热词、停用词、同义词词典.rar”提供了针对Elasticsearch 5.3.2版本的热词、停用词和同义词的相关工具和配置,帮助用户优化全文搜索引擎的表现。 首先,我们来理解一下这些概念: 1. **热词*...
标题中的“es 同义词 热更新 1.1版本”指的是Elasticsearch(简称ES)在1.1版本中对同义词功能进行了热更新的支持。Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎,常用于全文检索、结构化搜索以及...
### Elasticsearch 安装 IK 分词器详解 #### 一、背景及需求分析 Elasticsearch 是一款基于 Lucene 的搜索引擎,广泛...通过以上步骤,可以有效地在 Elasticsearch 中安装并配置 IK 分词器,提高中文文本处理的能力。
3. 配置同义词文件,可以是JSON格式或其他支持的格式,然后在Elasticsearch索引的分析器设置中引用这个文件。 4. 创建或更新索引模板,确保使用了包含同义词插件的分析器。 5. 最后,重启Elasticsearch服务以使更改...
5. **插件化设计**:方便与其他 Elasticsearch 插件配合使用,如拼音插件、同义词插件等。 **安装与使用** 安装 Elasticsearch-analysis-ik 插件非常简单,只需在 Elasticsearch 根目录下执行命令 `bin/elastic...
5. **配置灵活性**:用户可以通过修改配置文件调整分词策略,如设置最大深度、是否开启同义词扩展等。 6. **与Elasticsearch集成**:IK分词器与Elasticsearch有良好的集成,安装简单,只需将解压后的`elasticsearch...
IK分词器是针对Elasticsearch设计的一款强大的中文分词插件,其全称为"elasticsearch-analysis-ik"。在Elasticsearch中,分词器的作用至关重要,它负责将用户输入的文本进行词汇切分,以便进行后续的搜索和分析操作...
IK分词器(Intelligent Chinese Analyzer for Elasticsearch)是为Elasticsearch设计的一款强大、灵活且高效的中文分词插件。它支持自定义扩展词典、同义词扩展、动态词典加载等功能,能更好地适应中文的复杂语境。 ...
5. **同义词处理**: 支持同义词扩展,可以通过配置同义词词典,使得搜索时能同时匹配到原词和其同义词,提高搜索的包容性。 6. **停用词过滤**: 可以配置停用词表,忽略常见的无实际意义的词汇,如“的”、“和”等...
1. 安装IK分词器:下载并安装`elasticsearch-analysis-ik-8.1.0`,配置ES的`plugins`目录。 2. 配置分词器:在ES的`analysis`配置中指定使用IK分词器,并设置词典更新的相关参数。 3. 创建MySQL连接:在ES中配置...
在 Elasticsearch 的索引模板或者映射设置中,可以通过以下方式配置 IK 分词器: ```json "settings": { "analysis": { "analyzer": { "my_analyzer": { "tokenizer": "ik_max_word" } }, "tokenizer": { ...
基于HanLP自然语言处理包的elasticsearch分词器 功能 本分词器使用HanLP提供的维特比分词 屏蔽了本地配置用户词典 增加同义词索引功能 增加远程词典热更新(用户词典,停词典,同义词典) 使用 目前支持的es版本为...
使用中文分词器后,Elasticsearch可以更好地处理和索引中文文本,支持复杂的搜索查询,如模糊匹配、同义词搜索、短语匹配等。这对于中文网站、社交媒体分析、新闻聚合等应用场景至关重要。 总的来说,"es6.4.0+中文...
4. 在 Elasticsearch 的配置文件(elasticsearch.yml)中,设置 analyzer 为 ik,如 `analysis.analyzer.default.type: "ik_max_word"` 或 `ik_smart`,根据需求选择分词策略。 5. 使用 Elasticsearch 的 RESTful ...
在本场景中,我们关注的是"elasticsearch-analysis-ik-6.3.0",这是一个针对Elasticsearch 6.3.0版本的中文分词插件。下面将详细介绍这个插件以及相关的Elasticsearch知识。 首先,Elasticsearch 是一个开源的全文...
"elasticsearch-analysis-dynamic-synonym-7.0.0.zip"是一个专为Elasticsearch设计的同义词插件,它的主要目的是在搜索过程中实现同义词的智能匹配,提高搜索的准确性和用户体验。 这个插件的独特之处在于它支持...
ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...
** Elasticsearch (ES) 中文分词器:IK 分词器详解 ** Elasticsearch(ES)作为一款强大的全文搜索引擎,其内置的分词器在处理英文文本时表现出色,但在处理中文这种复杂的语言结构时,可能无法满足需求。为了解决...
在构建高效的全文搜索引擎时,Elasticsearch(简称ES)是一个常用的选择,而IK分词器则是ES中针对中文处理的重要组件。本知识点将详细介绍ElasticSearch的IK分词器及其在微服务项目中的应用。 首先,Elasticsearch...