转载请声明出处,谢谢。翻译也很辛苦
solr学习交流扣扣群340954928
IK如何实现同义词搜索
如何通过IK实现
<!--[if !supportLists]-->1、 <!--[endif]-->在schema.xml中配置
<fieldType name="text_ik" class="solr.TextField" > <analyzer type="index" > <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false"/> </analyzer>
<analyzer type="query"> <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/> <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" /> <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/> </analyzer>
</fieldType> |
<!--[if !supportLists]-->2、 <!--[endif]-->修改solr配置文件synonyms.txt
打开synonyms.txt文件,写如下内容,另存为utf-8文件,覆盖原来的synonyms.txt文件
#some test synonym mappings unlikely to appear in real input text aaafoo => aaabar bbbfoo => bbbfoo bbbbar cccfoo => cccbar cccbaz fooaaa,baraaa,bazaaa
# Some synonym groups specific to this example GB,gib,gigabyte,gigabytes MB,mib,megabyte,megabytes Television, Televisions, TV, TVs #notice we use "gib" instead of "GiB" so any WordDelimiterFilter coming #after us won't split it into two words.
# Synonym mappings can be used for spelling correction too pixima => pixma 康飞,飞飞,小飞,飞机 小人 => 男人 女人 认认 人人 |
<!--[if !supportLists]-->3、 <!--[endif]-->创建collection,进入analysis,做测试
<!--[endif]-->
<!--[if !supportLists]-->4、 <!--[endif]-->后期动态维护synonyms.txt的办法是,使用zookeeper管理工具,连接到zookeeper管理中心,找到synonyms.txt文件,修改,保存。
Zookeeper管理工具下载地址:
https://github.com/woshikangfei/zookeeper
相关推荐
通过集成和自定义IK分词器并修改其源码,可以有效地实现同义词的动态维护和实时更新,从而使得Elasticsearch能够更好地理解用户的搜索意图,提高搜索的相关性和用户体验。同时,通过集成MySql数据库来存储同义词,...
本项目就是针对这一需求,实现了基于MySQL数据库的Elasticsearch IK词典热更新功能。 ### Elasticsearch基础 Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎,能够提供快速、高可扩展的全文检索、...
IK同义词插件是Elasticsearch中广泛使用的中文分词插件,它极大地提升了中文文本的搜索效率和准确性。7.8.0版本的IK插件在原有的功能基础上进行了改进和增强,使得用户能够更好地管理和利用同义词库。 在这一版本中...
字典是分词的基础,包含了各种词汇及其对应的关系,如词性、同义词等。分析器则是处理文本的关键,它决定了如何使用字典进行分词,以及如何处理各种特殊情况,如停用词、自定义词典等。IK插件支持动态加载字典,用户...
IK Analyzer通过扩展词典来实现同义词处理,使得搜索"手机"时也能匹配到包含"移动电话"的文档,从而提高用户的搜索体验。 **停用词处理** 停用词是指在文本中频繁出现但通常不包含重要信息的词,如"的"、"和"、"是...
5. **同义词处理**: 支持同义词扩展,可以通过配置同义词词典,使得搜索时能同时匹配到原词和其同义词,提高搜索的包容性。 6. **停用词过滤**: 可以配置停用词表,忽略常见的无实际意义的词汇,如“的”、“和”等...
同义词库通常是一个文本文件,包含多对同义词,IKAnalyzer在分词过程中会识别并处理这些同义词,使得搜索时能够匹配到更多相关的结果。 **Solr配置步骤** 1. **下载与安装**:首先,你需要下载Apache Solr的对应...
Analysis IK 支持自定义同义词库,可以导入各种格式的同义词表,使得在搜索时能够识别出同义词,增强搜索结果的相关性。 3. 自定义扩展: 用户可以根据业务需求,通过添加自定义的配置文件,实现个性化的分词规则...
- 实现模糊搜索:分词器可以帮助实现同义词搜索、近义词搜索等功能,提高用户体验。 3. **安装和使用 IK 分词器的步骤:** - 下载已构建好的 IK 分词器包。 - 将分词器解压后的文件复制到 Elasticsearch 安装...
5. **同义词支持**:通过扩展词典,可以实现同义词的合并,提升搜索的相关性。 **安装与使用** 在Elasticsearch中安装IK分词器通常包括以下步骤: 1. 将`elasticsearch-analysis-ik-7.17.16.jar`复制到Elastic...
IK插件不仅支持常用的分词功能,还具备自定义扩展词典、热更新词典、同义词扩展等高级特性。 在描述中提到,由于从GitHub下载可能速度较慢,这里分享了相关jar包,包括`httpclient-4.5.2.jar`、`...
通过配置同义词库,可以实现同义词的合并或保留。 5. **智能分析**:IK 分词器具备智能切分功能,对于未在词典中的词汇,会尝试进行多种切分策略,如基于概率的最可能切分、基于前后缀的切分等。 6. **多级分词**...
它的全称是“Elasticsearch-analysis-ik”,提供了一套完整的中文分析解决方案,包括分词、同义词处理、关键词提取等,极大地提升了中文文本的搜索效果和用户体验。 首先,我们要了解IK插件的核心组件。在7.13.3...
IK 分词器是由开源社区维护的一个高性能、可扩展的中文分词组件,支持多种分词模式,包括精确模式、全模式、关键词模式、同义词模式等。这些模式可以根据实际需求进行配置,以满足不同场景下的分词需求。例如,在...
同时,IK 分词器还支持同义词扩展,通过配置同义词库,可以实现同义词的搜索匹配,进一步提高用户体验。 总的来说,Elasticsearch 7.4.2 结合 IK 分词插件,为中文环境的全文检索和数据分析提供了强大的工具,它们...
5. **配置灵活性**:用户可以通过修改配置文件调整分词策略,如设置最大深度、是否开启同义词扩展等。 6. **与Elasticsearch集成**:IK分词器与Elasticsearch有良好的集成,安装简单,只需将解压后的`elasticsearch...
4. **用户自定义规则**:用户可以通过配置文件设定自己的分词规则,例如停用词、同义词等,以满足特定应用场景的需求。 5. **插件扩展**:IK Analyzer支持插件化开发,可以方便地增加新的分词策略或功能。 在实际...
ikanalyzer 提供了丰富的扩展性,用户可以根据自己的需求定制词典,支持自定义停用词、同义词等,以满足不同场景的分词需求。同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词...
它不仅可以提高搜索的准确性,还可以支持一些高级功能,比如同义词处理、停用词过滤等。在Solr5这个版本中,ikanalyzer的使用可能涉及到SolrCloud分布式搜索环境,用户可能需要了解如何在集群环境中配置和使用ik...