`
韩悠悠
  • 浏览: 840342 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

IK如何实现同义词搜索

    博客分类:
  • solr
阅读更多

 

转载请声明出处,谢谢。翻译也很辛苦 

 

 

solr学习交流扣扣群340954928

 

IK如何实现同义词搜索

 

 

如何通过IK实现

 

<!--[if !supportLists]-->1、  <!--[endif]-->schema.xml中配置

 

         <fieldType name="text_ik" class="solr.TextField" >

      <analyzer type="index"  >

             <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>

                    <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

         <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="false"/>    

      </analyzer>

            

      <analyzer type="query">

                   <tokenizer class="org.wltea.analyzer.lucene.IKTokenizerFactory"/>

                   <filter class="solr.StopFilterFactory" ignoreCase="true" words="stopwords.txt" />

        <filter class="solr.SynonymFilterFactory" synonyms="synonyms.txt" ignoreCase="true" expand="true"/>

      </analyzer>

            

    </fieldType>

 

 

<!--[if !supportLists]-->2、  <!--[endif]-->修改solr配置文件synonyms.txt

打开synonyms.txt文件,写如下内容,另存为utf-8文件,覆盖原来的synonyms.txt文件

#some test synonym mappings unlikely to appear in real input text

aaafoo => aaabar

bbbfoo => bbbfoo bbbbar

cccfoo => cccbar cccbaz

fooaaa,baraaa,bazaaa

 

# Some synonym groups specific to this example

GB,gib,gigabyte,gigabytes

MB,mib,megabyte,megabytes

Television, Televisions, TV, TVs

#notice we use "gib" instead of "GiB" so any WordDelimiterFilter coming

#after us won't split it into two words.

 

# Synonym mappings can be used for spelling correction too

pixima => pixma

康飞,飞飞,小飞,飞机

小人 => 男人 女人 认认 人人

<!--[if !supportLists]-->3、  <!--[endif]-->创建collection,进入analysis,做测试


<!--[endif]-->

 

 

 

<!--[if !supportLists]-->4、  <!--[endif]-->后期动态维护synonyms.txt的办法是,使用zookeeper管理工具,连接到zookeeper管理中心,找到synonyms.txt文件,修改,保存。

Zookeeper管理工具下载地址:

https://github.com/woshikangfei/zookeeper

 

 

 

 

 

  • 大小: 61.7 KB
分享到:
评论

相关推荐

    Elasticsearch7.10.0集成IK相关性同义词改源码实现MySql5.7.2实现远程动态同义词词库实时更新.pdf

    通过集成和自定义IK分词器并修改其源码,可以有效地实现同义词的动态维护和实时更新,从而使得Elasticsearch能够更好地理解用户的搜索意图,提高搜索的相关性和用户体验。同时,通过集成MySql数据库来存储同义词,...

    ElasticSearch基于Mysql热更新IK词典项目

    本项目就是针对这一需求,实现了基于MySQL数据库的Elasticsearch IK词典热更新功能。 ### Elasticsearch基础 Elasticsearch是一个分布式、RESTful风格的搜索和数据分析引擎,能够提供快速、高可扩展的全文检索、...

    IK同义词插件7.8.0版本,支持从Mysql热加载分词

    IK同义词插件是Elasticsearch中广泛使用的中文分词插件,它极大地提升了中文文本的搜索效率和准确性。7.8.0版本的IK插件在原有的功能基础上进行了改进和增强,使得用户能够更好地管理和利用同义词库。 在这一版本中...

    elasticsearch-analysis-ik-8.11.0

    字典是分词的基础,包含了各种词汇及其对应的关系,如词性、同义词等。分析器则是处理文本的关键,它决定了如何使用字典进行分词,以及如何处理各种特殊情况,如停用词、自定义词典等。IK插件支持动态加载字典,用户...

    lucene5.4 + IKAnalyzer

    IK Analyzer通过扩展词典来实现同义词处理,使得搜索"手机"时也能匹配到包含"移动电话"的文档,从而提高用户的搜索体验。 **停用词处理** 停用词是指在文本中频繁出现但通常不包含重要信息的词,如"的"、"和"、"是...

    elasticsearch7.8.0版本的IK分词器

    5. **同义词处理**: 支持同义词扩展,可以通过配置同义词词典,使得搜索时能同时匹配到原词和其同义词,提高搜索的包容性。 6. **停用词过滤**: 可以配置停用词表,忽略常见的无实际意义的词汇,如“的”、“和”等...

    IKAnalyzer分词及solr4103配置说明

    同义词库通常是一个文本文件,包含多对同义词,IKAnalyzer在分词过程中会识别并处理这些同义词,使得搜索时能够匹配到更多相关的结果。 **Solr配置步骤** 1. **下载与安装**:首先,你需要下载Apache Solr的对应...

    elasticsearch-analysis-ik-7.4.0

    Analysis IK 支持自定义同义词库,可以导入各种格式的同义词表,使得在搜索时能够识别出同义词,增强搜索结果的相关性。 3. 自定义扩展: 用户可以根据业务需求,通过添加自定义的配置文件,实现个性化的分词规则...

    maven 构建好的 IK 分词器,可直接使用

    - 实现模糊搜索:分词器可以帮助实现同义词搜索、近义词搜索等功能,提高用户体验。 3. **安装和使用 IK 分词器的步骤:** - 下载已构建好的 IK 分词器包。 - 将分词器解压后的文件复制到 Elasticsearch 安装...

    IK分词器elasticsearch-analysis-ik-7.17.16

    5. **同义词支持**:通过扩展词典,可以实现同义词的合并,提升搜索的相关性。 **安装与使用** 在Elasticsearch中安装IK分词器通常包括以下步骤: 1. 将`elasticsearch-analysis-ik-7.17.16.jar`复制到Elastic...

    elasticsearch ik插件

    IK插件不仅支持常用的分词功能,还具备自定义扩展词典、热更新词典、同义词扩展等高级特性。 在描述中提到,由于从GitHub下载可能速度较慢,这里分享了相关jar包,包括`httpclient-4.5.2.jar`、`...

    elasticsearch-analysis-ik-7.4.2.zip

    通过配置同义词库,可以实现同义词的合并或保留。 5. **智能分析**:IK 分词器具备智能切分功能,对于未在词典中的词汇,会尝试进行多种切分策略,如基于概率的最可能切分、基于前后缀的切分等。 6. **多级分词**...

    最新版windows elasticsearch-analysis-ik-7.13.3.zip

    它的全称是“Elasticsearch-analysis-ik”,提供了一套完整的中文分析解决方案,包括分词、同义词处理、关键词提取等,极大地提升了中文文本的搜索效果和用户体验。 首先,我们要了解IK插件的核心组件。在7.13.3...

    elasticsearch-analysis-ik-7.8.0

    IK 分词器是由开源社区维护的一个高性能、可扩展的中文分词组件,支持多种分词模式,包括精确模式、全模式、关键词模式、同义词模式等。这些模式可以根据实际需求进行配置,以满足不同场景下的分词需求。例如,在...

    ElasticSearch7.4.2-ik分词.zip

    同时,IK 分词器还支持同义词扩展,通过配置同义词库,可以实现同义词的搜索匹配,进一步提高用户体验。 总的来说,Elasticsearch 7.4.2 结合 IK 分词插件,为中文环境的全文检索和数据分析提供了强大的工具,它们...

    ik分词器tar包 7.10.2

    5. **配置灵活性**:用户可以通过修改配置文件调整分词策略,如设置最大深度、是否开启同义词扩展等。 6. **与Elasticsearch集成**:IK分词器与Elasticsearch有良好的集成,安装简单,只需将解压后的`elasticsearch...

    IK Analyzer 中文分词器下载

    4. **用户自定义规则**:用户可以通过配置文件设定自己的分词规则,例如停用词、同义词等,以满足特定应用场景的需求。 5. **插件扩展**:IK Analyzer支持插件化开发,可以方便地增加新的分词策略或功能。 在实际...

    ikanalyzer-solr8.4.0_solr8_solr_ikanalyzer_中文分词_

    ikanalyzer 提供了丰富的扩展性,用户可以根据自己的需求定制词典,支持自定义停用词、同义词等,以满足不同场景的分词需求。同时,ikanalyzer 还提供了全模式和最细粒度模式两种分词策略,全模式尽可能切出更多的词...

    ikanalyzer-.zip

    它不仅可以提高搜索的准确性,还可以支持一些高级功能,比如同义词处理、停用词过滤等。在Solr5这个版本中,ikanalyzer的使用可能涉及到SolrCloud分布式搜索环境,用户可能需要了解如何在集群环境中配置和使用ik...

Global site tag (gtag.js) - Google Analytics