`

elasticsearch中文分词集成

 
阅读更多
elasticsearch官方只提供smartcn这个中文分词插件,效果不是很好,好在国内有medcl大神(国内最早研究es的人之一)写的两个中文分词插件,一个是ik的,一个是mmseg的,下面分别介绍下两者的用法,其实都差不多的,先安装插件,命令行:
安装ik插件:

plugin -install medcl/elasticsearch-analysis-ik/1.1.0 

下载ik相关配置词典文件到config目录

cd config 
wget http://github.com/downloads/medcl/elasticsearch-analysis-ik/ik.zip --no-check-certificate 
unzip ik.zip 
rm ik.zip 
安装mmseg插件:

bin/plugin -install medcl/elasticsearch-analysis-mmseg/1.1.0 
下载相关配置词典文件到config目录

cd config 
wget http://github.com/downloads/medcl/elasticsearch-analysis-mmseg/mmseg.zip --no-check-certificate 
unzip mmseg.zip 
rm mmseg.zip 
分词配置

ik分词配置,在elasticsearch.yml文件中加上

index:  
  analysis:                     
    analyzer:        
      ik:  
          alias: [ik_analyzer]  
          type: org.elasticsearch.index.analysis.IkAnalyzerProvider  


index.analysis.analyzer.ik.type:"ik"  

这两句的意义相同

mmseg分词配置,也是在在elasticsearch.yml文件中
index:  
  analysis:  
    analyzer:  
      mmseg:  
          alias: [news_analyzer, mmseg_analyzer]  
          type: org.elasticsearch.index.analysis.MMsegAnalyzerProvider  


index.analysis.analyzer.default.type : "mmseg"  


mmseg分词还有些更加个性化的参数设置如下
index:  
  analysis:  
    tokenizer:  
      mmseg_maxword:  
          type: mmseg  
          seg_type: "max_word"  
      mmseg_complex:  
          type: mmseg  
          seg_type: "complex"  
      mmseg_simple:  
          type: mmseg  
          seg_type: "simple"  

这样配置完后插件安装完成,启动es就会加载插件。

定义mapping

在添加索引的mapping时就可以这样定义分词器
{  
   "page":{  
      "properties":{  
         "title":{  
            "type":"string",  
            "indexAnalyzer":"ik",  
            "searchAnalyzer":"ik"  
         },  
         "content":{  
            "type":"string",  
            "indexAnalyzer":"ik",  
            "searchAnalyzer":"ik"  
         }  
      }  
   }  
}  

indexAnalyzer为索引时使用的分词器,searchAnalyzer为搜索时使用的分词器。

java mapping代码如下:
XContentBuilder content = XContentFactory.jsonBuilder().startObject()  
        .startObject("page")  
          .startObject("properties")         
            .startObject("title")  
              .field("type", "string")             
              .field("indexAnalyzer", "ik")  
              .field("searchAnalyzer", "ik")  
            .endObject()   
            .startObject("code")  
              .field("type", "string")           
              .field("indexAnalyzer", "ik")  
              .field("searchAnalyzer", "ik")  
            .endObject()       
          .endObject()  
         .endObject()  
       .endObject()  

定义完后操作索引就会以指定的分词器来进行分词。

附:
ik分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-ik
mmseg分词插件项目地址:https://github.com/medcl/elasticsearch-analysis-mmseg
如果觉得配置麻烦,也可以下载个配置好的es版本,地址如下:https://github.com/medcl/elasticsearch-rtf

另:
http://www.searchtech.pro/articles/2013/02/18/1361190717673.html
分享到:
评论

相关推荐

    elasticsearch-analysis-ik 7.10.0 分词器

    Elasticsearch-analysis-ik 是一个专为 Elasticsearch 设计的中文分词插件,它基于 Lucene 的 IK 分词器,旨在提供高效、准确的中文分词能力。 **IK 分词器介绍** IK (Intelligent Chinese Analyzer) 是一个针对...

    elasticsearch ik 分词

    在Elasticsearch中集成IK分词插件,可以显著提升对中文文本的索引和搜索性能。具体而言,IK分词插件包含两个主要模式:`smart`模式和`analyzed`模式。`smart`模式下,插件会尽可能地切分出标准词汇;`analyzed`模式...

    Elasticsearch 7.6.2(已集成ik分词器)

    Elasticsearch 7.6.2 已集成ik分词器 解压后运行bin目录下,elasticsearch.bat文件

    ElasticSearch 重写IK分词器源码设置mysql热词更新词库1

    总结来说,通过改造IK分词器源码并集成MySQL数据库,我们可以实现动态更新热词库,从而提高Elasticsearch的分词效果,满足实时性需求。这种方式不仅解决了内置词库和静态词库的不足,还提供了更大的灵活性,能够适应...

    ik分词器tar包 7.10.2

    IK分词器是针对Elasticsearch(ES)的一款热门中文分词插件,其全称为“Intelligent Chinese Analyzer for Elasticsearch”。它由Java编写,旨在为中文文档提供高效、准确的分词处理。版本7.10.2是IK分词器的一个...

    elasticSearch(ES)最新版 ik分词插件7.10 elasticsearch-analysis-ik-7.10.0

    总的来说,"elasticsearch-analysis-ik-7.10.0"分词插件是Elasticsearch处理中文文本的关键组件,通过与Elasticsearch的集成,可以实现高效、精准的中文全文检索,提升用户体验。同时,了解和掌握相关依赖库的作用也...

    elasticsearch-7.14.0+分词器+head插件一键下载

    Elasticsearch 内置了多种分词器,如标准分词器(Standard Analyzer)、关键词分词器(Keyword Analyzer)和中文分词器(Smart Chinese Analyzer)等。这些分词器可以根据不同的语言和应用场景进行定制,以确保搜索...

    elasticsearch7.17.9版本分词器插件安装包

    总的来说,这个"elasticsearch7.17.9版本分词器插件安装包"是针对中文环境的Elasticsearch实例增强搜索功能的重要工具,通过IK分词器提供高效的文本分析能力,适用于日志收集、分析等场景。正确安装和配置此插件,...

    基于Elasticsearch的中文分词插件.zip

    该插件将Lucene IK分词器集成到Elasticsearch中,支持自定义词典和多种分词模式。主要功能包括 支持两种分词模式iksmart(智能分词)和ikmaxword(最细粒度分词)。 支持自定义词典,包括本地词典和远程词典。 ...

    elasticsearch整合分词、创建索引、搜索例子

    lasticsearch整合分词、创建索引、搜索例子,elasticsearch版本为1.0,索引数据从数据表中动态读取生成,有关键字高亮效果,查询分页 1 在dababase目录中导致相关的数据库文件,修改DBCOperation java文件数据库连接...

    elasticsearch-analysis-pinyin-7.5.1_拼音分词_elasticsearch拼音分词_

    总的来说,"elasticsearch-analysis-pinyin-7.5.1"插件是Elasticsearch处理中文内容的有力工具,它的拼音分词功能极大地拓展了Elasticsearch在中文环境下的应用范围,提升了用户体验和数据挖掘的价值。在理解和掌握...

    elasticsearch-analysis-ik 7.17.16 分词器

    `elasticsearch-analysis-ik`是一个专为Elasticsearch设计的插件,它集成了Apache Lucene的IK分词器,以实现更智能、更灵活的中文分词功能。 **一、IK分词器概述** IK全称为“Intelligent Chinese Analyzer”,它...

    适用于elasticsearch7.12.1版本

    在 Elasticsearch 7.12.1 版本中,Ik 分词器可能已经集成在默认的分词器列表中,用户可以直接使用。同时,由于 Ik 分词器持续更新以兼容 Elasticsearch 的新版本,因此在 7.12.1 版本下使用 Ik,可以确保最佳的性能...

    基于Elasticsearch的IK中文分词器.zip

    IK中文分词器是一个集成到Elasticsearch中的中文分词插件,支持自定义词典和多种分词模式。该插件基于Lucene IK分词器,提供了细粒度和智能分词两种模式,适用于中文文本的搜索和分析。 项目的主要特性和功能 1. ...

    最新版 elasticsearch-analysis-ik-7.14.0.zip

    Elasticsearch Analysis IK是针对Elasticsearch的中文分词插件,它的最新版本为7.14.0,这个压缩包“elasticsearch-analysis-ik-7.14.0.zip”包含了该版本的所有核心组件和依赖库。这个插件旨在提供更强大的中文分词...

    elasticsearch集成ik分词器详细文档

    集成IK分词器能够使Elasticsearch更好地支持中文处理,实现精准的中文分词,从而提高搜索质量和效率。IK分词器是针对Elasticsearch的中文分词插件,由Medcl开发并维护,其全称为`elasticsearch-analysis-ik`。 **一...

    最新版本springboot集成elasticsearch

    一、概述 一般来说我们开发Elasticsearch会选择使用集成springboot,在网上找的springboot集成elasticsearch文章几乎都是extends ElasticsearchRepository...4、中文分词elasticsearch-analysis-ik (ik) 1、下载ela

    ES ik分词代码

    标题"ES ik分词代码"指的是Elasticsearch(简称ES)中使用的Ik分词器的相关代码。Ik分词器是针对中文处理的插件,它基于开源全文检索库Lucene,为ES提供了强大的中文分词功能。在中文搜索场景下,分词器的作用至关...

    elasticsearch + ik中文分词

    IK中文分词器是针对Elasticsearch的一款插件,专门用于处理中文文本的分词。它支持多种分词模式,包括最细粒度、最粗粒度、全模式以及智能分词模式等,可以根据实际需求选择合适的模式。IK分词器还具有自定义词典...

Global site tag (gtag.js) - Google Analytics