`
tcxiang
  • 浏览: 89465 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

ES使用IK分词器

 
阅读更多
1. 去github下载esIk分词的源码 https://github.com/medcl/elasticsearch-analysis-ik
 
2.安装maven并编译,这里注意jdk的版本
编译好的lib在target下面,配置在config下面都能直接用
 
3.将编译好的jar包(elasticsearch-analysis-ik-1.2.9.jar)cp到$ES_HOME的lib下面,注意补全commons-logging、httpclient的两jar包
 
4.配置elasticsearch.yml,尾部加入index.analysis.analyzer.ik.type : "ik"
 
5.在$ES_HOME/config 新建ik目录,将词典的xml配置文件和基本词典cp进去
elasticsearch -d -Xms1024m -Xmx1024m 
 
6.启动es,创建testindex,
curl -XPUT ‘http://localhost:9200/testindex/'
 
7.测试
curl -XGET 'localhost:9200/_analyze?analyzer=ik' -d '我是中国人'
curl -XGET 'localhost:9200/testindex/_analyze?analyzer=ik' -d '百度的负面新闻
 
 
 index:
analysis:
analyzer:
ik:
alias: [ik_analyzer]
type: org.elasticsearch.index.analysis.IkAnalyzerProvider
ik_max_word:
type: ik
use_smart: false
ik_smart:
type: ik
use_smart: true
转载别人的问题

前提描述,关于如何在elasticsearch中使用IK分词器网上已经有很多资料了,这里不再叙述。下边主要说我遇到的问题和解决办法,以及将来大家可能也会遇到的问题。

        第一个问题:org.apache.http.client.ClientProtocolException类找不到异常,而且索引创建失败。

        开始我也很奇怪,一个分词器怎么会遇到httpclient的异常呢?在使用eclipse对elasticsearch-analysis-ik- 1.2.8进行maven打包时,我查看了源码,原则作者为了可以从远程库中动态加入新的分词,就使用了httpclient来加载。然后查看了源码的 pom.xml文件,发现这个分词器依赖:httpclient-4.3.5、httpcore-4.3.2、log4j-1.2.16、 commons-logging-1.1.3、commons-codec-1.6几个jar包。于是,就将这几个jar包放在ES_HOMT/lib 下,当前的问题解决了,而且可以用了。

        可是这个时候,系统服务端又报了一个错误:Caused by: org.apache.http.ProtocolException: Target host is not specified,于是查看了源码,原来IK分词器会从IKAnalyzer.cfg.xml配置文件的“remote_ext_dict”配置项来读 取用户自己扩展的分词。由于默认情况下这个没有设置,所以在org.wltea.analyzer.dic.Monitor类中报了这个错误,但是分析了 源码后赶紧这个的确不会影响到程序使用,可以不管。

        注意,我这里使用IK版本是1.2.8.

分享到:
评论

相关推荐

    elasticsearch ik 7.4.2 分词器

    以上配置后,当索引包含中文内容时,Elasticsearch会使用IK分词器进行分词,提高搜索和分析的准确度。 总的来说,Elasticsearch结合IK分词器,能有效解决中文处理的问题,提供强大的全文检索功能。在实际应用中,...

    elasticsearch-ik中文分词器7.6.2.zip

    在Elasticsearch中使用IK分词器,首先需要将"elasticsearch-analysis-ik-7.6.2.jar"文件放到Elasticsearch的plugins目录下。然后,通过Elasticsearch的命令行工具或配置文件启用插件。配置通常涉及以下步骤: 1. ...

    es安装ik分词器

    首先,需要从 GitHub 上找到 `elasticsearch-analysis-ik` 项目,并下载与当前使用的 Elasticsearch 版本相匹配的 IK 分词器版本。例如,对于 Elasticsearch 1.4 版本,对应的 IK 分词器版本为 1.2.9。下载时需要...

    IK分词器elasticsearch-analysis-ik-7.17.16

    **IK分词器详解** IK分词器是针对Elasticsearch设计的一款强大的中文分词插件,其全称为"elasticsearch-analysis-ik...了解并熟练掌握IK分词器的使用,能帮助我们更好地利用Elasticsearch进行中文信息检索和数据分析。

    elasticsearch7.8.0版本的IK分词器

    **Elasticsearch 7.8.0 版本的 IK 分词器** Elasticsearch 是一个功能强大的开源全文搜索引擎,广泛应用于数据检索、数据分析和实时分析等场景。在中文处理方面,IK (Intelligent Chinese) 分词器是 Elasticsearch ...

    ik分词器tar包 7.10.2

    IK分词器是针对Elasticsearch(ES)的一款热门中文分词插件,其全称为“Intelligent Chinese Analyzer for Elasticsearch”。它由Java编写,旨在为中文文档提供高效、准确的分词处理。版本7.10.2是IK分词器的一个...

    elasticsearch7.6.1-ik分词器

    总之,IK 分词器是 Elasticsearch 在中文环境下的得力助手,通过合理的配置和使用,可以极大地提升中文文本的检索效果。对于开发人员来说,理解其工作原理和特点,以及如何根据业务需求进行定制和优化,是充分利用 ...

    elasticSearch中IK分词器使用教程

    ### Elasticsearch中的IK分词器使用教程 #### 一、IK分词器简介 在处理中文文本数据时,Elasticsearch自带的英文分词器对于中文的支持并不理想,它倾向于将中文字符按照单个字来进行分割,这样的处理方式显然无法...

    elasticsearch-analysis-ik 7.10.0 分词器

    **Elasticsearch Analysis IK 7.10.0 分词器详解** Elasticsearch 分词器是搜索引擎核心组件之一,负责将输入的文本拆分成可搜索的独立单元——词语。在中文环境中,这个过程尤为重要,因为中文句子由多个汉字组成...

    ik分词器7.17.10

    ik分词器是为Elasticsearch(ES)设计的一款高效、可扩展的中文分词工具,它能有效地将中文文本拆分成一个个独立的词语,便于后续的索引和查询操作。ik分词器7.17.10是该工具的一个版本,适用于Elasticsearch 7.x...

    elasticsearch ik 分词器 zip

    elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip elasticsearch ik 分词器 zip ...

    elasticserach 7.17.4版本的中文 IK分词器

    以上就是关于 Elasticsearch 7.17.4 版本中的中文 IK 分词器的详细解释,通过正确配置和使用,它可以帮助你在中文文本检索和分析场景中取得更佳的效果。记住,选择合适的分词器对于 Elasticsearch 的性能和用户体验...

    ElasticSearch 重写IK分词器源码设置mysql热词更新词库1

    在本文中,我们将探讨如何利用Elasticsearch的IK分词器并对其进行源码改造,以实现热词库的动态更新,特别是通过MySQL数据库进行热词和停用词的定时更新。首先,我们要了解IK分词器的几种常用词库配置方式。 **0. ...

    es7.0 ik的分词器

    标题"es7.0 ik的分词器"指出,我们讨论的是Elasticsearch(ES)7.0版本中的IK分词器。Elasticsearch是一个流行的开源全文搜索引擎,它提供了强大的数据分析和搜索功能。然而,ES原生的分词器主要面向英文,对中文的...

    elasticsearch2.3.1 IK分词器

    安装IK插件时,这个JAR文件会被加载到Elasticsearch的类路径中,使得Elasticsearch能够识别并使用IK分词器。 **依赖库** - **httpclient-4.4.1.jar**:Apache HttpClient库,用于网络通信,Elasticsearch在与其他...

    elasticsearch的ik中文分词器

    1. **下载分词器**: 从官方仓库或第三方源获取适合Elasticsearch版本的IK分词器,如`elasticsearch-analysis-ik-6.3.2.zip`。 2. **解压分词器**: 解压缩下载的文件,将解压后的`plugins`目录下的`analysis-ik`目录...

    maven 构建好的 IK 分词器,可直接使用

    "Maven 构建好的 IK 分词器,可直接使用" 这个标题告诉我们,这里提供的是一个已经使用 Maven 构建完成的 IK 分词器,专为 Elasticsearch 2.2 版本设计。IK 分词器是针对中文文本进行分词处理的工具,通常用于提高...

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...

    IK分词器8.15.0 elasticsearch-analysis-ik-8.15.0.zip

    IK分词器8.15.0版本 elasticsearch-analysis-ik-8.15.0.zip 适用于中文文本分析

    elasticsearch-analysis-ik-7.4.0 ik分词器7.4.0

    type: ik_max_word # 使用IK分词器的全模式 dictionary: my_dict # 自定义词典路径 ``` **依赖库** 在提供的文件列表中,我们看到有如下几个依赖库: - `httpclient-4.5.2.jar`:Apache HttpClient,用于 HTTP ...

Global site tag (gtag.js) - Google Analytics