`
m635674608
  • 浏览: 5052880 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

热更新 IK 分词使用方法

 
阅读更多

安装步骤: 
1、到github网站下载源代码,网站地址为:https://github.com/medcl/elasticsearch-analysis-ik 

注意,下载对应的版本: 
IK version ES version 
master 1.5.0 -> master 
1.4.0 1.6.0 
1.3.0 1.5.0 
1.2.9 1.4.0 
1.2.8 1.3.2 
1.2.7 1.2.1 
1.2.6 1.0.0 
1.2.5 0.90.2 
1.2.3 0.90.2 
1.2.0 0.90.0 
1.1.3 0.20.2 
1.1.2 0.19.x 
1.0.0 0.16.2 -> 0.19.0 

右侧下方有一个按钮“Download ZIP",点击下载源代码elasticsearch-analysis-ik-master.zip。 

2、解压, 编译 
解压: unzip elasticsearch-analysis-ik-master.zip  
拷贝conf/ik目录到es的config目录下: cp -r ik  $ES/config/ 
编译: mvn clean package 

5,  执行安装命令 
./plugin --install analysis-ik --url file:///xxx/es/elasticsearch-analysis-ik-master/target/releases/elasticsearch-analysis-ik-1.4.0.zip 

6、在ES的配置文件config/elasticsearch.yml中增加ik的配置,在最后增加: 

Java代码  收藏代码
  1. index:  
  2.   analysis:  
  3.     analyzer:  
  4.       ik:  
  5.           alias: [ik_analyzer]  
  6.           type: org.elasticsearch.index.analysis.IkAnalyzerProvider  
  7.       ik_max_word:  
  8.           type: ik  
  9.           use_smart: false  
  10.       ik_smart:  
  11.           type: ik  
  12.           use_smart: true  


Or 

Java代码  收藏代码
  1. index.analysis.analyzer.ik.type : "ik"  


以上两种配置方式的区别: 
1、第二种方式,只定义了一个名为 ik 的 analyzer,其 use_smart 采用默认值 false 
2、第一种方式,定义了三个 analyzer,分别为:ik、ik_max_word、ik_smart,其中 ik_max_word 和 ik_smart 是基于 ik 这个 analyzer 定义的,并各自明确设置了 use_smart 的不同值。 
3、其实,ik_max_word 等同于 ik。ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;而 ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。 

因此,建议,在设置 mapping 时,用 ik 这个 analyzer,以尽可能地被搜索条件匹配到。 
不过,如果你想将 /index_name/_analyze 这个 RESTful API 做为分词器用,用来提取某段文字中的主题词,则建议使用 ik_smart 这个 analyzer: 



7、重新启动elasticsearch服务,这样就完成配置了,收入命令: 
http://localhost:9203/megacorp/_analyze?analyzer=ik_smart&pretty=true&text=中华人民共和国国歌 
返回: 

  "tokens" : [ { 
    "token" : "中华人民共和国", 
    "start_offset" : 0, 
    "end_offset" : 7, 
    "type" : "CN_WORD", 
    "position" : 1 
  }, { 
    "token" : "国歌", 
    "start_offset" : 7, 
    "end_offset" : 9, 
    "type" : "CN_WORD", 
    "position" : 2 
  } ] 


另外,可以在 elasticsearch.yml 里加上如下一行,设置默认的 analyzer 为 ik: 
index.analysis.analyzer.default.type : "ik" 

curl -XPOST  "http://localhost:9203/megacorp/_analyze?analyzer=ik&pretty=true&text=我是中国人"  
测试结果如下: 
[html] view plaincopy 
{  
tokens: [  
{  
token: text  
start_offset: 2  
end_offset: 6  
type: ENGLISH  
position: 1  
}  
{  
token: 我  
start_offset: 9  
end_offset: 10  
type: CN_CHAR  
position: 2  
}  
{  
token: 中国人  
start_offset: 11  
end_offset: 14  
type: CN_WORD  
position: 3  
}  
{  
token: 中国  
start_offset: 11  
end_offset: 13  
type: CN_WORD  
position: 4  
}  
{  
token: 国人  
start_offset: 12  
end_offset: 14  
type: CN_WORD  
position: 5  
}  
]  
}  

自定义字典 
config/ik/IKAnalyzer.cfg.xml 
<?xml version="1.0" encoding="UTF-8"?> 
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd"> 
<properties> 
    <comment>IK Analyzer 扩展配置</comment> 
    <!--用户可以在这里配置自己的扩展字典 --> 
    <entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry> 
     <!--用户可以在这里配置自己的扩展停止词字典--> 
    <entry key="ext_stopwords">custom/ext_stopword.dic</entry> 
    <!--用户可以在这里配置远程扩展字典 --> 
    <entry key="remote_ext_dict">location</entry> 
    <!--用户可以在这里配置远程扩展停止词字典--> 
    <entry key="remote_ext_stopwords">location</entry> 
</properties> 

热更新 IK 分词使用方法 
目前该插件支持热更新 IK 分词,通过上文在 IK 配置文件中提到的如下配置 
    <!--用户可以在这里配置远程扩展字典 --> 
    <entry key="remote_ext_dict">location</entry> 
    <!--用户可以在这里配置远程扩展停止词字典--> 
    <entry key="remote_ext_stopwords">location</entry> 
其中 location 是指一个 url,比如 http://yoursite.com/getCustomDict,该请求只需满足以下两点即可完成分词热更新。 

该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。 
该 http 请求返回的内容格式是一行一个分词,换行符用 \n 即可。 
满足上面两点要求就可以实现热更新分词了,不需要重启 ES 实例。 

可以将需自动更新的热词放在一个 UTF-8 编码的 .txt 文件里,放在 nginx 或其他简易 http server 下,当 .txt 文件修改时,http server 会在客户端请求该文件时自动返回相应的 Last-Modified 和 ETag。可以另外做一个工具来从业务系统提取相关词汇,并更新这个 .txt 文件。 
have fun. 

常见问题 
1.自定义词典为什么没有生效? 
请确保你的扩展词典的文本格式为 UTF8 编码 

2.如何手动安装,以 1.3.0 為例?(参考:https://github.com/medcl/elasticsearch-analysis-ik/issues/46) 
git clone https://github.com/medcl/elasticsearch-analysis-ik 
cd elasticsearch-analysis-ik 
mvn compile 
mvn package 
plugin --install analysis-ik --url file:///#{project_path}/elasticsearch-analysis-ik/target/releases/elasticsearch-analysis-ik-1.3.0.zip 
2、自定义词库的方式,请参考 https://github.com/medcl/elasticsearch-analysis-ik

http://horsemen.iteye.com/blog/2244354

分享到:
评论

相关推荐

    ik分词器7.17.10

    - **新词发现**:ik分词器持续改进新词识别能力,适应网络上不断涌现的新词汇和热词。 - **错误修复**:官方可能会在新版本中修复已知的bug,提升整体稳定性。 ### 4. 安装与配置ik分词器 - **下载安装**:从官方...

    maven 构建好的 IK 分词器,可直接使用

    "Maven 构建好的 IK 分词器,可直接使用" 这个标题告诉我们,这里提供的是一个已经使用 Maven 构建完成的 IK 分词器,专为 Elasticsearch 2.2 版本设计。IK 分词器是针对中文文本进行分词处理的工具,通常用于提高...

    ElasticSearch 重写IK分词器源码设置mysql热词更新词库1

    在本文中,我们将探讨如何利用Elasticsearch的IK分词器并对其进行源码改造,以实现热词库的动态更新,特别是通过MySQL数据库进行热词和停用词的定时更新。首先,我们要了解IK分词器的几种常用词库配置方式。 **0. ...

    ik分词器jar包,以及配置文件

    5. **多版本兼容**:随着Java技术的发展,IK分词器也不断更新,支持Java不同版本,适应各种开发环境。 在实际使用IK分词器时,通常需要以下几个步骤: 1. **下载与导入**:获取到IK分词器的jar包,将其引入到项目...

    ik分词器5.5.1

    1. 动态热加载:Ik分词器支持动态添加和更新词典,无需重启服务,这在应对实时数据更新和快速响应新词汇需求时非常有用。 2. 多种分词模式:提供“精准模式”和“全模式”两种分词策略,精准模式尽可能减少无用的...

    elasticsearch7.6.1-ik分词器

    3. **动态热加载**:IK 分词器支持在不重启 Elasticsearch 的情况下,更新词典,方便在线调整分词效果。 4. **扩展插件**:除了基本的分词功能,IK 还提供了如拼音、同义词等扩展插件,丰富了中文处理能力。 5. **...

    (源码)基于Elasticsearch和IK分词器的热更新中文分词系统.zip

    # 基于Elasticsearch和IK分词器的热更新中文分词系统 ## 项目简介 本项目是一个基于Elasticsearch和IK分词器的热更新中文分词系统。通过修改IK分词器源码,实现了从MySQL数据库中自动加载新词库的功能,支持...

    elasticsearch-analysis-ik-7.4.0 ik分词器7.4.0

    type: ik_max_word # 使用IK分词器的全模式 dictionary: my_dict # 自定义词典路径 ``` **依赖库** 在提供的文件列表中,我们看到有如下几个依赖库: - `httpclient-4.5.2.jar`:Apache HttpClient,用于 HTTP ...

    ElasticSearch基于Mysql热更新IK词典项目

    要将MySQL热更新功能集成到Elasticsearch和IK分词器中,我们需要进行以下步骤: 1. 安装IK分词器:下载并安装`elasticsearch-analysis-ik-8.1.0`,配置ES的`plugins`目录。 2. 配置分词器:在ES的`analysis`配置中...

    solr导入 IK分词

    Solr是中国最流行的开源搜索引擎系统Lucene的一个扩展,它提供了分布式、可伸缩性和高可用性的全文检索功能。...在实际项目中,理解并掌握IK分词器的原理和使用方法,将有助于提升Solr的中文搜索体验。

    solr IK分词需要的资料

    使用IK分词器的热更新功能,可以在不重启Solr的情况下动态加载新词库,提高系统的灵活性。 总结来说,集成和使用IK分词器是提升Solr6.0中文搜索性能的关键步骤。正确配置并结合实际情况进行优化,能有效提升搜索...

    elasticsearch-analysis-ik 7.10.0 分词器

    4. **动态扩展**:IK 支持在线热更新词典,无需重启服务即可生效。 5. **丰富的分词结果**:提供多种分词策略,满足复杂的查询需求。 **Elasticsearch-analysis-ik 插件特性** 将 IK 分词器集成到 Elasticsearch ...

    IK 分词器兼容Java

    - **热更新词典**: 在运行时,IK分词器支持在线更新词典,无需重启服务。 - **词性标注**: 提供词性标注功能,帮助进行更深入的文本分析。 - **插件机制**: 具有丰富的插件扩展接口,可以实现自定义的分词策略或功能...

    Solr6.5 IK分词器

    在Solr 6.5版本中,IK分词器被广泛使用,以实现高效、准确的中文搜索。 IK分词器最初由杨洪强开发,旨在解决中文分词的复杂性,如歧义分词、新词识别等问题。它支持多种分词模式,包括精确模式、全模式、关键词模式...

    es2.4.0版本对应1.10.0ik分词器

    3. **热更新词典**:IK分词器支持在线热更新词典,无需重启ES服务即可生效。 总的来说,IK分词器1.10.0与ES 2.4.0的结合,为中文文本的索引和检索提供了强大的支持,通过合理的配置和优化,可以进一步提升搜索质量...

    elasticsearch ik 分词

    IK分词插件支持在线热更新词库,无需重启Elasticsearch服务。此外,通过设置停用词表,可以排除常见无意义词汇,提高搜索效率。 总之,Elasticsearch IK分词插件6.1.2版是处理中文文本的强大工具,它提供了灵活的...

    基于ik动态词库分词实现--无需重启服务

    一旦检测到文件变化,调用`DictLoader`的`reload`方法更新词库。 5. **处理更新事件**:当词库文件发生变化时, IK Analyzer会自动重新加载新词库,无需重启服务。确保在程序中处理好并发问题,防止因词库更新引发...

    elasticsearch ik分词 实现

    除了基本配置,IK分词器还提供了动态扩展功能,如热更新词典、自定义过滤器等。通过编写Java插件,可以实现更复杂的需求,例如自定义分词策略、词语关系分析等。 总之,Elasticsearch的IK分词器对于中文搜索场景...

    Elasticsearch IK分词器扩展说明1

    在251行添加热加载,定时刷新缓存或DB的热词到IK分词器中。在571行添加从缓存或mysql加载热词,调用org.wltea.analyzer.dic.Dictionary.loadMySQLExtDict()方法。 五、添加配置文件 在添加配置文件时,需要在...

Global site tag (gtag.js) - Google Analytics