安装步骤:
1、到github网站下载源代码,网站地址为:https://github.com/medcl/elasticsearch-analysis-ik
注意,下载对应的版本:
IK version ES version
master 1.5.0 -> master
1.4.0 1.6.0
1.3.0 1.5.0
1.2.9 1.4.0
1.2.8 1.3.2
1.2.7 1.2.1
1.2.6 1.0.0
1.2.5 0.90.2
1.2.3 0.90.2
1.2.0 0.90.0
1.1.3 0.20.2
1.1.2 0.19.x
1.0.0 0.16.2 -> 0.19.0
右侧下方有一个按钮“Download ZIP",点击下载源代码elasticsearch-analysis-ik-master.zip。
2、解压, 编译
解压: unzip elasticsearch-analysis-ik-master.zip
拷贝conf/ik目录到es的config目录下: cp -r ik $ES/config/
编译: mvn clean package
5, 执行安装命令
./plugin --install analysis-ik --url file:///xxx/es/elasticsearch-analysis-ik-master/target/releases/elasticsearch-analysis-ik-1.4.0.zip
6、在ES的配置文件config/elasticsearch.yml中增加ik的配置,在最后增加:
- index:
- analysis:
- analyzer:
- ik:
- alias: [ik_analyzer]
- type: org.elasticsearch.index.analysis.IkAnalyzerProvider
- ik_max_word:
- type: ik
- use_smart: false
- ik_smart:
- type: ik
- use_smart: true
Or
- index.analysis.analyzer.ik.type : "ik"
以上两种配置方式的区别:
1、第二种方式,只定义了一个名为 ik 的 analyzer,其 use_smart 采用默认值 false
2、第一种方式,定义了三个 analyzer,分别为:ik、ik_max_word、ik_smart,其中 ik_max_word 和 ik_smart 是基于 ik 这个 analyzer 定义的,并各自明确设置了 use_smart 的不同值。
3、其实,ik_max_word 等同于 ik。ik_max_word 会将文本做最细粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,中华人民,中华,华人,人民共和国,人民,人,民,共和国,共和,和,国国,国歌”,会穷尽各种可能的组合;而 ik_smart 会做最粗粒度的拆分,比如会将“中华人民共和国国歌”拆分为“中华人民共和国,国歌”。
因此,建议,在设置 mapping 时,用 ik 这个 analyzer,以尽可能地被搜索条件匹配到。
不过,如果你想将 /index_name/_analyze 这个 RESTful API 做为分词器用,用来提取某段文字中的主题词,则建议使用 ik_smart 这个 analyzer:
7、重新启动elasticsearch服务,这样就完成配置了,收入命令:
http://localhost:9203/megacorp/_analyze?analyzer=ik_smart&pretty=true&text=中华人民共和国国歌
返回:
{
"tokens" : [ {
"token" : "中华人民共和国",
"start_offset" : 0,
"end_offset" : 7,
"type" : "CN_WORD",
"position" : 1
}, {
"token" : "国歌",
"start_offset" : 7,
"end_offset" : 9,
"type" : "CN_WORD",
"position" : 2
} ]
}
另外,可以在 elasticsearch.yml 里加上如下一行,设置默认的 analyzer 为 ik:
index.analysis.analyzer.default.type : "ik"
curl -XPOST "http://localhost:9203/megacorp/_analyze?analyzer=ik&pretty=true&text=我是中国人"
测试结果如下:
[html] view plaincopy
{
tokens: [
{
token: text
start_offset: 2
end_offset: 6
type: ENGLISH
position: 1
}
{
token: 我
start_offset: 9
end_offset: 10
type: CN_CHAR
position: 2
}
{
token: 中国人
start_offset: 11
end_offset: 14
type: CN_WORD
position: 3
}
{
token: 中国
start_offset: 11
end_offset: 13
type: CN_WORD
position: 4
}
{
token: 国人
start_offset: 12
end_offset: 14
type: CN_WORD
position: 5
}
]
}
自定义字典
config/ik/IKAnalyzer.cfg.xml
<?xml version="1.0" encoding="UTF-8"?>
<!DOCTYPE properties SYSTEM "http://java.sun.com/dtd/properties.dtd">
<properties>
<comment>IK Analyzer 扩展配置</comment>
<!--用户可以在这里配置自己的扩展字典 -->
<entry key="ext_dict">custom/mydict.dic;custom/single_word_low_freq.dic</entry>
<!--用户可以在这里配置自己的扩展停止词字典-->
<entry key="ext_stopwords">custom/ext_stopword.dic</entry>
<!--用户可以在这里配置远程扩展字典 -->
<entry key="remote_ext_dict">location</entry>
<!--用户可以在这里配置远程扩展停止词字典-->
<entry key="remote_ext_stopwords">location</entry>
</properties>
热更新 IK 分词使用方法
目前该插件支持热更新 IK 分词,通过上文在 IK 配置文件中提到的如下配置
<!--用户可以在这里配置远程扩展字典 -->
<entry key="remote_ext_dict">location</entry>
<!--用户可以在这里配置远程扩展停止词字典-->
<entry key="remote_ext_stopwords">location</entry>
其中 location 是指一个 url,比如 http://yoursite.com/getCustomDict,该请求只需满足以下两点即可完成分词热更新。
该 http 请求需要返回两个头部(header),一个是 Last-Modified,一个是 ETag,这两者都是字符串类型,只要有一个发生变化,该插件就会去抓取新的分词进而更新词库。
该 http 请求返回的内容格式是一行一个分词,换行符用 \n 即可。
满足上面两点要求就可以实现热更新分词了,不需要重启 ES 实例。
可以将需自动更新的热词放在一个 UTF-8 编码的 .txt 文件里,放在 nginx 或其他简易 http server 下,当 .txt 文件修改时,http server 会在客户端请求该文件时自动返回相应的 Last-Modified 和 ETag。可以另外做一个工具来从业务系统提取相关词汇,并更新这个 .txt 文件。
have fun.
常见问题
1.自定义词典为什么没有生效?
请确保你的扩展词典的文本格式为 UTF8 编码
2.如何手动安装,以 1.3.0 為例?(参考:https://github.com/medcl/elasticsearch-analysis-ik/issues/46)
git clone https://github.com/medcl/elasticsearch-analysis-ik
cd elasticsearch-analysis-ik
mvn compile
mvn package
plugin --install analysis-ik --url file:///#{project_path}/elasticsearch-analysis-ik/target/releases/elasticsearch-analysis-ik-1.3.0.zip
2、自定义词库的方式,请参考 https://github.com/medcl/elasticsearch-analysis-ik
http://horsemen.iteye.com/blog/2244354
相关推荐
- **新词发现**:ik分词器持续改进新词识别能力,适应网络上不断涌现的新词汇和热词。 - **错误修复**:官方可能会在新版本中修复已知的bug,提升整体稳定性。 ### 4. 安装与配置ik分词器 - **下载安装**:从官方...
"Maven 构建好的 IK 分词器,可直接使用" 这个标题告诉我们,这里提供的是一个已经使用 Maven 构建完成的 IK 分词器,专为 Elasticsearch 2.2 版本设计。IK 分词器是针对中文文本进行分词处理的工具,通常用于提高...
在本文中,我们将探讨如何利用Elasticsearch的IK分词器并对其进行源码改造,以实现热词库的动态更新,特别是通过MySQL数据库进行热词和停用词的定时更新。首先,我们要了解IK分词器的几种常用词库配置方式。 **0. ...
5. **多版本兼容**:随着Java技术的发展,IK分词器也不断更新,支持Java不同版本,适应各种开发环境。 在实际使用IK分词器时,通常需要以下几个步骤: 1. **下载与导入**:获取到IK分词器的jar包,将其引入到项目...
1. 动态热加载:Ik分词器支持动态添加和更新词典,无需重启服务,这在应对实时数据更新和快速响应新词汇需求时非常有用。 2. 多种分词模式:提供“精准模式”和“全模式”两种分词策略,精准模式尽可能减少无用的...
3. **动态热加载**:IK 分词器支持在不重启 Elasticsearch 的情况下,更新词典,方便在线调整分词效果。 4. **扩展插件**:除了基本的分词功能,IK 还提供了如拼音、同义词等扩展插件,丰富了中文处理能力。 5. **...
# 基于Elasticsearch和IK分词器的热更新中文分词系统 ## 项目简介 本项目是一个基于Elasticsearch和IK分词器的热更新中文分词系统。通过修改IK分词器源码,实现了从MySQL数据库中自动加载新词库的功能,支持...
type: ik_max_word # 使用IK分词器的全模式 dictionary: my_dict # 自定义词典路径 ``` **依赖库** 在提供的文件列表中,我们看到有如下几个依赖库: - `httpclient-4.5.2.jar`:Apache HttpClient,用于 HTTP ...
要将MySQL热更新功能集成到Elasticsearch和IK分词器中,我们需要进行以下步骤: 1. 安装IK分词器:下载并安装`elasticsearch-analysis-ik-8.1.0`,配置ES的`plugins`目录。 2. 配置分词器:在ES的`analysis`配置中...
Solr是中国最流行的开源搜索引擎系统Lucene的一个扩展,它提供了分布式、可伸缩性和高可用性的全文检索功能。...在实际项目中,理解并掌握IK分词器的原理和使用方法,将有助于提升Solr的中文搜索体验。
使用IK分词器的热更新功能,可以在不重启Solr的情况下动态加载新词库,提高系统的灵活性。 总结来说,集成和使用IK分词器是提升Solr6.0中文搜索性能的关键步骤。正确配置并结合实际情况进行优化,能有效提升搜索...
4. **动态扩展**:IK 支持在线热更新词典,无需重启服务即可生效。 5. **丰富的分词结果**:提供多种分词策略,满足复杂的查询需求。 **Elasticsearch-analysis-ik 插件特性** 将 IK 分词器集成到 Elasticsearch ...
- **热更新词典**: 在运行时,IK分词器支持在线更新词典,无需重启服务。 - **词性标注**: 提供词性标注功能,帮助进行更深入的文本分析。 - **插件机制**: 具有丰富的插件扩展接口,可以实现自定义的分词策略或功能...
在Solr 6.5版本中,IK分词器被广泛使用,以实现高效、准确的中文搜索。 IK分词器最初由杨洪强开发,旨在解决中文分词的复杂性,如歧义分词、新词识别等问题。它支持多种分词模式,包括精确模式、全模式、关键词模式...
3. **热更新词典**:IK分词器支持在线热更新词典,无需重启ES服务即可生效。 总的来说,IK分词器1.10.0与ES 2.4.0的结合,为中文文本的索引和检索提供了强大的支持,通过合理的配置和优化,可以进一步提升搜索质量...
IK分词插件支持在线热更新词库,无需重启Elasticsearch服务。此外,通过设置停用词表,可以排除常见无意义词汇,提高搜索效率。 总之,Elasticsearch IK分词插件6.1.2版是处理中文文本的强大工具,它提供了灵活的...
一旦检测到文件变化,调用`DictLoader`的`reload`方法更新词库。 5. **处理更新事件**:当词库文件发生变化时, IK Analyzer会自动重新加载新词库,无需重启服务。确保在程序中处理好并发问题,防止因词库更新引发...
除了基本配置,IK分词器还提供了动态扩展功能,如热更新词典、自定义过滤器等。通过编写Java插件,可以实现更复杂的需求,例如自定义分词策略、词语关系分析等。 总之,Elasticsearch的IK分词器对于中文搜索场景...
在251行添加热加载,定时刷新缓存或DB的热词到IK分词器中。在571行添加从缓存或mysql加载热词,调用org.wltea.analyzer.dic.Dictionary.loadMySQLExtDict()方法。 五、添加配置文件 在添加配置文件时,需要在...