摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
Elasticsearch
默认分词
输出:
IK分词
输出:
hanlp分词
输出:
ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词
安装步骤:
1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data
目录的地址
2、修改es config目录下的jvm.options文件,最后一行添加
-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy
重启es
GET /_analyze?analyzer=hanlp-index&pretty=true
{
“text”:”张柏芝士蛋糕店”
}
测试是否安装成功
analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)
自定义词典
修改plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件
格式遵从[单词] [词性A] [A的频次]
修改完后删除同目录下的CustomDictionary.txt.bin文件
重启es服务
---------------------
作者:pengcong90
原文:https://blog.csdn.net/pengcong90/article/details/76843760
相关推荐
标题 "基于hanlp的elasticsearch分词插件" 指的是将自然语言处理库HanLP与搜索引擎Elasticsearch相结合,开发出一个用于Elasticsearch的分词插件。这样的插件可以提升Elasticsearch在中文文本处理上的性能,使其能够...
elasticsearch-6.4.2 hanlp分词插件 windows下安装命令 首先进入es bin目录 elasticsearch-6.4.2\bin> 然后执行 elasticsearch-plugin.bat install file:///E:/elasticsearch-analysis-ik-6.4.2.zip Linux下安装...
基于Elasticsearch的HanLP分词插件 项目简介 本项目是一个基于Elasticsearch的HanLP分词插件,旨在为Elasticsearch提供强大的中文分词功能。HanLP是一个开源的中文自然语言处理工具包,支持多种分词方式和自然...
elasticsearch-analysis-hanlp-7.x.x:es插件安装包,安装说明在包内 elasticsearch-analysis-hanlp-master-7.x.x:es插件源码和引用 HanLP-portable-1.7.3:hanlp分词器源码 1. 修改了hanlp-portable-1.7.3源码中...
该Elasticsearch分词器的设计和实现是针对中文分词能力不足的问题,通过集成HanLP包,利用Java语言的开发便利性,以及通过Maven和Git等工具的辅助,实现了一个高效的中文分词插件。此分词器能够帮助Elasticsearch...
总的来说,这个基于HanLP的Elasticsearch分词器项目是一个很好的学习资源,它展示了如何将先进的自然语言处理技术融入大数据搜索引擎中,以提升信息检索的准确性和效率。对于大二学生来说,这不仅是一个理论与实践相...
**Elasticsearch 6 分词插件IK** Elasticsearch 是一个开源的全文搜索引擎,它提供了高度可扩展的、实时的搜索与分析引擎服务。在处理中文文本时,Elasticsearch 需要配合合适的分词器进行有效的索引和查询。IK...
elasticsearch-analysis-hanlp-8.15.0是一款专门针对Elasticsearch 8.15.0版本的中文分词插件,它是由作者精心打包并集成HanLP中文处理库的成果。HanLP是一个高效的自然语言处理工具库,它能够对中文文本进行深度...
elasticsearch-analysis-hanlp安装步骤:1、下载插件并解压到es的plugins目录下修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data 目录的地址修改analysis-hanlp目录下...
在搜索引擎领域,Elasticsearch(简称ES)是一种广泛使用的开源全文检索引擎,它基于Lucene构建,提供分布式、RESTful接口以及实时数据分析能力。为了更好地支持中文处理,社区开发了各种中文分词插件,其中HanLP...
ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...
此外,Elasticsearch-analysis-hanlp插件的设计,使得在Elasticsearch中处理中文数据变得更加方便,因为插件的接口与Elasticsearch本身的分词器接口保持一致,开发者可以直接使用Elasticsearch的语法和工具进行操作...
总结来说,这个压缩包提供了一套完整的 Elasticsearch 环境,包括最新的 7.14.0 版本、必备的分词器支持以及方便的可视化工具 Head 插件,配合 PHP 客户端,可以快速搭建起一个功能完备的全文搜索引擎系统。...
elasticsearch-analysis-hanlp是一个专门为Elasticsearch设计的HanLP分词器插件。该插件使得Elasticsearch能够直接使用HanLP分词器对中文文本进行处理,极大地丰富了Elasticsearch在中文文本分析和搜索方面的能力。 ...
该插件基于Java语言开发,目的是在Elasticsearch中集成Hanlp分词技术,以增强对中文文本的分析处理能力。 Hanlp是一款优秀的中文分词系统,支持多种分词模式并具有很高的准确性。通过将Hanlp集成到Elasticsearch中...
elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
在这个版本中,已经预装了几个关键的插件,分别是ik分词器、head插件和ingest-attachment插件,这些插件极大地增强了Elasticsearch的功能。 1. **ik分词器**:这是Elasticsearch中非常流行的中文分词器,由“智慧眼...
HanLP分析器是一个基于HanLP的中文分词插件,它使得Elasticsearch能够更好地处理中文文本。HanLP是一款优秀的中文自然语言处理工具,它提供了丰富的功能,如分词、词性标注、命名实体识别、依存句法分析等。HanLP...
5. **测试验证**:安装并配置完成后,通过Elasticsearch的API或客户端工具进行测试,验证HanLP插件是否正常工作,如执行分词、搜索等操作。 **HanLP插件的功能应用** 1. **中文分词**:HanLP插件提供了精确、快速...
除了HanLP之外,Elasticsearch社区还提供了许多其他的插件,如Elasticsearch-Hadoop、Elasticsearch-ML、Elasticsearch-Graph等,这些插件分别扩展了Elasticsearch在大数据处理、机器学习、图形数据处理等方面的能力...