摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
Elasticsearch
默认分词
输出:
IK分词
输出:
hanlp分词
输出:
ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词
安装步骤:
1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data
目录的地址
2、修改es config目录下的jvm.options文件,最后一行添加
-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy
重启es
GET /_analyze?analyzer=hanlp-index&pretty=true
{
“text”:”张柏芝士蛋糕店”
}
测试是否安装成功
analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)
自定义词典
修改plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件
格式遵从[单词] [词性A] [A的频次]
修改完后删除同目录下的CustomDictionary.txt.bin文件
重启es服务
---------------------
作者:pengcong90
原文:https://blog.csdn.net/pengcong90/article/details/76843760
相关推荐
标题 "基于hanlp的elasticsearch分词插件" 指的是将自然语言处理库HanLP与搜索引擎Elasticsearch相结合,开发出一个用于Elasticsearch的分词插件。这样的插件可以提升Elasticsearch在中文文本处理上的性能,使其能够...
elasticsearch-6.4.2 hanlp分词插件 windows下安装命令 首先进入es bin目录 elasticsearch-6.4.2\bin> 然后执行 elasticsearch-plugin.bat install file:///E:/elasticsearch-analysis-ik-6.4.2.zip Linux下安装...
基于Elasticsearch的HanLP分词插件 项目简介 本项目是一个基于Elasticsearch的HanLP分词插件,旨在为Elasticsearch提供强大的中文分词功能。HanLP是一个开源的中文自然语言处理工具包,支持多种分词方式和自然...
elasticsearch-analysis-hanlp-7.x.x:es插件安装包,安装说明在包内 elasticsearch-analysis-hanlp-master-7.x.x:es插件源码和引用 HanLP-portable-1.7.3:hanlp分词器源码 1. 修改了hanlp-portable-1.7.3源码中...
总的来说,这个基于HanLP的Elasticsearch分词器项目是一个很好的学习资源,它展示了如何将先进的自然语言处理技术融入大数据搜索引擎中,以提升信息检索的准确性和效率。对于大二学生来说,这不仅是一个理论与实践相...
**Elasticsearch 6 分词插件IK** Elasticsearch 是一个开源的全文搜索引擎,它提供了高度可扩展的、实时的搜索与分析引擎服务。在处理中文文本时,Elasticsearch 需要配合合适的分词器进行有效的索引和查询。IK...
elasticsearch-analysis-hanlp安装步骤:1、下载插件并解压到es的plugins目录下修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data 目录的地址修改analysis-hanlp目录下...
ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...
总结来说,这个压缩包提供了一套完整的 Elasticsearch 环境,包括最新的 7.14.0 版本、必备的分词器支持以及方便的可视化工具 Head 插件,配合 PHP 客户端,可以快速搭建起一个功能完备的全文搜索引擎系统。...
在搜索引擎领域,Elasticsearch(简称ES)是一种广泛使用的开源全文检索引擎,它基于Lucene构建,提供分布式、RESTful接口以及实时数据分析能力。为了更好地支持中文处理,社区开发了各种中文分词插件,其中HanLP...
elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词
5. **测试验证**:安装并配置完成后,通过Elasticsearch的API或客户端工具进行测试,验证HanLP插件是否正常工作,如执行分词、搜索等操作。 **HanLP插件的功能应用** 1. **中文分词**:HanLP插件提供了精确、快速...
### 开发ElasticSearch的HanLP中文插件 #### 一、概述 ElasticSearch作为一款流行的搜索引擎,因其高效的数据处理能力,在大数据时代受到了广泛的关注与应用。然而,对于中文内容的支持,ElasticSearch默认提供的...
elasticsearch-analysis-hanlpHanLP Analyzer for ElasticSearch此分词器基于,提供了HanLP中大部分的分词方式。今年一年都在忙其他事,所以插件更新基本一年没有更新,年底更新一波。今年学习了一下ES向量插件...
Elasticsearch Analysis HanLP插件是基于汉语言处理库HanLP(由北京大学计算机科学技术研究所开发)的扩展,它为Elasticsearch提供了高性能的中文分词能力。HanLP具备准确、快速的特点,同时支持词语的多种切分方式...
ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。
"elasticsearch-analysis-hanlp-7.5.1.zip"便是这样一个专门为Elasticsearch 7.5.1版本定制的汉语文本分析插件,旨在优化中文分词和语义理解,提供更精准的搜索结果。 HanLP(全称:High-performance Natural ...
总结起来,本文讨论了如何使用Elasticsearch 8.x版本对接汉化自然语言处理库HanLP,通过自定义分析器和Java插件的方式实现了中文分词的集成。这种方法有助于提高全文检索的准确性和效率,尤其对于处理大量中文文本的...
作者自己打包的hanlp插件,用于中文分词,可实现中文人名、地名、机构名识别。es的版本为8.15.0
4. **IK分词器**:IK是Elasticsearch常用的中文分词插件,支持动态加载字典,能够进行复杂的分词处理。适用于中文文档的检索和分析,提高搜索准确性和效率。 5. **Pinyin插件**:该插件将中文字符转换为拼音,便于...