`

基于hanlp的es分词插件

 
阅读更多

 

摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

Elasticsearch

默认分词

 



 

输出: 

 



 

IK分词 

 



 

输出: 

 



 

hanlp分词



 

输出:



 

 

ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词

安装步骤: 

1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data

目录的地址

2、修改es config目录下的jvm.options文件,最后一行添加

-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy

 

重启es

GET /_analyze?analyzer=hanlp-index&pretty=true

{

“text”:”张柏芝士蛋糕店”

}

测试是否安装成功

analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)

自定义词典

修改plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件

格式遵从[单词] [词性A] [A的频次]

修改完后删除同目录下的CustomDictionary.txt.bin文件

重启es服务

---------------------

作者:pengcong90

原文:https://blog.csdn.net/pengcong90/article/details/76843760

 

  • 大小: 49.1 KB
  • 大小: 193.6 KB
  • 大小: 66.3 KB
  • 大小: 231.3 KB
  • 大小: 67.6 KB
  • 大小: 227.7 KB
分享到:
评论

相关推荐

    基于hanlp的elasticsearch分词插件

    标题 "基于hanlp的elasticsearch分词插件" 指的是将自然语言处理库HanLP与搜索引擎Elasticsearch相结合,开发出一个用于Elasticsearch的分词插件。这样的插件可以提升Elasticsearch在中文文本处理上的性能,使其能够...

    Elasticsearch hanlp 分词插件

    elasticsearch-6.4.2 hanlp分词插件 windows下安装命令 首先进入es bin目录 elasticsearch-6.4.2\bin> 然后执行 elasticsearch-plugin.bat install file:///E:/elasticsearch-analysis-ik-6.4.2.zip Linux下安装...

    基于Elasticsearch的HanLP分词插件.zip

    基于Elasticsearch的HanLP分词插件 项目简介 本项目是一个基于Elasticsearch的HanLP分词插件,旨在为Elasticsearch提供强大的中文分词功能。HanLP是一个开源的中文自然语言处理工具包,支持多种分词方式和自然...

    hanlp分词es插件字典和模型大全

    elasticsearch-analysis-hanlp-7.x.x:es插件安装包,安装说明在包内 elasticsearch-analysis-hanlp-master-7.x.x:es插件源码和引用 HanLP-portable-1.7.3:hanlp分词器源码 1. 修改了hanlp-portable-1.7.3源码中...

    基于HanLP自然语言处理包的Elasticsearch分词器设计源码

    该Elasticsearch分词器的设计和实现是针对中文分词能力不足的问题,通过集成HanLP包,利用Java语言的开发便利性,以及通过Maven和Git等工具的辅助,实现了一个高效的中文分词插件。此分词器能够帮助Elasticsearch...

    基于HanLP自然语言处理包的elasticsearch分词器.zip

    总的来说,这个基于HanLP的Elasticsearch分词器项目是一个很好的学习资源,它展示了如何将先进的自然语言处理技术融入大数据搜索引擎中,以提升信息检索的准确性和效率。对于大二学生来说,这不仅是一个理论与实践相...

    elasticsearch6的分词插件ik.zip

    **Elasticsearch 6 分词插件IK** Elasticsearch 是一个开源的全文搜索引擎,它提供了高度可扩展的、实时的搜索与分析引擎服务。在处理中文文本时,Elasticsearch 需要配合合适的分词器进行有效的索引和查询。IK...

    elasticsearch-analysis-hanlp-8.15.0

    elasticsearch-analysis-hanlp-8.15.0是一款专门针对Elasticsearch 8.15.0版本的中文分词插件,它是由作者精心打包并集成HanLP中文处理库的成果。HanLP是一个高效的自然语言处理工具库,它能够对中文文本进行深度...

    elasticsearch-analysis-hanlp:基于hanlp的elasticsearch分词插件

    elasticsearch-analysis-hanlp安装步骤:1、下载插件并解压到es的plugins目录下修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data 目录的地址修改analysis-hanlp目录下...

    elasticsearch的hanlp中文插件

    在搜索引擎领域,Elasticsearch(简称ES)是一种广泛使用的开源全文检索引擎,它基于Lucene构建,提供分布式、RESTful接口以及实时数据分析能力。为了更好地支持中文处理,社区开发了各种中文分词插件,其中HanLP...

    ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词

    ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...

    elasticsearch-analysis-hanlp 8.16.1

    此外,Elasticsearch-analysis-hanlp插件的设计,使得在Elasticsearch中处理中文数据变得更加方便,因为插件的接口与Elasticsearch本身的分词器接口保持一致,开发者可以直接使用Elasticsearch的语法和工具进行操作...

    elasticsearch-7.14.0+分词器+head插件一键下载

    总结来说,这个压缩包提供了一套完整的 Elasticsearch 环境,包括最新的 7.14.0 版本、必备的分词器支持以及方便的可视化工具 Head 插件,配合 PHP 客户端,可以快速搭建起一个功能完备的全文搜索引擎系统。...

    elasticsearch-analysis-hanlp-8.17.0.zip

    elasticsearch-analysis-hanlp是一个专门为Elasticsearch设计的HanLP分词器插件。该插件使得Elasticsearch能够直接使用HanLP分词器对中文文本进行处理,极大地丰富了Elasticsearch在中文文本分析和搜索方面的能力。 ...

    基于Java语言的Elasticsearch Analysis Hanlp插件设计源码

    该插件基于Java语言开发,目的是在Elasticsearch中集成Hanlp分词技术,以增强对中文文本的分析处理能力。 Hanlp是一款优秀的中文分词系统,支持多种分词模式并具有很高的准确性。通过将Hanlp集成到Elasticsearch中...

    elasticsearch-analysis-hanlp-7x.zip

    elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

    elasticsearch-7.17.10-x86-64已安装插件 ik分词器、head、ingest-attachment

    在这个版本中,已经预装了几个关键的插件,分别是ik分词器、head插件和ingest-attachment插件,这些插件极大地增强了Elasticsearch的功能。 1. **ik分词器**:这是Elasticsearch中非常流行的中文分词器,由“智慧眼...

    elasticsearch-analysis-hanlp-8.15.3

    HanLP分析器是一个基于HanLP的中文分词插件,它使得Elasticsearch能够更好地处理中文文本。HanLP是一款优秀的中文自然语言处理工具,它提供了丰富的功能,如分词、词性标注、命名实体识别、依存句法分析等。HanLP...

    elasticsearch5.x的hanlp中文插件

    5. **测试验证**:安装并配置完成后,通过Elasticsearch的API或客户端工具进行测试,验证HanLP插件是否正常工作,如执行分词、搜索等操作。 **HanLP插件的功能应用** 1. **中文分词**:HanLP插件提供了精确、快速...

    elasticsearch-analysis-hanlp 8.16.0

    除了HanLP之外,Elasticsearch社区还提供了许多其他的插件,如Elasticsearch-Hadoop、Elasticsearch-ML、Elasticsearch-Graph等,这些插件分别扩展了Elasticsearch在大数据处理、机器学习、图形数据处理等方面的能力...

Global site tag (gtag.js) - Google Analytics