`

基于hanlp的es分词插件

 
阅读更多

 

摘要:elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

Elasticsearch

默认分词

 



 

输出: 

 



 

IK分词 

 



 

输出: 

 



 

hanlp分词



 

输出:



 

 

ik分词没有根据句子的含义来分词,hanlp能根据语义正确的切分出词

安装步骤: 

1、进入https://github.com/pengcong90/elasticsearch-analysis-hanlp,下载插件并解压到es的plugins目录下,修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data

目录的地址

2、修改es config目录下的jvm.options文件,最后一行添加

-Djava.security.policy=../plugins/analysis-hanlp/plugin-security.policy

 

重启es

GET /_analyze?analyzer=hanlp-index&pretty=true

{

“text”:”张柏芝士蛋糕店”

}

测试是否安装成功

analyzer有hanlp-index(索引模式)和hanlp-smart(智能模式)

自定义词典

修改plugins/analysis-hanlp/data/dictionary/custom下的 我的词典.txt文件

格式遵从[单词] [词性A] [A的频次]

修改完后删除同目录下的CustomDictionary.txt.bin文件

重启es服务

---------------------

作者:pengcong90

原文:https://blog.csdn.net/pengcong90/article/details/76843760

 

  • 大小: 49.1 KB
  • 大小: 193.6 KB
  • 大小: 66.3 KB
  • 大小: 231.3 KB
  • 大小: 67.6 KB
  • 大小: 227.7 KB
分享到:
评论

相关推荐

    基于hanlp的elasticsearch分词插件

    标题 "基于hanlp的elasticsearch分词插件" 指的是将自然语言处理库HanLP与搜索引擎Elasticsearch相结合,开发出一个用于Elasticsearch的分词插件。这样的插件可以提升Elasticsearch在中文文本处理上的性能,使其能够...

    Elasticsearch hanlp 分词插件

    elasticsearch-6.4.2 hanlp分词插件 windows下安装命令 首先进入es bin目录 elasticsearch-6.4.2\bin> 然后执行 elasticsearch-plugin.bat install file:///E:/elasticsearch-analysis-ik-6.4.2.zip Linux下安装...

    基于Elasticsearch的HanLP分词插件.zip

    基于Elasticsearch的HanLP分词插件 项目简介 本项目是一个基于Elasticsearch的HanLP分词插件,旨在为Elasticsearch提供强大的中文分词功能。HanLP是一个开源的中文自然语言处理工具包,支持多种分词方式和自然...

    hanlp分词es插件字典和模型大全

    elasticsearch-analysis-hanlp-7.x.x:es插件安装包,安装说明在包内 elasticsearch-analysis-hanlp-master-7.x.x:es插件源码和引用 HanLP-portable-1.7.3:hanlp分词器源码 1. 修改了hanlp-portable-1.7.3源码中...

    基于HanLP自然语言处理包的elasticsearch分词器.zip

    总的来说,这个基于HanLP的Elasticsearch分词器项目是一个很好的学习资源,它展示了如何将先进的自然语言处理技术融入大数据搜索引擎中,以提升信息检索的准确性和效率。对于大二学生来说,这不仅是一个理论与实践相...

    elasticsearch6的分词插件ik.zip

    **Elasticsearch 6 分词插件IK** Elasticsearch 是一个开源的全文搜索引擎,它提供了高度可扩展的、实时的搜索与分析引擎服务。在处理中文文本时,Elasticsearch 需要配合合适的分词器进行有效的索引和查询。IK...

    elasticsearch-analysis-hanlp:基于hanlp的elasticsearch分词插件

    elasticsearch-analysis-hanlp安装步骤:1、下载插件并解压到es的plugins目录下修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data 目录的地址修改analysis-hanlp目录下...

    ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词

    ElasticSearch安装包整理,包含Hanlp分词,IK分词,x-pack,,Mysql动态加载停用词、基础词、同义词,个人整理的ElasticSearch7.9.0安装压缩包,其中的同义词,基础词,停用词mysql动态加载属于个人完善并编译,多年...

    elasticsearch-7.14.0+分词器+head插件一键下载

    总结来说,这个压缩包提供了一套完整的 Elasticsearch 环境,包括最新的 7.14.0 版本、必备的分词器支持以及方便的可视化工具 Head 插件,配合 PHP 客户端,可以快速搭建起一个功能完备的全文搜索引擎系统。...

    elasticsearch的hanlp中文插件

    在搜索引擎领域,Elasticsearch(简称ES)是一种广泛使用的开源全文检索引擎,它基于Lucene构建,提供分布式、RESTful接口以及实时数据分析能力。为了更好地支持中文处理,社区开发了各种中文分词插件,其中HanLP...

    elasticsearch-analysis-hanlp-7x.zip

    elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

    elasticsearch5.x的hanlp中文插件

    5. **测试验证**:安装并配置完成后,通过Elasticsearch的API或客户端工具进行测试,验证HanLP插件是否正常工作,如执行分词、搜索等操作。 **HanLP插件的功能应用** 1. **中文分词**:HanLP插件提供了精确、快速...

    开发ElasticSearch的HanLP中文插件含截图

    ### 开发ElasticSearch的HanLP中文插件 #### 一、概述 ElasticSearch作为一款流行的搜索引擎,因其高效的数据处理能力,在大数据时代受到了广泛的关注与应用。然而,对于中文内容的支持,ElasticSearch默认提供的...

    elasticsearch-analysis-hanlp:用于Elasticsearch的HanLP分析器

    elasticsearch-analysis-hanlpHanLP Analyzer for ElasticSearch此分词器基于,提供了HanLP中大部分的分词方式。今年一年都在忙其他事,所以插件更新基本一年没有更新,年底更新一波。今年学习了一下ES向量插件...

    elasticsearch-analysis-hanlp-7.1.1.zip

    Elasticsearch Analysis HanLP插件是基于汉语言处理库HanLP(由北京大学计算机科学技术研究所开发)的扩展,它为Elasticsearch提供了高性能的中文分词能力。HanLP具备准确、快速的特点,同时支持词语的多种切分方式...

    基于NLP技术实现的中文分词插件,准确度比常用的分词器高太多,同时提供ElasticSearch和OpenSearch插件

    ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。

    elasticsearch-analysis-hanlp-7.5.1.zip

    "elasticsearch-analysis-hanlp-7.5.1.zip"便是这样一个专门为Elasticsearch 7.5.1版本定制的汉语文本分析插件,旨在优化中文分词和语义理解,提供更精准的搜索结果。 HanLP(全称:High-performance Natural ...

    全文检索自然语言分词elasticsearch8.X对接HanLP的扩展和方法的编译好的包

    总结起来,本文讨论了如何使用Elasticsearch 8.x版本对接汉化自然语言处理库HanLP,通过自定义分析器和Java插件的方式实现了中文分词的集成。这种方法有助于提高全文检索的准确性和效率,尤其对于处理大量中文文本的...

    elasticsearch-analysis-hanlp-8.15.0

    作者自己打包的hanlp插件,用于中文分词,可实现中文人名、地名、机构名识别。es的版本为8.15.0

    elasticsearch7.14.0.zip

    4. **IK分词器**:IK是Elasticsearch常用的中文分词插件,支持动态加载字典,能够进行复杂的分词处理。适用于中文文档的检索和分析,提高搜索准确性和效率。 5. **Pinyin插件**:该插件将中文字符转换为拼音,便于...

Global site tag (gtag.js) - Google Analytics