`

HanLP Analysis for Elasticsearch

 
阅读更多

基于 HanLP Elasticsearch 中文分词插件,核心功能:

 

兼容 ES 5.x-7.x

内置词典,无需额外配置即可使用;

支持用户自定义词典;

支持远程词典热更新(待开发);

内置多种分词模式,适合不同场景;

拼音过滤器(待开发);

简繁体转换过滤器(待开发)。

 

版本

插件版本和 ES 版本一致,直接下载对应版本的插件进行安装即可。

 

·插件开发完成时,最新版本已经为 6.5.2 了,所以个人只对典型的版本进行了测试;

·5.X 5.0.05.5.0 版本进行了测试;

·6.X 6.0.06.3.06.4.16.5.1 版本进行了测试;

·7.X 7.0.0 版本进行了测试。

 

安装使用

下载编译

git clone 对应版本的代码,打开 pom.xml 文件,修改 <elasticsearch.version>6.5.1</elasticsearch.version> 为需要的 ES 版本;然后使用 mvn package 生产打包文件,最终文件在 target/release 文件夹下。

 

打包完成后,使用离线方式安装即可。

 

使用默认词典

 

·在线安装:.\elasticsearch-plugin install github.com/AnyListen/elasticsearch-analysis-hanlp/releases/download/vA.B.C/elasticsearch-analysis-hanlp-A.B.C.zip

·离线安装:.\elasticsearch-plugin install file:///FILE_PATH/elasticsearch-analysis-hanlp-A.B.C.zip

离线安装请把 FILE_PATH 更改为 zip 文件路径;ABC 对应的是 ES 版本号。

 

使用自定义词典

默认词典是精简版的词典,能够满足基本需求,但是无法使用感知机和 CRF 等基于模型的分词器。

 

HanLP 提供了更加完整的词典,请按需下载。

 

词典下载后,解压到任意目录,然后修改插件安装目录下的 hanlp.properties 文件,只需修改第一行

 

root=D:/JavaProjects/HanLP/

data 的父目录即可,比如 data 目录是 /Users/hankcs/Documents/data,那么 root=/Users/hankcs/Documents/

 

使用自定义配置文件

如果你在其他地方使用了 HanLP,希望能够复用 hanlp.properties 文件,你只需要修改插件安装目录下的 plugin.properties 文件,将 configPath 配置为已有的 hanlp.properties 文件地址即可。

 

内置分词器

 

分析器(Analysis)

 

·hanlp_index:细粒度切分

·hanlp_smart:常规切分

·hanlp_nlp:命名实体识别

·hanlp_per:感知机分词

·hanlp_crfCRF分词

·hanlp:自定义

 

分词器(Tokenizer)

·hanlp_index:细粒度切分

·hanlp_smart:常规切分

·hanlp_nlp:命名实体识别

·hanlp_per:感知机分词

·hanlp_crfCRF分词

·hanlp:自定义

 

自定义分词器

插件有较为丰富的选项允许用户自定义分词器,下面是可用的配置项:

 

1

 

案例展示:

 

# 创建自定义分词器

PUT my_index

{

  "settings": {

    "analysis": {

      "analyzer": {

        "my_analyzer": {

          "type": "hanlp",

          "algorithm": "viterbi",

          "enableIndexMode": "true",

          "enableCustomDictionary": "true",

          "customDictionaryPath": "",

          "enableCustomDictionaryForcing": "false",

          "enableStopWord": "true",

          "stopWordDictionaryPath": "",

          "enableNumberQuantifierRecognize": "true",

          "enableNameRecognize": "true",

          "enableTranslatedNameRecognize": "true",

          "enableJapaneseNameRecognize": "true",

          "enableOrganizationRecognize": "true",

          "enablePlaceRecognize": "true",

          "enableTraditionalChineseMode": "false"

        }

      }

    }

  }

}

 

# 测试分词器

POST my_index/_analyze

{

  "analyzer": "my_analyzer",

  "text": "张惠妹在上海市举办演唱会啦"

}

分词速度(仅供参考)

 

借助 _analyze API11G单线程),通过改变分词器类型,对 2W 字的文本进行分词,以下为从请求到返回的耗时:

 

分享到:
评论

相关推荐

    elasticsearch-analysis-hanlp-8.15.0

    elasticsearch-analysis-hanlp-8.15.0是一款专门针对Elasticsearch 8.15.0版本的中文分词插件,它是由作者精心打包并集成HanLP中文处理库的成果。HanLP是一个高效的自然语言处理工具库,它能够对中文文本进行深度...

    elasticsearch-analysis-hanlp:用于Elasticsearch的HanLP分析器

    elasticsearch-analysis-hanlpHanLP Analyzer for ElasticSearch此分词器基于,提供了HanLP中大部分的分词方式。今年一年都在忙其他事,所以插件更新基本一年没有更新,年底更新一波。今年学习了一下ES向量插件...

    基于HanLP自然语言处理包的elasticsearch分词器 hanlp-tokenizer-master

    基于HanLP自然语言处理包的elasticsearch分词器 功能 本分词器使用HanLP提供的维特比分词 屏蔽了本地配置用户词典 增加同义词索引功能 增加远程词典热更新(用户词典,停词典,同义词典) 使用 目前支持的es版本为...

    elasticsearch-analysis-hanlp-8.17.0.zip

    elasticsearch-analysis-hanlp插件是连接Elasticsearch和HanLP的桥梁,它让Elasticsearch具备了更加强大的中文文本处理能力,满足了复杂中文环境下对于搜索引擎的高要求。通过使用这个插件,开发者可以更容易地构建...

    Elasticsearch hanlp 分词插件

    elasticsearch-6.4.2 hanlp分词插件 windows下安装命令 首先进入es bin目录 elasticsearch-6.4.2\bin&gt; 然后执行 elasticsearch-plugin.bat install file:///E:/elasticsearch-analysis-ik-6.4.2.zip Linux下安装...

    elasticsearch-analysis-hanlp-7.1.1.zip

    《Elasticsearch Analysis HanLP插件详解》 在大数据时代,搜索引擎成为了信息获取的重要工具,而Elasticsearch作为一款强大的全文搜索引擎,广泛应用于各种场景。为了更好地支持中文处理,Elasticsearch提供了各种...

    基于hanlp的elasticsearch分词插件

    压缩包文件名为“pengcong90-elasticsearch-analysis-hanlp-8d552a3”,这很可能是项目的GitHub仓库名称或者版本号,其中“pengcong90”可能是开发者或团队的用户名,“elasticsearch-analysis-hanlp”表明这是针对...

    elasticsearch-analysis-hanlp 8.16.0

    elasticsearch-analysis-hanlp 8.16.0便是这样一款插件,它为Elasticsearch带来了HanLP的支持。 HanLP是一款先进的自然语言处理工具包,它基于现代语言学理论,专注于中文自然语言处理。它提供了包括分词、词性标注...

    elasticsearch-analysis-hanlp:基于hanlp的elasticsearch分词插件

    elasticsearch-analysis-hanlp安装步骤:1、下载插件并解压到es的plugins目录下修改analysis-hanlp目录下的hanlp.properties文件,修改root的属性,值为analysis-hanlp下的data 目录的地址修改analysis-hanlp目录下...

    elasticsearch-analysis-hanlp-7.5.1.zip

    4. **elasticsearch-analysis-hanlp-7.5.1.jar**:这是Elasticsearch HanLP插件的实现文件,将HanLP的功能与Elasticsearch的索引和查询机制结合。 5. **commons-logging-1.2.jar**:提供了日志记录功能,方便插件...

    elasticsearch-analysis-hanlp 8.16.1

    Elasticsearch-analysis-hanlp 8.16.1作为HanLP与Elasticsearch结合的插件,使得Elasticsearch能够直接支持中文文本的处理。 Elasticsearch-analysis-hanlp插件是为Elasticsearch 8.16.1版本专门设计的,它允许...

    elasticsearch-analysis-hanlp-8.17.2.zip

    在本例中,elasticsearch-analysis-hanlp-8.17.2.zip是专为Elasticsearch 8.17.2版本设计的,因此安装之前请确认Elasticsearch的版本号,以保证插件能够正常工作。此外,安装新的插件或者更新现有插件后,Elastic...

    elasticsearch-analysis-hanlp-7x.zip

    elasticsearch是使用比较广泛的分布式搜索引擎,es提供了一个的单字分词工具,还有一个分词插件ik使用比较广泛,hanlp是一个自然语言处理包,能更好的根据上下文的语义,人名,地名,组织机构名等来切分词

    elasticsearch-analysis-hanlp-8.15.3

    动态同义词分析器插件(elasticsearch-analysis-dynamic-synonym-8.15.3)是一个专门为了提供同义词匹配功能而设计的插件。它可以动态加载同义词配置文件,使得可以在不影响现有索引的情况下更新同义词。这对于需要...

    elasticsearch-analysis-hanlp-8.17.3.zip

    elasticsearch-analysis-hanlp-8.17.3.zip插件为Elasticsearch带来了强大的中文分词能力,为中文内容的索引和搜索提供了优化,扩展了Elasticsearch在多语言信息处理方面的能力,使得在中文文本处理方面的工作更加...

    最新版 elasticsearch-analysis-ik-8.7.0.zip

    最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip最新版 elasticsearch-analysis-ik-8.7.0.zip

    7.17.1系列Elasticsearch的elasticsearch-analysis-ik分词器

    elasticsearch-analysis-ik 是一个常用的中文分词器,在 Elasticsearch 中广泛应用于中文文本的分析和搜索。下面是 elasticsearch-analysis-ik 分词器的几个主要特点: 中文分词:elasticsearch-analysis-ik 是基于...

    hanlp分词es插件字典和模型大全

    elasticsearch-analysis-hanlp-7.x.x:es插件安装包,安装说明在包内 elasticsearch-analysis-hanlp-master-7.x.x:es插件源码和引用 HanLP-portable-1.7.3:hanlp分词器源码 1. 修改了hanlp-portable-1.7.3源码中...

    最新版elasticsearch-analysis-ik-8.8.2.zip

    最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip最新版elasticsearch-analysis-ik-8.8.2.zip

    elasticsearch-analysis-pinyin-7.4.0 es拼音分词器7.4.0

    Elasticsearch(简称ES)是一款强大的开源搜索引擎,广泛应用于大数据领域的全文检索。它以其高可扩展性、实时性能以及丰富的分析能力著称。在中文环境下,由于汉字的复杂性,分词是实现有效搜索的关键步骤。为此,...

Global site tag (gtag.js) - Google Analytics