`

配置Hanlp自然语言处理进阶

阅读更多

 

中文分词

中文分词中有众多分词工具,如结巴、hanlp、盘古分词器、庖丁解牛分词等;其中庖丁解牛分词仅仅支持java,分词是HanLP最基础的功能,HanLP实现了许多种分词算法,每个分词器都支持特定的配置。接下来我将介绍如何配置Hanlp来开启自然语言处理之旅,每个工具包都是一个非常强大的算法集合,所以小编以后将花一些时间去看看里面源码如何。

下载jarpropertydata文件

下载jar文件,(下载hanlp压缩包)解压之后获得jarproperty文件如下:

 

 

其中property问配置文件,jar文件为外部引用文件。

然后下载data文件:

https://pan.baidu.com/s/1o8Rri0y (前面的括号自行去掉)

解压压缩包之后就能获取data目录了。

一切就绪之后下面就是配置了。

配置hanlp

新建一个空项目,包括一个新建的java文件的test.java

1.package com;

2.import com.hankcs.hanlp.HanLP;

3.public class Test {

4.public static void main(String[] args) {

5.    System.out.println(HanLP.segment("你好,欢迎使用HanLP"));

6.    }

7.}  

目录结构如下图:

 

如果是在linux中的话,你可以将property文件放在classpath中,windows中也可以,配置环境变量,将property文件的绝对路径加上就可以了,然后运行一下这个java文件:

你会发现如下错误

 

1.十二月 11, 2017 9:59:37 下午 com.hankcs.hanlp.HanLP$Config <clinit>

2.严重: 没有找到hanlp.properties,可能会导致找不到data

3.========Tips========

4.请将hanlp.properties放在下列目录:

5.D:\ ideaWorkSpace\ hanlp_mavenHanlp\ target\classes

6.Web项目则请放到下列目录:

7.Webapp/WEB-INF/lib

8.Webapp/WEB-INF/classes

9.Appserver/lib

10.JRE/lib

11.并且编辑root=PARENT/path/to/your/data

 

然后将property放到相应的目录就可以了,注意property配置只需要修改root的配置就行了。

 

1.本配置文件中的路径的根目录,根目录+其他路径=绝对路径Windows用户请注意,路径分隔符统一使用/

2.root=D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java

 

就比如我的解压后的data文件夹是放在D:/ideaWorkSpace/hanlp_mavenHanlp/src/main/java目录下的那我就改这个就可以了,其余的配置不用修改

 

运行成功如下图:

 

---------------------

作者:学zaza

原文:https://blog.csdn.net/u013928917/article/details/78777425

 

  • 大小: 46.3 KB
  • 大小: 102.4 KB
  • 大小: 37.3 KB
分享到:
评论

相关推荐

    hanlp 自然语言处理入门

    在"hanlp 自然语言处理入门"的学习资料中,我们可以期待涵盖一系列基础到进阶的NLP概念和技术。这里我们将深入探讨其中的关键知识点。 首先,Python-3.8.10-amd64.exe是一个Python编程环境的安装程序,Python是NLP...

    HanLP自然语言处理

    《深入探索HanLP自然语言处理》 在信息技术日益发展的今天,自然语言处理(Natural Language Processing,简称NLP)已经成为人工...通过深入学习和使用HanLP,我们可以更好地理解和处理自然语言,推动智能应用的发展。

    基于Python和Java的hanLP自然语言处理设计源码

    本项目为hanLP自然语言处理框架的设计源码,主要采用Python编写,辅以Java进行跨平台开发。项目文件共计660个,其中包括475个Python源文件、157个Markdown文档、13个Java源文件、8个reStructuredText文件、2个YAML...

    基于Python和Java的HanLP自然语言处理设计源码

    该项目是一款基于Python和Java的HanLP自然语言处理设计源码,总文件量为610个,涵盖438个Python源文件、149个Markdown文档、8个ReStructuredText文件、8个Java源文件、2个YAML配置文件、1个Git忽略文件、1个LICENSE...

    基于Python和Java的HanLP自然语言处理工具设计源码

    该项目是一个基于Python和Java的HanLP自然语言处理工具设计源码,总共有593个文件,其中包括422个Python源文件、146个Markdown文档、8个ReStructuredText文件、8个Java源文件、2个YAML配置文件、2个Python扩展文件、...

    基于HanLP自然语言处理包的elasticsearch分词器 hanlp-tokenizer-master

    基于HanLP自然语言处理包的elasticsearch分词器 功能 本分词器使用HanLP提供的维特比分词 屏蔽了本地配置用户词典 增加同义词索引功能 增加远程词典热更新(用户词典,停词典,同义词典) 使用 目前支持的es版本为...

    基于HanLP自然语言处理包的elasticsearch分词器.zip

    在本项目中,我们主要探讨的是如何利用HanLP自然语言处理包来构建一个自定义的Elasticsearch分词器。Elasticsearch是一个流行的开源搜索引擎,它广泛应用于大数据分析和信息检索。自然语言处理(NLP)是人工智能的一...

    基于HanLP自然语言处理包的Elasticsearch分词器设计源码

    本项目为基于HanLP自然语言处理包的Elasticsearch分词器设计源码,共计26个文件,涵盖19个Java源文件、3个XML配置文件、1个Git忽略文件、1个Markdown文件和1个属性文件。该分词器旨在提高Elasticsearch的中文分词...

    基于Python和Java的多语言HanLP自然语言处理设计源码

    本项目为基于Python和Java的多语言HanLP自然语言处理系统设计源码,共计包含658个文件,其中包括473个Python脚本、157个Markdown文档、13个Java类文件、8个RestructuredText文件、2个YAML配置文件、1个Git忽略文件、...

    基于Python与Java的HanLP自然语言处理设计源码

    该项目是一款结合Python与Java技术的HanLP自然语言处理设计源码,包含654个文件,涵盖469个Python脚本、157个Markdown文档、13个Java类文件、8个reStructuredText文件、2个YAML文件、1个Git忽略规则文件、1个授权...

    基于Python和Java的HanLP中文自然语言处理设计源码

    该项目是一个基于Python和Java的HanLP中文自然语言处理设计源码,包含614个文件,涵盖442个Python脚本、149个Markdown文档、8个reStructuredText文件、8个Java源文件、2个YAML配置文件、1个Git忽略文件、1个许可证...

    基于Python的HanLP中文自然语言处理设计源码

    本项目为基于Python开发的HanLP中文自然语言处理源码,总文件量达198个,涵盖192个Python源文件、3个Markdown文档、1个YAML配置文件、1个Git忽略文件以及1个LICENSE文件。该源码集成了丰富的自然语言处理功能,包括...

    eclipse上配置hanlp完整包 已安装成功

    HanLP是一款强大的自然语言处理工具,由Java编写,适用于中文分词、词性标注、命名实体识别、依存句法分析等多种任务。以下是对配置过程的详细步骤及知识点的解析: 首先,你需要下载HanLP的完整包,其中包含了`...

    NLP入门学习 Step 0 了解自然语言处理的任务 自然语言生成(NLG)

    HanLP自然语言处理入门 某知乎er推荐的书籍 Step 3 深度学习框架学习 动手学习深度学习pytorch版 Step 4 实战 一个简单的慕课入门上机实践 YSDA Natural Language Processing course NLP入门学习 Step 0 了解...

    hanlp-python_spiderpbl_ch11/11.5.py_自然语言处理入门_

    在本项目"hanlp-python_spiderpbl_ch11/11.5.py_自然语言处理入门_"中,我们将探讨使用Python进行NLP的实践应用。 `11.5.py`可能是一个章节练习或示例代码,对应何晗先生的书籍关于自然语言处理的部分。这个Python...

    Hanlp最新版本V1.7.2(含hanlp-1.7.2.jar、模型data包、配置文件hanlp.properties)

    汉语言处理库HanLP是Java实现的自然语言处理(NLP)工具,广泛应用于文本分析、信息提取、情感分析等领域。最新版本V1.7.2包含了一系列优化和新功能,使得它在处理汉语文本时更为高效和准确。这次发布的压缩包提供了...

    基于Python和Java语言的HanLP中文自然语言处理设计源码

    本项目是一款基于Python和Java语言的HanLP中文自然语言处理设计源码,包含共计589个文件,其中包括420个Python源文件、146个Markdown文档、8个RestructuredText文件、6个Java源文件、2个YAML文件、2个Python扩展模块...

Global site tag (gtag.js) - Google Analytics