`

如何编译运行HanLP自然语言处理包

 
阅读更多

 

master分支

对于master分支,编译方法如下:

git clone  https://github.com/hankcs/HanLP.git

mvn install -DskipTests

 

·由于目前一些test不够规范,使用了硬编码路径下的资源,所以暂时跳过单元测试。

·该方法不会将src/main/resources目录下的任何资源(包括hanlp.properties)打包进jar,如果需要打包资源文件,请切换到portable分支。

portable分支

git checkout portable

然后将需要的data放入src/main/resources,最后执行:

 

mvn install -DskipTests

运行jar

目前jar包中有一些模块可以命令行执行,以感知机词法分析器为例。由于这些模块一般需要加载外部data,所以需要在运行时指定hanlp.properties。运行时,一个典型的目录结构如下:



 

·此处只列出了重要的目录。

·一个良好的实践是把hanlp.properties放到resources目录下。

 

命令行需要指定jar包和hanlp.properties所在的目录:

 

$ java -cp target/hanlp-1.6.0.jar:src/main/resources  com.hankcs.hanlp.model.perceptron.Main -test \

<<< '华安集团胡花蕊来到纽约艺术博物馆参观'

[华安/nz 集团/n]/nt 胡花蕊/nr 来到/v [纽约/ns 艺术/n 博物馆/n]/ns 参观/v

 

·Windows用户请使用分号java -cp target/hanlp-1.6.0.jar;src/main/resources

  • 大小: 15.3 KB
分享到:
评论

相关推荐

    Android-HanLP是由一系列用于自然语言处理模型与算法组成的Java工具包

    HanLP,作为一款由Java编写的高效自然语言处理工具包,为Android开发者提供了丰富的NLP模型和算法,使其能够在移动设备上轻松实现复杂文本处理任务。 HanLP的主要特点: 1. 功能完善:HanLP涵盖了词性标注、分词、...

    hanlp-lucene-plugin, HanLP中文分词Lucene插件,支持包括Solr在内的基于Lucene的系统.zip

    HanLP是由北京大学计算机科学技术研究所开发的一款高性能的自然语言处理工具包,提供了丰富的中文处理功能,包括但不限于分词、词性标注、命名实体识别、依存句法分析等。在Lucene中集成HanLP,能够极大地增强对中文...

    elasticsearch的hanlp中文插件

    为了更好地支持中文处理,社区开发了各种中文分词插件,其中HanLP(全称:High-performance Natural Language Processing)是来自科大讯飞的一款高性能的自然语言处理工具包,它在中文分词、词性标注、命名实体识别...

    PowerNLP:纯go实现的中文自然语言处理组件

    **PowerNLP: 纯Go实现的中文自然语言处理组件** `PowerNLP`是一个用Go语言编写的中文自然语言处理(NLP)库,它专注于为开发者提供方便、高效的工具来处理和理解中文文本。Go语言因其高效、轻量级及并发特性,常被...

    ideaseg-master.zip

    4. **hanlp关联**:标签中提到的"hanlp"是另一款知名的中文分词库,全称是“哈工大天池自然语言处理平台”。ideaseg 可能采用了 hanlp 的部分算法或理念,或者与之有兼容性,这使得用户可以在不同分词工具间进行选择...

    汉字转拼音(jar包和示例源码)

    在编程领域,尤其是在自然语言处理、搜索引擎优化、语音识别等领域,这种技术被广泛应用。本资源包含了一个jar包和示例源码,为开发者提供了一个方便的工具来实现汉字到拼音的转换。 首先,我们要理解jar包是什么。...

    Microsoft Visual C++ 14.0 工具.zip

    "hanlp"是中国人民大学胡事民教授团队开发的自然语言处理工具包,基于Java,但在Python中使用可能也需要依赖C++编译器来安装某些关联的Python库。 "mysql"指的是MySQL数据库,它是一款流行的开源关系型数据库管理...

    汉字转拼音(Demo)

    而HanLP是由知网开发的自然语言处理工具包,除了提供拼音转换外,还支持词性标注、分词、命名实体识别等高级功能。 在这个"汉字转拼音(Demo)"项目中,我们可以看到几个关键部分: 1. **.classpath**:这是一个...

    javasmack源码-Navigation-guide:导航指南

    java smack源码 Navigation-guide ...自然语言处理 中文分词 jieba-analysis 结巴分词(java版) similarity 相似度计算工具包 Compiler_Experiment 编译原理,使用 Java 实现的词法,语法,语义分析器 gecco 易用的

    中文转拼音

    在编程中,实现这个功能通常需要借助特定的库或算法,如Pinyin4j(Java环境)或HanLP(Java环境的自然语言处理工具包)。在ASP.NET环境中,可能需要寻找类似的.NET库,或者自定义实现。 压缩包内的文件名列表提供了...

    FindImg_javaFx_文章内容分词_抓取网络图片_百度图库_分词_

    2. **文章内容分词**: 分词是自然语言处理(NLP)中的基础步骤,它将连续的文本划分为有意义的词语单元。在Java中,可以使用开源库如jieba分词或者HanLP进行中文分词。这些库能够高效地处理大量文本,并识别出文章的...

    wordSegment.rar

    在安卓平台上实现分词功能,通常涉及到自然语言处理(NLP)技术,特别是中文分词。中文分词是中文文本处理的重要步骤,因为中文没有明显的空格来区分词汇,需要通过特定算法将连续的汉字序列切分成有意义的词语。本...

Global site tag (gtag.js) - Google Analytics