本文分享自 6丁一的猫 的博客,主要是python调用hanlp进行命名实体识别的方法介绍。以下为分享的全文。
1、python与jdk版本位数一致
2、pip install jpype1(python3.5)
3、类库hanlp.jar包、模型data包、配置文件hanlp.properties放在一个新建目录
4、修改hanlp.properties中root根目录,找到data
代码调用如下:
1|#coding:utf-8
2|'''
3|Created on 2017-11-21
4|
5|@author: 刘帅
6|'''
7|
8|
9|from jpype import *
10|
11|startJVM(getDefaultJVMPath(), "-Djava.class.path=D:\hanlp\hanlp-1.3.4.jar;D:\hanlp", "-Xms1g", "-Xmx1g") # 启动JVM,Linux需替换分号;为冒号:
12|HanLP = JClass('com.hankcs.hanlp.HanLP')
13|# 中文分词
14|print(HanLP.segment('你好,欢迎在Python中调用HanLP的API'))
testCases = [
15| "商品和服务",
16| "结婚的和尚未结婚的确实在干扰分词啊",
17| "买水果然后来世博园最后去世博会",
18| "中国的首都是北京",
19| "欢迎新老师生前来就餐",
20| "工信处女干事每月经过下属科室都要亲口,交代24口,交换机等技术性器件的安装工作",
21| "随着页游兴起到现在的页游繁盛,依赖于存档进行逻辑判断的设计减少了,但这块也不能完全忽略掉。"]
22|for sentence in testCases: print(HanLP.segment(sentence))
23|# 命名实体识别与词性标注
24|NLPTokenizer = JClass('com.hankcs.hanlp.tokenizer.NLPTokenizer')
25|print(NLPTokenizer.segment('中国科学院计算技术研究所的宗成庆教授正在教授自然语言处理课程'))
26|# 关键词提取
27|document = "水利部水资源司司长陈明忠9月29日在新闻办举行的新闻发布会上透露," \
28| "根据刚刚完成了水资源管理制度的考核,有部分省接近了红线的指标," \
29| "有部分省超过红线的指标。对一些超过红线的地方,陈明忠表示,对一些取用水项目进行区域的限批," \
30| "严格地进行水资源论证和取水许可的批准。"
31|print(HanLP.extractKeyword(document, 2))
32|# 自动摘要
33|print(HanLP.extractSummary(document, 3))
34|# 依存句法分析
35|print(HanLP.parseDependency("徐先生还具体帮助他确定了把画雄鹰、松鼠和麻雀作为主攻目标。"))
36|shutdownJVM()
结果如下:
1|[你好/vl, ,/w, 欢迎/v, 在/p, Python/nx, 中/f, 调用/v, HanLP/nx, 的/ude1, API/nx]
2|[商品/n, 和/cc, 服务/vn]
3|[结婚/vi, 的/ude1, 和/cc, 尚未/d, 结婚/vi, 的/ude1, 确实/ad, 在/p, 干扰/vn, 分词/n, 啊/y]
4|[买/v, 水果/n, 然后/c, 来/vf, 世博园/n, 最后/f, 去/vf, 世博会/n]
5|[中国/ns, 的/ude1, 首都/n, 是/vshi, 北京/ns]
6|[欢迎/v, 新/a, 老/a, 师生/n, 前来/vi, 就餐/vi]
相关推荐
3. **命名实体识别**:HanLP可以识别文本中的专有名词,如人名、地名、机构名等,这对于信息提取和实体链接至关重要。 4. **依存句法分析**:通过对句子中词语之间的依赖关系进行分析,可以揭示句子的深层结构,有...
HanLP,全称“Harvard NLP Library”,是由Java编写的,提供了丰富的自然语言处理功能,包括分词、词性标注、命名实体识别、依存句法分析等。它由北京大学的周明教授团队研发,旨在提升自然语言处理技术在实际生产...
HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构...提供词法分析(中文分词、词性标注、命名实体识别)、句法分析、文本分类和情感分析等功能。
PyHanLP,作为Java版HanLP的Python接口,为Python开发者提供了强大的中文分词、词性标注、命名实体识别等NLP功能。本文将深入探讨".hanlp.zip"压缩包中的模型文件,并讨论其在实际应用中的重要性和使用方法。 首先...
HanLP是由北京大学计算机科学技术研究所开发的自然语言处理库,提供了分词、词性标注、命名实体识别、依存句法分析、语义角色标注等丰富的功能,是NLP领域广泛使用的工具之一。 在学习和使用Python进行NLP时,通常...
在解压"HanLP-doc-zh.zip"后,开发者可以通过Python调用HanLP的相关功能,进行中文处理。通常,首先需要安装Python的Jieba库来桥接Java环境,然后导入HanLP模块,创建实例,即可调用各种方法进行处理。 四、性能...
特别是对于中文人名的识别,HanLP的分词和命名实体识别技术具有较高的准确率。 Corgi_Demo.py和CorgiHMM.py则是针对特定场景或算法的实现。Corgi可能是一个项目或者工具的名字,"Demo"通常代表演示或示例,表明这个...
本文将深入探讨Python库pyhanlp-0.1.32,它是一个连接Python与Java HanLP的桥梁,为Python开发者提供了强大的中文分词、词性标注、命名实体识别等NLP功能。 首先,我们要理解pyhanlp的核心作用。它是Python对Java ...
2. NLP核心概念:在NLP中,关键的概念包括分词、词性标注、命名实体识别、句法分析、情感分析等。这些任务通常需要利用Python的NLP库,如NLTK(Natural Language Toolkit)、spaCy、TextBlob等。书中会介绍如何使用...
它不仅支持中文分词,还包含词性标注、命名实体识别等功能,性能优秀,对于复杂语境的处理能力强,但相比jieba和pkuseg,引入和使用相对复杂。 除了这些库,还有一些其他工具如SnowNLP,虽然主要设计为处理中文文本...
HanLP提供了丰富的中文处理功能,包括分词、词性标注、命名实体识别等。在这个项目中,HanLP主要用于对用户输入的问题进行预处理,将句子划分为单词,这是理解和解析自然语言的基础。 其次,朴素贝叶斯分类器...
2. **HanLP**:由厦门云知声信息技术有限公司开发,是一款高性能的自然语言处理工具包,包括分词、词性标注、命名实体识别、依存句法分析等。HanLP的分词效果优秀,尤其对新词识别有很好的支持。 3. **jieba分词**...
更强大的库如Stanford NLP、OpenNLP等,提供了更全面的NLP功能,包括分词、词性标注、命名实体识别等。 2. **Stanford NLP** Stanford NLP是一个强大的NLP库,它包含了丰富的分词模型和算法。使用Stanford NLP进行...
3. **命名实体识别**:此库可能包含命名实体识别(NER)的功能,可以识别出文本中的专有名词,如人名、地名、机构名等,这对于信息抽取和问答系统特别有用。 4. **依存句法分析**:hanlearn-api可能会提供依存句法...
1. **中文数据处理**:在处理中文数据时,我们通常会涉及到中文字符编码(如UTF-8)、分词、词性标注、命名实体识别、情感分析等任务。这些是自然语言处理(NLP)领域的重要组成部分,对于理解和分析中文文本有着...