pyhanlp用户自定义词典添加实例说明
pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp
经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.
如何向pyhanlp添加自定义的词典?以python 2.7.9为例:
1.安装pyhanlp:pip install pyhanlp
2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。
具体绝对路径可用hanlp --version获取:
#hanlp --version
jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar
data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data
config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties
#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"
3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。
#cat 我的词典.txt
codis集群 nz 1000
今日头条 nz 1000
第一列为词条,第二列为词性(默认为n),第三列为词频
4.然后需要删除缓存文件,这样python才会重新加载新增的文件:
#rm -f CustomDictionary.txt.bin
5.测试新增的词典:
python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"
五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes
警告:读取
/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)
报这个错误没有关系,只是个warning,重新加载缓存文件而已。
备注:
HanLP词性列表:详细的词性列表可以查询hanlp项目网站上内容,更为全面详细!
---------------------
作者:明月三千里68
原文:https://blog.csdn.net/jly8866/article/details/80338800
相关推荐
jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。
【金山词霸自动添加自定义词典小工具】 在IT行业中,翻译软件是必不可少的工具,尤其是对于程序员和英语学习者来说。金山词霸作为一款知名的翻译应用,它提供了丰富的词汇和多样的功能,帮助用户高效地进行翻译工作...
NLPIR分词工具由中科院开发,其支持用户自定义词典。这是在做商品评论情感分析时整理的2019个自定义词汇。
Word2021中添加自定义词典的方法是指在Microsoft Word 2021软件中,用户可以根据自己的需要,添加自定义词典,以便更好地检查和校对文档中的拼写错误和语法错误。下面将详细介绍Word2021中添加自定义词典的方法。 ...
在 Microsoft Word 2021 中,自定义词典是一个强大的功能,可以帮助用户自定义词典中添加和删除单词,以满足不同领域和行业的词汇需求。下面我们将详细介绍如何在 Word 2021 中添加和删除自定义词典中的单词。 一、...
### 娱乐休闲明星电影相关自定义词典知识点概览 #### 1. 自定义词典概述 - **自定义词典**:通常是指针对特定领域或应用场景编纂的词汇集合,用以提高信息检索、自然语言处理等任务的准确性和效率。 - **娱乐休闲...
生活百科相关自定义词典,共67万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率
### 电子游戏相关自定义词典知识点解析 #### 核心概念 - **自定义词典**:在自然语言处理领域,特别是在分词任务中,为了提高文本处理的准确性,通常会使用到自定义词典。自定义词典是指根据特定领域的专业词汇或...
### 社会科学相关自定义词典解析 #### 核心知识点概述 本文将基于给定的“社会科学相关自定义词典”中的词条进行详细的知识点解析,涵盖多个领域如军事、经济、医学等,旨在深入理解每个词条背后的含义及其在社会...
自然科学相关的一些词,共有34万个不同的词,都是自然科学相关的
### 人文科学相关自定义词典 #### 概述 “人文科学相关自定义词典”是一份包含152万个词条的专业词汇集合,旨在为自然语言处理(NLP)、文本分析、信息检索等领域的应用提供高质量的语言资源支持。这份词典涵盖了...
### 农林渔畜相关自定义词典知识点详解 #### 一、自定义词典概述 自定义词典是自然语言处理(NLP)技术中常用的一种工具,它能够帮助计算机更好地理解特定领域的文本信息。在农林渔畜领域,由于涉及的专业词汇众多...
在Python编程中,加载自定义词典是一个常见的操作,尤其在文本处理、自然语言处理、数据清洗等场景下,用户可能需要根据自己的需求使用特定的字典。下面将详细解释如何加载自定义词典,以及上述内容中涉及的相关知识...
### 工程应用相关自定义词典解析 #### 核心知识点概述 本文将基于给定的“工程应用相关自定义词典”进行详细的解析,该词典包含了大量的专业术语和概念,共计46万个词条,涉及多个工程领域。通过这些词条我们可以...
31万个不同的词的自定义词典,不同词,包含城市,乡镇机关,学校,单位等等
jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典
这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右... 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.
用户自定义词典 词性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取 ...
《ansj词典加载与简要分词过程详解》 在中文自然语言处理领域,分词是基础且关键的一环。ansj库是一款高效的中文分词工具,它以其丰富的词典资源和高效的分词算法,被广泛应用于各种文本处理任务中。本文将深入探讨...