`

pyhanlp用户自定义词典添加实例说明

阅读更多



 pyhanlp用户自定义词典添加
实例说明

pyhanlp是python版封装的的HanLP,项目地址:https://github.com/hankcs/pyhanlp

经过测试,HanLP比nltk在中文分词和实体识别方面都更好用.

 

如何向pyhanlp添加自定义的词典?以python 2.7.9为例:

1.安装pyhanlp:pip install pyhanlp

2.在字典路径下添加自定义的词典:CustomDictionary主词典文本路径是data/dictionary/custom/CustomDictionary.txt,用户可以在此增加自己的词语(不推荐);也可以单独新建一个文本文件,通过配置文件;CustomDictionaryPath=data/dictionary/custom/CustomDictionary.txt; 我的词典.txt;来追加词典(推荐)。

具体绝对路径可用hanlp --version获取:

#hanlp --version

jar1.6.3:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp-1.6.3.jar

data 1.6.2: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data

config:/usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties

#cat /usr/local/lib/python2.7/site-packages/pyhanlp/static/hanlp.properties | grep "CustomDictionaryPath"

3.建议在该路径下添加自己的词典文件例如 我的词典.txt,并将其加入上面的properties文件里的CustomDictionaryPath下面。

#cat 我的词典.txt  

codis集群 nz 1000

今日头条 nz 1000

 

第一列为词条,第二列为词性(默认为n),第三列为词频

4.然后需要删除缓存文件,这样python才会重新加载新增的文件:

#rm -f CustomDictionary.txt.bin

 

5.测试新增的词典:

python -c "from pyhanlp import *;print(HanLP.segment('codis集群,今日头条'))"

五月 16, 2018 4:43:14 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes

警告:读取

/usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: /usr/local/lib/python2.7/site-packages/pyhanlp/static/data/dictionary/custom/CustomDictionary.txt.bin (没有那个文件或目录)

 

报这个错误没有关系,只是个warning,重新加载缓存文件而已。

 

备注:

HanLP词性列表:详细的词性列表可以查询hanlp项目网站上内容,更为全面详细!

---------------------

作者:明月三千里68

原文:https://blog.csdn.net/jly8866/article/details/80338800

 

 

  • 大小: 87 KB
分享到:
评论

相关推荐

    jieba分词的自定义词典文档 完整版

    jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。

    金山词霸自动添加自定义词典小工具

    【金山词霸自动添加自定义词典小工具】 在IT行业中,翻译软件是必不可少的工具,尤其是对于程序员和英语学习者来说。金山词霸作为一款知名的翻译应用,它提供了丰富的词汇和多样的功能,帮助用户高效地进行翻译工作...

    商品评论情感分析之分词工具用户自定义词典

    NLPIR分词工具由中科院开发,其支持用户自定义词典。这是在做商品评论情感分析时整理的2019个自定义词汇。

    Word2021中添加自定义词典的方法.docx

    Word2021中添加自定义词典的方法是指在Microsoft Word 2021软件中,用户可以根据自己的需要,添加自定义词典,以便更好地检查和校对文档中的拼写错误和语法错误。下面将详细介绍Word2021中添加自定义词典的方法。 ...

    在Word2021自定义词典中添加和删除单词.docx

    在 Microsoft Word 2021 中,自定义词典是一个强大的功能,可以帮助用户自定义词典中添加和删除单词,以满足不同领域和行业的词汇需求。下面我们将详细介绍如何在 Word 2021 中添加和删除自定义词典中的单词。 一、...

    娱乐休闲明星电影相关自定义词典

    ### 娱乐休闲明星电影相关自定义词典知识点概览 #### 1. 自定义词典概述 - **自定义词典**:通常是指针对特定领域或应用场景编纂的词汇集合,用以提高信息检索、自然语言处理等任务的准确性和效率。 - **娱乐休闲...

    生活百科相关自定义词典

    生活百科相关自定义词典,共67万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率

    电子游戏相关自定义词典

    ### 电子游戏相关自定义词典知识点解析 #### 核心概念 - **自定义词典**:在自然语言处理领域,特别是在分词任务中,为了提高文本处理的准确性,通常会使用到自定义词典。自定义词典是指根据特定领域的专业词汇或...

    社会科学相关自定义词典

    ### 社会科学相关自定义词典解析 #### 核心知识点概述 本文将基于给定的“社会科学相关自定义词典”中的词条进行详细的知识点解析,涵盖多个领域如军事、经济、医学等,旨在深入理解每个词条背后的含义及其在社会...

    自然科学相关自定义词典

    自然科学相关的一些词,共有34万个不同的词,都是自然科学相关的

    人文科学相关自定义词典

    ### 人文科学相关自定义词典 #### 概述 “人文科学相关自定义词典”是一份包含152万个词条的专业词汇集合,旨在为自然语言处理(NLP)、文本分析、信息检索等领域的应用提供高质量的语言资源支持。这份词典涵盖了...

    农林渔畜相关自定义词典

    ### 农林渔畜相关自定义词典知识点详解 #### 一、自定义词典概述 自定义词典是自然语言处理(NLP)技术中常用的一种工具,它能够帮助计算机更好地理解特定领域的文本信息。在农林渔畜领域,由于涉及的专业词汇众多...

    python加载自定义词典实例

    在Python编程中,加载自定义词典是一个常见的操作,尤其在文本处理、自然语言处理、数据清洗等场景下,用户可能需要根据自己的需求使用特定的字典。下面将详细解释如何加载自定义词典,以及上述内容中涉及的相关知识...

    工程应用相关自定义词典

    ### 工程应用相关自定义词典解析 #### 核心知识点概述 本文将基于给定的“工程应用相关自定义词典”进行详细的解析,该词典包含了大量的专业术语和概念,共计46万个词条,涉及多个工程领域。通过这些词条我们可以...

    城市信息相关自定义词典

    31万个不同的词的自定义词典,不同词,包含城市,乡镇机关,学校,单位等等

    jieba青春有你2自定义python分词词典

    jieba青春有你2自定义分词词典,青春有你2评论爬取,青春有你2视频饭圈自定义分词词典,jieba分词Python分词词典

    基于n-Gram+CRF+HMM的中文分词源代码,可实现中文姓名识别 . 用户自定义词典,关键字提取,自动摘要,关键字标记等功能

    这是一个基于n-Gram+CRF+HMM的中文分词的java实现. 分词速度达到每秒钟大约200万字左右... 用户自定义词典,关键字提取,自动摘要,关键字标记等功能 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目.

    Java 词海分析 自然语言分析 人名地名机构名提取自定义词典

    用户自定义词典 词性标注 命名实体识别 中国人名识别 音译人名识别 日本人名识别 地名识别 实体机构名识别 关键词提取 TextRank关键词提取 自动摘要 TextRank自动摘要 短语提取 基于互信息和左右信息熵的短语提取 ...

    ansj词典加载及简要分词过程

    《ansj词典加载与简要分词过程详解》 在中文自然语言处理领域,分词是基础且关键的一环。ansj库是一款高效的中文分词工具,它以其丰富的词典资源和高效的分词算法,被广泛应用于各种文本处理任务中。本文将深入探讨...

Global site tag (gtag.js) - Google Analytics