`

Hanlp配置自定义词典遇到的问题与解决方法

 
阅读更多

 

本文是整理了部分网友在配置hanlp自定义词典时遇到的一小部分问题,同时针对这些问题,也提供另一些解决的方案以及思路。这里分享给大家学习参考。

要使用hanlp加载自定义词典可以通过修改配置文件hanlp.properties来实现。

要注意的点是:

  1.root根路径的配置:

    hanlp.properties中配置如下:

      #本配置文件中的路径的根目录,根目录+其他路径=完整路径(支持相对路径)

      #Windows用户请注意,路径分隔符统一使用/

     root=D:/Project/public_sentiment_monitor/plugin/hanlp1.6.8/

  2.自定义词典路径的配置,配置文件中已经指明了相应的用法。

    hanlp.properties中配置如下:

      #自定义词典路径,用;隔开多个自定义词典,空格开头表示在同一个目录,使用“文件名 词性”形式则表示这个词典的词性默认是该词性。优先级递减。

      #所有词典统一使用UTF-8编码,每一行代表一个单词,格式遵从[单词] [词性A] [A的频次] [词性B] [B的频次] ... 如果不填词性则表示采用词典的默认词性。

    CustomDictionaryPath=data/dictionary/custom/hanlp_custom.txt; 搜狗金融词库.txt n; CustomDictionary.txt; 现代汉语补充词库.txt; 全国地名大全.txt ns; 人名词典.txt

  3.配置文件做好以后,自定义词典不起作用问题

    (1). 需要先删除custom文件夹下的所有bin文件,然后再使用hanlp,hanlp会自动加载一个新的bin文件,自定义词典就可以使用了。

貌似加载出的bin文件只有CustomDictionaryPath这一行配置中的第一个文件对应的bin,但是内容应该是将所有的自定义词典都包含了的。

    (2). 如果自定义词典txt文件中存在含有空格的词, 比如说"16 金立债 nz 100"这种配置,回导致自定义词典加载程序将"16"认为是词,"金立债"认为是词性,"nz"认为是词频,然后出现Java报错: 

      java.lang.NumberFormatException: For input string: "nz"

      虽然仍然生成了bin文件,但是实际上自定义词典中的所有词都是无法使用的。所以在生成自定义词典txt文件的过程中,一定要注意词中是否含有空格,是否符合"词 词性 词频"的格式。

    (3)如何将含有空格的词加入自定义词典中:

      CustomDictionary = JClass('com.hankcs.hanlp.dictionary.CustomDictionary')

      CustomDictionary.add('攻城 狮')

 

 

分享到:
评论

相关推荐

    HanLp数据字典(1.7.1)

    在使用HanLP时,开发者需要注意的是,虽然预训练模型能处理大多数常见情况,但在特定领域或针对特定语言风格,可能需要自定义或扩展数据字典。这可能涉及到收集领域内专业词汇、调整分词规则或者训练新的模型。对于...

    jieba分词的自定义词典文档 完整版

    jieba分词的自定义词典:使用jieba分词对语料进行分词之前,需要先载入,载入代码为jieba.load_userdict("userdict.txt")。

    金山词霸自动添加自定义词典小工具

    【金山词霸自动添加自定义词典小工具】 在IT行业中,翻译软件是必不可少的工具,尤其是对于程序员和英语学习者来说。金山词霸作为一款知名的翻译应用,它提供了丰富的词汇和多样的功能,帮助用户高效地进行翻译工作...

    电子游戏相关自定义词典

    - **电子游戏相关自定义词典**:该词典专门针对电子游戏领域设计,包含了大量与游戏相关的专有名词,旨在帮助游戏开发者或是自然语言处理工具更好地理解和处理游戏文本。 #### 描述解析 - **58万词**:这表明了...

    娱乐休闲明星电影相关自定义词典

    - **娱乐休闲明星电影相关自定义词典**:专门收集了与娱乐、休闲相关的明星姓名、电影名称、电视剧名称等内容的词典。 #### 2. 词典结构与特点 - **规模**:该词典包含约35万个词条,每个词条占据一行,确保了词条...

    Word2021中添加自定义词典的方法.docx

    Word2021中添加自定义词典的方法 Word2021中添加自定义词典的方法是指在Microsoft Word 2021软件中,用户可以根据自己的需要,添加自定义词典,以便更好地检查和校对文档中的拼写错误和语法错误。下面将详细介绍...

    商品评论情感分析之分词工具用户自定义词典

    NLPIR分词工具由中科院开发,其支持用户自定义词典。这是在做商品评论情感分析时整理的2019个自定义词汇。

    生活百科相关自定义词典

    生活百科相关自定义词典,共67万词,每行一个词,不重复,可以用作用户自定义词典,提高分词准确率

    社会科学相关自定义词典

    ### 社会科学相关自定义词典解析 #### 核心知识点概述 本文将基于给定的“社会科学相关自定义词典”中的词条进行详细的知识点解析,涵盖多个领域如军事、经济、医学等,旨在深入理解每个词条背后的含义及其在社会...

    基于Spring Boot+hanLP、neo4j、spark-mllib电影知识图谱的简易问答系统源码+项目说明.zip

    【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计...基于Spring Boot+hanLP、neo4j、spark-mllib电影知识图谱的简易问答系统源码+项目说明.zip

    在Word2021自定义词典中添加和删除单词.docx

    Microsoft Word 2021 自定义词典管理 在 Microsoft Word 2021 中,自定义词典是一个强大的功能,可以帮助用户自定义词典中添加和删除单词,以满足不同领域和行业的词汇需求。下面我们将详细介绍如何在 Word 2021 中...

    ansj词典加载及简要分词过程

    《ansj词典加载与简要分词过程详解》 在中文自然语言处理领域,分词是基础且关键的一环。ansj库是一款高效的中文分词工具,它以其丰富的词典资源和高效的分词算法,被广泛应用于各种文本处理任务中。本文将深入探讨...

    准确分词之加载自定义字典分词.zip

    2.2.添加hanlp分词自定义词典,在"/home/kuo/NLP/module/hanlp/data/dictionary/custom/"下 2.2.1.删除"CustomDictionary.txt.bin" 2.2.2.在“CustomDictionary.txt”中添加 ``` 数据库设计 n 4729 TNM分期 n ...

    word源码java-node-hanlp:用于nodejs的HanLP

    方法,自定义引入 hanLP.proerties 配置文件路径 环境要求 java 1.8 nodejs >= 6 安装 npm install hanlp --save 配置 配置文件: ,配置文件的作用是告诉HanLP数据包的位置,只需修改第一行 数据包: 使用 const Hanlp...

    自然科学相关自定义词典

    自然科学相关的一些词,共有34万个不同的词,都是自然科学相关的

    Hanlp最新版本V1.7.2(含hanlp-1.7.2.jar、模型data包、配置文件hanlp.properties)

    汉语言处理的基础是分词,HanLP采用混合分词策略,结合了基于词典的精确分词和基于统计的模糊匹配,能有效处理歧义和未登录词。词性标注则是对分词结果进行进一步的标注,为后续处理提供更丰富的信息。在命名实体...

    人文科学相关自定义词典

    ### 人文科学相关自定义词典 #### 概述 “人文科学相关自定义词典”是一份包含152万个词条的专业词汇集合,旨在为自然语言处理(NLP)、文本分析、信息检索等领域的应用提供高质量的语言资源支持。这份词典涵盖了...

    HanLP实现文本分词、提取关键词、聚类(工具资源+实例)

    HanLP是由一系列模型与算法组成的工具包,目标是普及自然语言处理在生产环境中的应用。HanLP具备功能完善、性能高效、架构清晰、语料时新、可自定义的特点;提供词法分析(中文分词、词性标注、命名实体识别)、句法...

    农林渔畜相关自定义词典

    ### 农林渔畜相关自定义词典知识点详解 #### 一、自定义词典概述 自定义词典是自然语言处理(NLP)技术中常用的一种工具,它能够帮助计算机更好地理解特定领域的文本信息。在农林渔畜领域,由于涉及的专业词汇众多...

    Python-无损转换OpenCC词典为HanLP格式

    而HanLP,全称为“HanLP - 高性能自然语言处理工具包”,是由哈工大知远公司开发的Java库,它在分词、词性标注、命名实体识别等方面表现出色,其词典格式可能与OpenCC不同。 要进行无损转换,我们需要了解两个系统...

Global site tag (gtag.js) - Google Analytics