`

如何在hanlp词典中手动添加未登录词

 
阅读更多

 

我们在使用hanlp词典进行分词的时候,难免会出现分词不准确的情况,原因是由于内置词典中并没有收录当前的这个词,也就是我们所说的未登录词,只要把这个词加入到内置词典中就可以解决类似问题,如何操作,下面我们就看一下具体的步骤

 

1找到hanlp内置词典目录

 

位于D:\hnlp\hanlp_code\hanlp\data\dictionary\custom也就是Hanlp安装包中的data\dictionary\custom下目录



 

1

2将未登录词以词名,词性,词频的格式添加到文件中(句首或者句尾都可以)



 

2

3将字典的同名bin文件删除掉

执行文件时读取的是bin文件,必须删掉后等下次执行时重新生成,新字典才发挥作用



 

3

4使用新字典重新执行文件

执行时会遇到没有相关bin文件的提示,不过放心,程序会自动生成一个新的bin文件,骚等片刻,就好了。



 

4

验证结果是否正确



  

5

 

 

  • 大小: 17.1 KB
  • 大小: 14.9 KB
  • 大小: 20.7 KB
  • 大小: 16.1 KB
  • 大小: 1.8 KB
分享到:
评论

相关推荐

    本地词典-手动添加切换词典

    本主题主要涉及“本地词典-手动添加切换词典”,这意味着用户可以自己下载并安装新的词典资源,以便在需要时进行切换。 首先,我们要理解“本地词典”的概念。本地词典是指存储在用户计算机或移动设备上的电子词典...

    HanLp数据字典(1.7.1)

    在主程序中,你可以找到各种处理模块的实现代码,如词典加载、算法实现等。同时,资源文件夹可能包含各种模型文件,这些模型是通过大量训练数据学习得到的,可以进行快速而准确的文本分析。例如,命名实体识别模型...

    Python-无损转换OpenCC词典为HanLP格式

    本话题聚焦于如何使用Python将OpenCC的词典无损转换为HanLP格式,以便在不同的NLP任务中无缝切换。 OpenCC是由OpenCC Project开发的一款开源的简繁体转换工具,它提供了多种转换模式,如“简体-繁体”、“繁体-简体...

    欧陆词典自添加词典补丁

    然而,有时在使用欧陆词典的过程中,可能会遇到一个问题:用户自添加的词典在一段时间后无法正常使用。这个问题可能是由于软件更新或某些系统设置导致的限制。本文将详细介绍如何使用“欧陆词典自添加词典补丁”来...

    大连理工情感词典,程度副词典,否定词典,停用词典

    4. **停用词典**:停用词是指在文本中频繁出现但通常不携带太多语义信息的词,如“的”、“和”、“是”等。在处理文本时,通常会先去除这些词以减少噪声。然而,在某些情况下,停用词可能影响情感分析的结果,比如...

    台湾大学NTUSD简体中文情感词典+知网Hownet情感词典+清华大学李军中文褒贬义词典+BosonNLP微博情感词典+停用词

    停用词是指在文本处理中通常被忽略的常见词汇,如“的”、“是”、“和”等,因为它们在句子中通常不承载太多具体信息。移除这些词可以帮助提高文本处理的效率和准确性。 这些词典在处理中文文本时起到了关键作用...

    baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典

    在本篇文章中,我们将围绕“baidu.rar_baidu_dictionary_中文分词_中文分词_词典_分词词典”这一主题,深入探讨百度曾经使用的中文分词词典及其在实际应用中的价值。 首先,让我们了解中文分词词典的重要性。词典是...

    分词中文停止词词典

    而停止词词典在分词过程中扮演着关键角色。 停止词是指那些在语言中频繁出现但信息含量较低的词汇,例如“的”、“是”、“在”等。在进行文本分析、信息检索、情感分析等任务时,通常会忽略这些词,以减少噪声并...

    基于Spring Boot+hanLP、neo4j、spark-mllib电影知识图谱的简易问答系统源码+项目说明.zip

    【资源说明】 1、该资源包括项目的全部源码,下载可以直接使用! 2、本项目适合作为计算机、数学、电子信息等专业的课程设计...基于Spring Boot+hanLP、neo4j、spark-mllib电影知识图谱的简易问答系统源码+项目说明.zip

    MAC 词典添加中英双向词典 21世纪英汉大词典

    MAC 中最好用的词典是自带的词典,但是不支持中英。 MAC词典添加中英双向词典 21世纪英汉大词典

    三个情感词典(Hownet,NTUSD,中文褒贬义词典)

    该词典不仅包含词本身的情感标签,还考虑了词在句子中的上下文影响,使得它在处理复杂语境时具有更高的准确性。此外,NTUSD还包括一些特定领域的词汇,如金融、政治等,这对于特定领域的文本分析尤其有价值。 再来...

    读书笔记2之中文分词流程HanLP

    接着进行一元切分,通过查找核心词典,将字符与词典进行最大匹配,生成一元词网,并进行原子切分来识别未登录词,即不在词典中的新词或专有名词。 **二元切分**是紧接着的一步,HanLP利用一元切分的结果查询二元...

    金山词霸自动添加自定义词典小工具

    在C#项目中,我们需要添加对金山词霸相关DLL的引用,并定义相应的委托和结构体来模拟API调用。这一步可能需要查阅一些社区论坛或博客上的经验分享,因为具体的API签名和使用方法可能会随着金山词霸的版本更新而变化...

    【《词典里竟有虚构的词?》阅读附答案】 词典里竟有虚构的词.docx

    这些词并不存在,但却被收录在词典中,为什么会这样?这是为了爱护著作权的重要机关。 词典编辑部创造了这些虚构的词,以便防止其他词典抄袭、盗取他们的内容。这些词放在词典里,不是恶作剧,而是有具体的用处。...

    情感极性词典包含中文正负情绪词和否定词、程度副词。

    在中文情感分析中,一个重要的资源就是情感极性词典,它包含了具有特定情感色彩的词汇,如正面情绪词、负面情绪词以及修饰这些情绪的否定词和程度副词。 首先,我们要理解词典的构成。情感极性词典通常由以下几个...

    情感词极值表,台湾大学NTUSD简体中文情感词典,清华大学李军中文褒贬义词典

    在实际应用中,这些词典可能需要结合机器学习算法或深度学习模型进行训练,以提高情感分析的准确性和鲁棒性。同时,由于语言的复杂性和多变性,词典可能需要定期更新和扩展,以适应新的词汇和表达方式。 综上所述,...

    知网Hownet情感词典该资料包含知网情感相关的词典,分为中

    在实际应用中,情感词典通常会结合机器学习算法,如支持向量机(SVM)、朴素贝叶斯(Naive Bayes)或者深度学习模型(如LSTM、BERT)来自动对文本进行情感分类。词典中的每个词汇都可能带有诸如“正面”、“负面”或...

    Pyqt5实现英文学习词典

    运用Python语言编写程序制作英文学习词典,词典有4个基本功能:添加、查询、删除和退出。程序读取源文件路径下的txt格式词典文件,若没有就创建一个。词典文件存储方式为“英文单词 中文单词”,每行仅有一对中英...

    情感词典情感极性词典

    在这个场景中,我们关注的是一个名为“情感词典”的资源,特别是其中的“情感极性词典”。这个词典包含了对词汇情感极性的分类,包括正面情绪词、负面情绪词、否定词以及程度副词,这些都是进行有效情感分析的基础。...

Global site tag (gtag.js) - Google Analytics