过程分析
1.添加新词需要确定无缓存文件,否则无法使用成功,因为词典会优先加载缓存文件
2.再确认缓存文件不在时,打开本地词典按照格式添加自定义词汇。
3.调用分词函数重新生成缓存文件,这时会报一个找不到缓存文件的异常,不用管,因为加载词典进入内存是会优先加载缓存,缓存不在当然会报异常,然后加载词典生成缓存文件,最后处理字符进行分词就会发现新添加的词汇可以进行分词了。
操作过程图解:
1、有缓存文件的情况下:
1 System.out.println(HanLP.segment("张三丰在一起我也不知道你好一个心眼儿啊,一半天欢迎使用HanLP汉语处理包!" +"接下来请从其他Demo中体验HanLP丰富的功能~"))
2
3 //首次编译运行时,HanLP会自动构建词典缓存,请稍候……
4 //[张/q, 三丰/nz, 在/p, 一起/s, 我/rr, 也/d, 不/d, 知道/v, 你好/vl, 一个心眼儿/nz, 啊/y, ,/w, 一半天/nz, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, !/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]
5
6
-
打开用户词典–添加 ‘张三丰在一起’ 为一个 nz词性的新词
2.2 原始缓存文件下运行–会发现不成功,没有把 ‘张三丰在一起’ 分词一个nz词汇
1 System.out.println(HanLP.segment("张三丰在一起我也不知道你好一个心眼儿啊,一半天欢迎使用HanLP汉语处理包!" +"接下来请从其他Demo中体验HanLP丰富的功能~"))
2
3 //首次编译运行时,HanLP会自动构建词典缓存,请稍候……
4 //[张/q, 三丰/nz, 在/p, 一起/s, 我/rr, 也/d, 不/d, 知道/v, 你好/vl, 一个心眼儿/nz, 啊/y, ,/w, 一半天/nz, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, !/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]
5
3.1 删除缓存文件 bin
3.2 再次运行程序,此时会报错—无法找到缓存文件
1 System.out.println(HanLP.segment("张三丰在一起我也不知道你好一个心眼儿啊,一半天欢迎使用HanLP汉语处理包!" +"接下来请从其他Demo中体验HanLP丰富的功能~"));
2
3 /**首次编译运行时,HanLP会自动构建词典缓存,请稍候……
4 十月 19, 2018 6:12:49 下午 com.hankcs.hanlp.corpus.io.IOUtil readBytes
5 WARNING: 读取D:/datacjy/hanlp/data/dictionary/custom/CustomDictionary.txt.bin时发生异常java.io.FileNotFoundException: D:\datacjy\hanlp\data\dictionary\custom\CustomDictionary.txt.bin (系统找不到指定的文件。) 找不到缓存文件
6
7
8 [张三丰在一起/nz, 我/rr, 也/d, 不/d, 知道/v, 你好/vl, 一个心眼儿/nz, 啊/y, ,/w, 一半天/nz, 欢迎/v, 使用/v, HanLP/nx, 汉语/gi, 处理/vn, 包/v, !/w, 接下来/vl, 请/v, 从/p, 其他/rzv, Demo/nx, 中/f, 体验/v, HanLP/nx, 丰富/a, 的/ude1, 功能/n, ~/nx]
9
10 */
相关推荐
《用Python进行自然语言处理》是一本非常重要的书籍,它为中文读者提供了深入理解自然语言处理(NLP)以及如何使用Python实现这些技术的宝贵资源。NLTK(Natural Language Toolkit)是这本书的重点,它是一个开源的...
### 定时关机自定义设置详解 #### 一、前言 对于现代人来说,合理安排作息时间显得尤为重要。特别是在工作与娱乐高度融合的环境下,很多人常常因为各种原因而熬夜,导致第二天精神不佳,影响工作效率。为了帮助这...
《统计自然语言处理基础》是一本深入探讨自然语言处理(NLP)领域的核心教材,尤其强调了统计方法在其中的应用。21世纪的初期,随着信息技术的飞速进步,自然语言处理作为信息产业的重要组成部分,得到了前所未有的...
android自定义view过程(图解).xmind,不可用于商业用途,如有版权问题,请联系删除!
本教程将通过步骤图解和工程示例详细介绍如何创建和使用EL自定义标签。 首先,理解EL的基础至关重要。EL表达式通常以`${}`包围,它能直接访问到作用域中的Java对象属性,如`${user.name}`。然而,EL默认提供的操作...
在计算机图形处理领域,有一款名为“魔力宝贝看图解图工具”的软件,它专为解析和处理《魔力宝贝》游戏中的资源而设计。这款工具,即See4CGW,是由梦见草编写的,针对CrossGate文件格式的Windows版本,对于制作与...
在.NET框架中,C#语言提供了强大的工具和API来支持用户界面的设计与开发。对于那些希望为自己的应用程序添加独特功能或改进现有控件的开发者来说,自定义控件的开发是一个非常有用的技能。本文将详细介绍如何在...
掌握相关配色知识。相关Photoshop视频资源,有关自定义的彩色命令。后面课程视频,即将持续更新,以及相关网络知识,也会及时上传。
这份文档《小学英语主题分类词汇表图解练习》旨在帮助小学生通过图文并茂的方式掌握基础的英语词汇,包括性别与家庭成员、动物和数字三个主题。下面我们将详细探讨这些知识点。 首先,我们来看“性别及家庭成员”...
C#自定义控件的详细的开发流程文档说明 图解
PS 新手入门工具使用方法及操作图解 本资源为 PS 新手入门工具使用方法及操作图解,旨在帮助新手快速掌握 PS 的基本工具和操作方法。本资源共分为十个部分,分别介绍了 PS 中的常用名词、工具栏、选区工具、移动...
"图解SQL数据库语言轻松入门.pptx" SQL数据库语言是一种常用的数据库语言,用于管理和查询数据库。本书《图解SQL数据库语言轻松入门》是一本实用的学习指南,旨在帮助初学者快速掌握SQL数据库语言的基本概念和应用...
汇编语言帮助 图解 快速入门 1.打开Masm for Windows 集成实验环境 ....
**E语言图解教程** E语言,全称Easy Language,是一种设计简洁、易于学习的编程语言,主要面向初学者和教育领域。它以其直观的语法和丰富的内置功能,降低了编程的门槛,使得非计算机背景的人也能快速上手编程。本...
bcd 修改工具及图解主要涉及的是Windows操作系统的启动配置数据(Boot Configuration Data, 简称BCD),这是Windows Vista及之后操作系统用于管理启动过程的关键组件。BCD存储了关于系统启动的所有信息,包括操作...
PS 新手入门工具使用方法与操作图解 PS 是一款功能强大且广泛应用于图像编辑和设计的软件,对于新手来说,了解 PS 的基本工具和操作方法是非常重要的。本文将对 PS 中的一些基本工具和操作方法进行介绍,并通过图解...
5. 添加工具:返回ToolBar,通过选择“ToolItem”,我们可以将预定义的地图操作,如“MapZoomIn”添加到工具栏上。这使得用户可以通过点击工具栏上的按钮来缩放地图。 6. 运行和测试:最后,点击“调试”->“开始...
矮人DOS工具箱4.2安装及使用图解(ppt) 超极详细的PPT文档,使用矮人DOS工具箱可快速备份和还原系统。