中科院分词系统 ICTCLAS2013 添加新词功能

cjp1989

浏览: 163403 次
性别:
来自: 武汉

最近访客更多访客>>

猫狸粽子

picking

lzylin

csnd_one

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java爬虫搜索

中文分词 ictclas2013 新词添加

最近使用ictclas2013版，又名NLPIR汉语分词系统。在分词过程中，总会出现分词不准确的原因，造成很多本来是应该在一起的词，变成了拆分开了的词语，造成了提取关键词的非常不便利。不过幸好ictclas2013版有个新词添加功能。如果不知道怎么加入ictclas2013到项目中，请参考

中科院分词ictclas2013使用java调用

首先查看NLPIR分词系统接口说明文档： NLPIR_AddUserWord(byte[] str) ，这个就是加入新词的方法。如果按照上面的介绍，以及参考了网上一些相关的介绍，但是始终没有配置成功。仔细想想，str.getBytes();方法是有编码格式的，而记得java调用分词都是设置了编码格式为:"GB2312"，所以新词添加一定要记得设置编码格式。

public static void main(String[] args)
	{
		try
		{
			String sInput = "张华平推出的NLPIR分词系统，又名ICTCLAS2013，新增新词识别、关键词提取、微博分词功能。";
			NLPIR testNLPIR = new NLPIR();
			String argu = "./file/";
			System.out.println("初始化ictclas2013分词系统");
			if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false)
			{
				System.out.println("Init Fail!");
				return;
			}
			/**
			 * 1.添加新词,注意\t是tab键，你也可以用tab键："分词系统	nn"
			 * 2.getBytes的编码格式统一设置GB2312,否则无法识别新词
			 * 3.新词的词性可以自己添加，这里nn表示了新词
			 */
			String s = "分词系统\tnn";
		    byte[] ret = s.getBytes("GB2312");
		    testNLPIR.NLPIR_AddUserWord(ret);
		    
		    /**
		     * 1.这是永久保存在用户字典中，UserDIct.pdat会增加大小
		     */
//		    testNLPIR.NLPIR_SaveTheUsrDic();
		    
		    /**
		     * 1.去除新词，只需要使用:"分词系统"
		     * 2.去除新词编码格式也必须:"GB2312"，否则无法移除新词
		     */
//			String ss = "分词系统";
//			byte[] ress = ss.getBytes("GB2312");
//			testNLPIR.NLPIR_DelUsrWord(ress);
		    
			//执行分词过程
			byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("GB2312"), 1);
			String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312");
			System.out.println("分词结果为： " + nativeStr);
			testNLPIR.NLPIR_Exit();
			
		}
		catch (Exception ex)
		{
			ex.printStackTrace();
		} 


	}

分享到：

ictcals中文分词添加用户词典功能说明 | 倒腾64位Oracle11g的感受

2013-06-13 16:46
浏览 6495
评论(2)
分类:开源软件
查看更多

2 楼 cjp1989 2013-12-13

wangbin001007 写道

你好
最近我也在搞用户词典。用户词典是不只能设置新词和新词词性？对于分词词库中已有的词的词性，是不是改不了？
还有用户词典的格式我之前见很多资料中是这样的：分词@@n 这类的。但Nlpir2013貌似对这样的格式不管用。难道是我哪儿做的有问题？
望指教，谢谢~

这种格式最好是写正则表达式

1 楼 wangbin001007 2013-11-26

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

中科院计算所ICTCLAS: 中国科学院计算技术研究所在多年研究工作积累的基础上，研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，主要功能包括中文分词；词性标注；命名实体识别；...

ICTCLAS f分词工具: 中科院北大实现的一级二级分词算法简单方便只是感觉词源不够丰富但是幸运的是可以自己添加新词啊

易语言中科院分词模块2014: NLPIR汉语分词系统(又名ICTCLAS2014),主要功能包括中文分词；词性标注；命名实体识别；用户词典功能；支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取。

java笔试题算法-NLP_summary:自然语言处理: 主要功能包括分词、添加自定义词典、关键词提取（基于TF-IDF或TextRank）、词性标注、并行分词等功能。 FudanNLP FudanNLP采用Java编写，提供了API的访问调用方式，包含机器学习算法和数据集。主要功能包括：中文...

西门子S7-200SMART与V20变频器基于Modbus通讯的稳定控制及应用: 内容概要：本文详细介绍了西门子S7-200SMART PLC与V20变频器通过Modbus RTU协议进行通信的具体方法和技术要点。首先阐述了硬件连接方式，强调了正确的接线和参数设置对于稳定通信的重要性。接着深入讲解了PLC程序的设计，包括Modbus主站初始化、启停控制、频率设定以及断电自恢复等功能模块的实现。此外还分享了一些实用的经验技巧，如避免通讯冲突、处理浮点数转换等问题。最后提到该方案已在实际生产环境中成功应用，表现出良好的稳定性和可靠性。适合人群：从事自动化控制系统集成的技术人员，特别是熟悉西门子PLC和变频器产品的工程师。使用场景及目标：适用于需要将旧型号PLC与变频器进行高效集成的企业，在不影响原有设备的基础上提升系统的智能化水平，减少人工干预，提高生产效率。其他说明：文中提供了大量具体的编程实例和参数配置指南，有助于读者快速掌握相关技能并应用于实际工作中。同时提醒读者注意一些常见的错误及其解决方案，帮助规避潜在的风险。

西门子PLC电机控制程序：封装好的功能块助力高效工业自动化: 内容概要：本文详细介绍了西门子PLC中用于电机控制的封装功能块，涵盖正转、反转、变频控制等多种功能。通过简化底层代码，提高编程效率和系统可靠性。文章展示了如何使用功能块实现正转、反转、变频控制、模拟量处理、故障处理等功能，并结合用户自定义数据类型（UDT）和多重背景技术，实现对大量电机的高效管理。此外，还提供了具体的代码示例，帮助读者更好地理解和应用这些功能块。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些需要频繁处理电机控制任务的人群。使用场景及目标：适用于需要简化电机控制编程、提高系统可靠性和可维护性的工业环境。主要目标是减少重复编码的工作量，提升开发效率，确保系统稳定运行。其他说明：文中提供的代码示例和方法不仅有助于初学者快速入门，也为有经验的工程师提供了优化现有系统的思路。通过使用这些功能块，可以在短时间内完成复杂电机控制系统的搭建和调试。

腐败感知指数（CPI）数据和各种治理指标数据集: 全球腐败感知数据（2000-2023）——3000行 33个指标关于数据集该数据集包含3000行和33列，涵盖了2000年至2023年的腐败感知指数（CPI）数据和各种治理指标。它包括国家排名、分数和其他指标，如公共部门腐败、司法腐败、贿赂指数、商业道德、民主指数、法治、政府效率、经济指标和人类发展指数。这些数据可用于：腐败趋势分析腐败对GDP、人类发展指数和治理的影响跨国比较数据可视化和机器学习模型该数据集对研究人员、数据分析师、政策制定者和对研究全球腐败趋势非常有用。

朔州市-平鲁区-街道行政区划_140603_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

脑机接口基于贝叶斯优化的FBCCA参数自动调优系统设计与实现：EEG数据处理及优化流程详解: 内容概要：本文档详细介绍了将贝叶斯优化应用于FBCCA（滤波器组公共空间模式）参数调整的完整解决方案，包括代码实现和优化流程。首先，通过MNE库加载并预处理EEG数据，进行7-30Hz的预滤波处理，提取相关事件片段。接着，定义了FBCABayesianOptimizer类，该类包含创建动态滤波器组、获取模型参数以及定义优化目标函数的方法。其中，参数空间由离散和连续参数组成，涵盖了滤波器数量、CSP组件数、起始频率、带宽、交叠率等，并通过Optuna库进行多维搜索。优化过程中采用5折交叉验证机制，同时引入智能早停策略以提高效率。最后，提供了优化结果的可视化工具，如优化轨迹图、参数重要性图和滤波器组配置图，帮助用户更好地理解和分析优化过程。适合人群：具有一定编程基础，尤其是对机器学习、脑电数据分析及贝叶斯优化感兴趣的科研人员和技术开发者。使用场景及目标：①通过动态滤波器组生成算法，捕捉频段间的过渡特征；②利用混合参数空间设计，探索不同参数组合的效果；③借助高效交叉验证机制和智能早停策略，提高优化效率；④通过可视化工具，直观展示优化过程和结果。阅读建议：此资源不仅展示了完整的代码实现，还深入探讨了FBCCA参数调整的理论基础和实际应用。建议读者在学习过程中结合理论知识与代码实践，逐步理解每个步骤的原理，并尝试调整参数以观察不同设置对优化效果的影响。同时，可根据自身硬件条件，考虑扩展建议中的GPU加速、分布式优化和在线学习等高级特性。

临汾市-古县-街道行政区划_141025_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

邯郸市-成安县--街道行政区划_130424_Shp-wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接使用。

临汾市-大宁县-街道行政区划_141030_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

石家庄市-石家庄市-石家庄市-灵寿县-街道行政区划_130126_Shp数据wgs84坐标系.rar: 街道级行政区划shp数据，wgs84坐标系，直接下载使用。

【预编码】基于matlab大规模多用户MIMO系统低复杂度混合预编码（Rayleigh信道）【含Matlab源码 13197期】.zip: Matlab领域上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

临汾市-安泽县-街道行政区划_141026_Shp数据-wgs84坐标系.rar: 街道级行政区划shp矢量数据，wgs84坐标系，下载直接使用

电子信息工程专业毕业论文模板_基于FPGA的CRC编码器设计.pdf: 电子信息工程专业毕业论文模板_基于FPGA的CRC编码器设计.pdf

鄂尔多斯市-达拉特旗-街道行政区划_150621_Shp数据-wgs84坐标系.rar: 鄂尔多斯市-达拉特旗-街道行政区划_150621_Shp数据-wgs84坐标系.rar

STM32与三菱PLC FX系列整合方案：高效工控系统的多功能定位源码三版本解析: 内容概要：本文详细介绍了STM32与三菱PLC FX系列整合方案，涵盖多种功能模块的实现方法及其应用场景。首先，通过寄存器级别的低层操作展示了数码管驱动、模拟量采集、定时器PWM配置等功能的具体实现方式。其次，针对定位功能进行了深入探讨，包括12轴运动控制、4路200kHz高速脉冲输出以及CAN总线扩展等高级特性。此外，文中提供了三种不同层次的代码版本供开发者选择，分别是寄存器版本、库函数版本和即将发布的HAL库版本，满足不同程度用户的开发需求。最后，强调了该方案在工业控制领域的广泛应用前景，如包装机械、立体仓库等。适合人群：具有一定嵌入式开发经验的研发人员，尤其是对STM32和三菱PLC有研究兴趣的技术爱好者。使用场景及目标：适用于需要将STM32与三菱PLC进行深度整合的工程项目，旨在提高工业控制系统的灵活性和功能性。具体目标包括但不限于实现高效的梯形图上传下载、在线监控、多轴运动控制、模拟量采集及CAN总线通信等功能。其他说明：文中不仅提供了详细的代码示例和技术细节，还分享了一些实用技巧，如寄存器操作注意事项、库函数的优势以及未来HAL库版本的发展方向。对于希望深入了解STM32与三菱PLC整合方案的读者而言，是一份不可多得的学习资料。

西门子S7-200SMART与V20变频器Modbus通讯方案及断电自恢复实现: 内容概要：本文详细介绍了西门子S7-200SMART PLC与V20变频器通过Modbus RTU进行通讯的具体实施方案，涵盖硬件接线、变频器参数设置、PLC程序编写以及触摸屏配置等方面的内容。重点解决了断电自恢复的问题，确保系统在断电重启后能够自动恢复正常运行。文中还提供了多个调试技巧和常见问题解决方案，如RS485接线注意事项、波特率设置、Modbus地址映射等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC和变频器应用的专业人士。使用场景及目标：适用于需要将PLC与变频器集成的应用场合，特别是在电力供应不稳定或存在突发断电风险的环境中。目标是提高系统的稳定性和可靠性，减少人工干预，提升生产效率。其他说明：文中提到的实际案例表明，该方案已在多个工业现场成功应用并长期稳定运行，证明了其可行性和优越性。此外，作者还分享了一些个人经验教训，帮助读者避免常见的错误和陷阱。

西门子200PLC全自动焊接系统的模块化程序设计与应用: 内容概要：本文详细介绍了基于西门子200PLC的全自动不锈钢焊接系统的程序设计及其配套的维纶触摸屏程序。项目采用了模块化设计，分为多个功能块如故障处理（FB_FaultHandling）、复位（FB_Reset）、自动模式（FB_AutoMode）和手动模式（FB_ManualMode），每个功能块职责明确，便于维护和复用。此外，还包括详细的地址分配表、电路原理图以及触摸屏界面设计，确保了系统的通用性和可维护性。文中还特别强调了故障处理模块的堆栈设计、安全回路的双冗余设计以及焊接参数的自动化计算等功能，展示了工业控制领域的最佳实践。适合人群：从事PLC编程、工业自动化控制、机械设备维护的技术人员和工程师。使用场景及目标：适用于需要设计和实施全自动焊接系统的工程项目，旨在提高生产效率、减少故障停机时间、优化焊接质量。通过学习本文，读者可以掌握模块化编程技巧、故障处理方法以及人机交互界面设计的最佳实践。其他说明：本文不仅提供了具体的代码实现和电路图，还分享了许多实际调试经验和优化建议，帮助读者更好地理解和应用这些技术和方法。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论