最近使用ictclas2013版,又名NLPIR汉语分词系统。在分词过程中,总会出现分词不准确的原因,造成很多本来是应该在一起的词,变成了拆分开了的词语,造成了提取关键词的非常不便利。不过幸好ictclas2013版有个新词添加功能。如果不知道怎么加入ictclas2013到项目中,请参考
中科院分词ictclas2013使用java调用
首先查看NLPIR分词系统接口说明文档: NLPIR_AddUserWord(byte[] str) ,这个就是加入新词的方法。如果按照上面的介绍,以及参考了网上一些相关的介绍,但是始终没有配置成功。仔细想想,str.getBytes();方法是有编码格式的,而记得java调用分词都是设置了编码格式为:"GB2312",所以新词添加一定要记得设置编码格式。
public static void main(String[] args) { try { String sInput = "张华平推出的NLPIR分词系统,又名ICTCLAS2013,新增新词识别、关键词提取、微博分词功能。"; NLPIR testNLPIR = new NLPIR(); String argu = "./file/"; System.out.println("初始化ictclas2013分词系统"); if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false) { System.out.println("Init Fail!"); return; } /** * 1.添加新词,注意\t是tab键,你也可以用tab键:"分词系统 nn" * 2.getBytes的编码格式统一设置GB2312,否则无法识别新词 * 3.新词的词性可以自己添加,这里nn表示了新词 */ String s = "分词系统\tnn"; byte[] ret = s.getBytes("GB2312"); testNLPIR.NLPIR_AddUserWord(ret); /** * 1.这是永久保存在用户字典中,UserDIct.pdat会增加大小 */ // testNLPIR.NLPIR_SaveTheUsrDic(); /** * 1.去除新词,只需要使用:"分词系统" * 2.去除新词编码格式也必须:"GB2312",否则无法移除新词 */ // String ss = "分词系统"; // byte[] ress = ss.getBytes("GB2312"); // testNLPIR.NLPIR_DelUsrWord(ress); //执行分词过程 byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("GB2312"), 1); String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312"); System.out.println("分词结果为: " + nativeStr); testNLPIR.NLPIR_Exit(); } catch (Exception ex) { ex.printStackTrace(); } }
相关推荐
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。
中科院ICTCLAS2014分词系统下载包
带分词词性分类,VS2008项目,可以直接运行Demo程序,效果棒棒哒!
中科院分词器ICTCLAS,已经实现了二进制程序,有相关的代码,运行比较简单,执行wordseg infile outfile就可以,可以用于对word2vec需要的语料进行分词
中科院分词(ICTCLAS30.dll),去除时间限制破解版。 只是包含DLL文件,不含其他文件。
包括四个包:API、Demo、Doc、Sample 其中Demo下包括绿色版分词工具 Doc下有C/C++、Java、C#接口说明文档
实现了用java调用中科院分词工具。可用于软件或者web工程。
在张华平博士的空间上直接下载的,用VS2010打开发现有几处BUG,主要是VC6.0转VC10.0的兼容问题,我上传的源码中,BUG已经恢复,代码现在能完美运行(包括分词词库)。
NULL 博文链接:https://cjp1989.iteye.com/blog/1856613
中科院分词系统+ICTCLAS2011+JNI版(Java语言)源代码学习
简介: 应各位ICTCLAS用户的要求,... NLPIR汉语分词系统(又名ICTCLAS2013),主要功能包括中文分词;词性标注;命名实体识别;用户词典功能;支持GBK编码、UTF8编码、BIG5编码。新增微博分词、新词发现与关键词提取;
从网络上的一个开源中科院分词(ICTCLAS)系统.netWinForm版(c++/cli)改写,此为Asp.net版。里面带有例子。
NLPIR ICTCLAS2013是一款由国家语言资源与研究中心(NLPR)开发的中文分词系统,专门用于处理大规模中文文本的分词任务。这个实例是针对.NET平台的,意味着它允许.NET开发者在他们的应用程序中集成中文分词功能。在...
采用Java实现分词系统,包括去除停用词,文本处理完毕后输出到txt
ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院
中科院分词系统java版 ICTCLAS50_Windows_32_JNI.rar ;里面有最新的授权文件,正确执行demo;里面包含java借口使用说明以及分词系统的演示说明
最好的中文分词算法,新鲜出炉,不过里面的文件是2014的
ICTCLAS中文分词系统是基于信息技术(ICT)和自然语言处理(NLP)的工具,主要用于处理中文文本。这个系统由中关村的科研团队开发,代表着国内在中文分词技术领域的先进水平。分词是中文信息处理的重要步骤,因为...
中科院分词工具,jni调用,包括文档和demo。该demo为改造版,官方提供的的ICTCLAS2011在java中使用总是报错,这个demo可以正常使用
Java调用ICTCLAS2013涉及到的是在Java程序中使用ICTCLAS(中文语言分析系统)2013版进行中文处理的任务,主要包括中文分词、词性标注、命名实体识别和新词识别。ICTCLAS是一个高效、实用的中文自然语言处理工具,...