中科院ictclas2013版分词系统,现在改为NLPIR汉语分词系统--http://ictclas.nlpir.org/,功能上已经足够强大了,由于项目需要,整合分词到系统中来。参考官网的java调用说明,在使用过程中有些要注意的地方。
下面贴出配置过程:
1.进入官网下载
ictclas2013下载包,目前更新到0416版,ictclas2013-Win-32-jni或者64位的。如果系统是32位的就下载32位的,如果是64位的系统,那就要看你安装的java虚拟机是32位还是64位。若是32为jdk,还是要下载使用32位的JNI,而且Eclipse也用32位的。
2.准备文件
打开ictclas2013文件,需要的数据是:Data,Bin,Text三个文件,其中Bin文件夹里面只要:NLPIR.dll文件,里面内容不要轻易更改。打开Win-32bit_JNI-lib文件,里面有个NLPIL_JNI.dll文件。
3.创建项目
a.直接将java示例程序导入到src目录下,TestNLPIR.java和kevin同级,不要更改包名。
b.创建file文件夹,跟src同级目录,将Data文件夹放入里面。把测试文本Test放入到项目里面,也跟src是同级目录。
c.导入dll文件,将NLPIR.dll和NLPIL_JNI.dll文件同时导入到项目中,使用右键点击项目,import方法,从文件中导入,选择这两个文件。
d,设置程序,下面给出test()方法的简单说明
NLPIR testNLPIR = new NLPIR(); String argu = "./file/"; System.out.println("NLPIR_Init"); //0表示编码为GBK,设为1,在Eclipse调用文字乱码 if (testNLPIR.NLPIR_Init(argu.getBytes("GB2312"),0) == false) { System.out.println("Init Fail!"); return; } //导入用户词典前,设置为0,表示去除了角色标注;设置1,加上角色标注 byte nativeBytes[] = testNLPIR.NLPIR_ParagraphProcess(sInput.getBytes("GB2312"), 0); String nativeStr = new String(nativeBytes, 0, nativeBytes.length, "GB2312"); System.out.println("分词结果为: " + nativeStr);
4.最后说明
附上已经整合好的项目,当然只是简单的。实际中效果还是很理想的。
相关推荐
中科院分词工具,jni调用,包括文档和demo。该demo为改造版,官方提供的的ICTCLAS2011在java中使用总是报错,这个demo可以正常使用
ICTCLAS 中科院分词 在java上的实现demo 包含了ICTCLAS接口开发文档
实现了用java调用中科院分词工具。可用于软件或者web工程。
本包是中科院的ICTCLAS分词工具包的程序使用示例程序,还有相应的帮助文档,未曾使用过的初学者,完全可以通过该Demo掌握ICTCALS的使用方法。
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。
中科院分词系统java版 ICTCLAS50_Windows_32_JNI.rar ;里面有最新的授权文件,正确执行demo;里面包含java借口使用说明以及分词系统的演示说明
ICTCLAS 中科院分词 里面有demo和相关使用文档,最好的中文分词工具
09年新版本的中科院分词系统,可以直接调用,加载的时候会有点麻烦,可以留言,我会解答!
中科院ICTALAS2012版的分词工具,最新版,稳定使用,性能有优化,文档完整
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll,COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,...
发现中科院提供的ictclas工具是比较不错的。 可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来...
中科院分词器ictclas50 本人亲测windows64位可以使用
ictclas中科院分词
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
中科院ICTCLAS2014分词系统下载包,文本分析工具,方便使用。
包里面含有linux和windows平台下所有文件,因此调用这个包可以跨平台。(unfortunately mac 不支持)
COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,输出格式也可以定制,开发者在分词和词性标注的基础上继续上层开发。...
中科院的分词系统,非常有用。不过需要安装java才能运行。适合win32位系统使用。如有使用错误,请联系作者。
lucene中使用中科院分词的analyzer 直接在lucene中实例化该analyzer就可以使用中科院分词