boolean ICTCLAS_FileProcess(byte[] sSrcFilename, int eCodeType, int bPOSTagged, byte[]sDestFilename)接口:该接口与ICTCLAS_ParagraphProcess接口类似,只是该接口用与处理文件,对整个文件的内容进行分词并标注,最后将结果存在目标文件中
* Method: ICTCLAS_FileProcess<!文本文件分词>
* Parameter: byte[] sSrcFilename<!要分词的文件>
* Parameter: int eCodeType<!要处理的文本编码类型>
* Parameter: int bPOSTagged<! 是否词性标准,0:不标注.1:标注.标注的词集根据ICTCLAS_SetPOSmap的设置值来定>
* Parameter: byte[] sDestFilename<! 结果文件存放位置>
* Returns: ICTCLAS_API bool<! 分词是否成功>
* Description: 1.用户若不指定分词结果保存位置,系统将结果保存至
当前目录下test_result.txt 中
2.sDestFilename,若该文件不存在, 则自动生成; 否则先清空已有内容
调用示例:
package ICTCLAS.I3S.test;
import java.io.BufferedReader;
import java.io.IOException;
import java.io.InputStreamReader;
import java.io.UnsupportedEncodingException;
import ICTCLAS.I3S.AC.ICTCLAS50;
public class Test_ICTCLAS_FileProcess {
/**
* @param args
*/
public static void main(String[] args) {
// TODO Auto-generated method stub
ICTCLAS50 ictclas = new ICTCLAS50();
String useage = "java Test_ICTCLAS_ParagraphProcess sPath [nPOSmap]";
if (args.length < 1) {
System.err.println(useage);
return;
}
try {
if (!ictclas.ICTCLAS_Init(args[0].getBytes("GB2312"))) {
System.err.println("Initial failed!");
return;
}
System.out.println("Initial successed!");
/* 设置词性标注集(0 计算所二级标注集,1 计算所一级标注集,2 北大二级标注集,3 北大一级标注集) */
int nPosmap = args.length == 2 ? Integer.valueOf(args[1]) : 1;
ictclas.ICTCLAS_SetPOSmap(nPosmap);
BufferedReader reader = new BufferedReader(new InputStreamReader(
System.in, "GB2312"));
System.out.print("input the src file:");
String srcFilename = reader.readLine();
System.out.print("input the dst file:");
String dstFilename = reader.readLine();
if (ictclas.ICTCLAS_FileProcess(srcFilename.getBytes("GB2312"), 0,
1, dstFilename.getBytes("GB2312"))) {
System.out.println("process successly!");
} else {
System.err.println("process failed!");
}
} catch (UnsupportedEncodingException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (IOException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} finally {
ictclas.ICTCLAS_Exit();
}
}
}
分享到:
相关推荐
ICTCLAS50_Windows_32_JNI 的使用,介绍ICTCLAS50_Windows_32_JNI 在eclipse等环境下的配置,以及怎么测试ICTCLAS50_Windows_32_JNI
ICTCLAS50_Windows_64_JNI ICTCLAS的API,文档等
中科院中文分词windows 64位系统JNI方式调用程序。
Java版的ICTCLAS通常提供了丰富的API接口,方便开发者在Java项目中集成和调用。 "ictclas_analysis.jar"可能是ICTCLAS的分析工具或者服务,可能包含了一些用于测试、性能评估或者调试的功能。开发者可以通过这个...
ictclas50的简单使用。只要把ictclas里的初始化函数简单应用了一下
中科院分词系统java版 ICTCLAS50_Windows_32_JNI.rar ;里面有最新的授权文件,正确执行demo;里面包含java借口使用说明以及分词系统的演示说明
中科院分词系统+ICTCLAS2011+JNI版(Java语言)源代码学习
中科院分词软件,用于语料预处理,不错的。
中科院分词器ictclas50 本人亲测windows64位可以使用
ICTCLAS50_Windows_32_JNI.rar 文件是一个包含Jena库的压缩包,主要关注Jena的推理功能,适用于Windows 32位环境,并且提供了JNI(Java Native Interface)支持。Jena是一个开源的Java框架,专门用于处理语义网和...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
ICTCLAS50的API可能提供C语言接口,使得其他程序可以通过调用这些接口来使用其强大的中文自然语言处理功能。API文档会详细介绍每个函数的参数、返回值、使用场景以及可能的错误处理,帮助开发者高效地集成到自己的...
ICTCLAS50_Windows_64_C(2).rar 是一个针对中文处理的重要工具,主要功能是中文分词。中文分词是自然语言处理(NLP)中的基础任务,对于理解和分析中文文本至关重要。这个软件包适用于Windows 64位系统,并且是C语言...
中文分词的java实现实例。包括词性标注和分词等功能。
Java中lucene分词需要的ICTCLAS.dll文件和data词库
中科院ICTCLAS50_Windows分词,内含32位与64位,能智能地将一段文字分解成词语,可以用于翻译,比如要翻译一段话,机器如何知道那几个字是一个词呢?就需要先通过分词,再翻译,当然现在智能的翻译肯定不是逐词翻译...
这个是中文分词开发版,源码,自己拿着用吧,效果很不错,ICTCLAS2011-SDK-release。好不好您说了算
ictclas4j java版实现,可供参考
ICTCLAS系统的vc++和java 源代码和调用示例