一、ICTCLAS的介绍
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐码模型的汉语词法分析系统
ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis
System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS
和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
二、开始使用ICTCLAS进行分词
1.下载ictclasj
首先到ictclas的网站下载JAVA版本的ictclas——ictclasj。
下载地址
:http://ictclas.org/Down_OpenSrc.asp
2.在Eclipse中
新建项目并进行
配置
首先把
ictclasj解压缩,然后把
Data文件夹整个拷贝到
Eclipse项目的文件夹下,
而
bin目录下的
org文件夹整个拷贝到你
Eclipse项目的
bin目录下,把src目录下的org文件夹整个拷贝到
Eclipse项目
的src目录下。
3.测试分词结果
import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;
public class TextSegmentation {
public static void main(String[] args) {
String fileContent = "中国科学院计算技术研究所在多年研究基础上," +
"耗时一年研制出了ICTCLAS汉语词法分析系统";
SegTag segTag = new SegTag(1);// 分词路径的数目
SegResult segResult = segTag.split(fileContent.trim());
String classifyContent = segResult.getFinalResult();
System.out.println("分词结果\n"+classifyContent);
}
}
就是这样,我们可以得到输出的结果,并且带有词性的标注。
分词结果
中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ,/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a
三、关于可能出现的错误
1.越界错误
在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句
if(wis != null)
否则有时会报出越界错误
2.
“org.apache”
这个新建的测试类可能会提示错误:"The import org.apache cannot
be resolved",这是由于系统需要一个Apache的commons的jar包。
文章后面的附件中有
commons-lang-2.4.jar和停用词表(stopwords.rar)下载
。
(完)
create@2009-08-20
- 大小: 16.3 KB
分享到:
相关推荐
这个“ICTCLAS Java版”是该工具的一个Java实现版本,意味着开发者可以使用Java编程语言来调用和集成这个强大的分词引擎。 在sinboy的Java版分词系统基础上进行的修改,通常是为了适应特定需求或者优化性能。可能的...
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
ICTCLAS(Chinese Word Segmentation for Information Content Extraction and Linguistic Analysis System)是由北京师范大学的陈天教授基于ICTCLAS(信息内容提取与语言分析系统)进一步开发的一个Java分词系统。...
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
在这个场景中,我们关注的是使用JAVA来实现中科大(University of Science and Technology of China, USTC)的ICTCLAS2015分词系统。ICTCLAS是一款高效、准确的中文分词工具,广泛应用于信息检索、文本挖掘等领域。 ...
这个包是Bory.Chan对ictclas4j进行修改,适用于lucene分词的工具包
中科院ICTCLAS2014分词系统下载包
这个"stanford-corenlp-full-2018-01-31.zip"压缩包包含了2018年1月31日版本的完整版StanfordCoreNLP,特别强调了对中文的支持,这意味着用户可以利用这个工具包对中文文本进行深度分析。 首先,我们来看一下...
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
ICTCLAS中文分词系统是基于信息技术(ICT)和自然语言处理(NLP)的工具,主要用于处理中文文本。这个系统由中关村的科研团队开发,代表着国内在中文分词技术领域的先进水平。分词是中文信息处理的重要步骤,因为...
ictclas4j java版实现,可供参考
ICTCLAS,全称为“基于词典和统计的汉语词法分析系统”,是北京大学计算语言研究所(FXSJY)开发的一款高效、免费的中文分词工具。本压缩包"ICTCLAS_Source_Analysis.rar"包含了对该系统源码的深度分析资料,对于想...
中文分词的java实现实例。包括词性标注和分词等功能。
采用Java实现分词系统,包括去除停用词,文本处理完毕后输出到txt
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
ictclas4j for lucene 2.4 任何人不得将此用于商业用途,仅限个人学习研究之用.该开源项目遵循Apache License 2.0
在张华平博士的空间上直接下载的,用VS2010打开发现有几处BUG,主要是VC6.0转VC10.0的兼容问题,我上传的源码中,BUG已经恢复,代码现在能完美运行(包括分词词库)。
java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典...
ictclas4j java版 for lucene
ICTCLAS 中文分词的elipse 工程