使用ICTCLAS JAVA版（ictclas4j）进行中文分词（附ictclas,停用词表,commons-lang-2.4.jar下载地址）

fhqllt

浏览: 1065423 次
性别:
来自: 郑州

最近访客更多访客>>

wenyan1232

小覃Smile

yjqzou

wt_7628

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

数据挖掘

Java Eclipse Apache ASP Bean

一、ICTCLAS的介绍

中国科学院计算技术研究所在多年研究基础上，耗时一年研制出了基于多层隐码模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)，该系统的功能有：中文分词；词性标注；未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果)，基于角色标注的未登录词识别能取得高于90%召回率，其中中国人名的识别召回率接近98%，分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道，国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。

二、开始使用ICTCLAS进行分词

1.下载ictclasj

首先到ictclas的网站下载JAVA版本的ictclas——ictclasj。

下载地址 ：http://ictclas.org/Down_OpenSrc.asp

2.在Eclipse中新建项目并进行配置

首先把 ictclasj解压缩，然后把 Data文件夹整个拷贝到 Eclipse项目的文件夹下, 而 bin目录下的 org文件夹整个拷贝到你 Eclipse项目的 bin目录下，把src目录下的org文件夹整个拷贝到 Eclipse项目的src目录下。

3.测试分词结果

import org.ictclas4j.bean.SegResult;
import org.ictclas4j.segment.SegTag;

public class TextSegmentation {

public static void main(String[] args) {
   String fileContent = "中国科学院计算技术研究所在多年研究基础上，" +
     "耗时一年研制出了ICTCLAS汉语词法分析系统";
   SegTag segTag = new SegTag(1);// 分词路径的数目
   SegResult segResult = segTag.split(fileContent.trim());
   String classifyContent = segResult.getFinalResult();
   System.out.println("分词结果\n"+classifyContent);

}

就是这样，我们可以得到输出的结果，并且带有词性的标注。

分词结果：
中国科学院/n 计算/n 技术/n 研究所/n 在/c 多年/m 研究/n 基础/a 上/f ，/w 耗时/v 一/d 年/a 研制/v 出/q 了/u ICTCLAS/nx 汉语/n 词法/n 分析/v 系统/a

三、关于可能出现的错误

1.越界错误

在Dictionary.java里面的getMaxMatch()函数里要注意加上对wis的判断语句

if(wis != null)

否则有时会报出越界错误

2. “org.apache”

这个新建的测试类可能会提示错误："The import org.apache cannot be resolved"，这是由于系统需要一个Apache的commons的jar包。

附件中有 commons-lang-2.4.jar和停用词表（stopwords.rar）下载。

stopwords.rar (2.6 KB)
下载次数: 110

commons-lang-2.4.jar (255.7 KB)
下载次数: 52

分享到：

静态库与DLL | 根据关键词提取文本摘要

2011-03-09 16:35
浏览 3151
评论(0)
分类:企业架构
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论