1.漏字
Eg: 林心如主演的倾世王妃
分词结果为:林如/nr 主演/v 的/u 倾/v 世/ng 王妃/n
漏掉了“心”字
解决办法:将PosTagger.java中personRecognize方法里的如下if语句直接注释掉
if (sn.getPos() < 4
&& unknownDict.getFreq(sn.getWord(), sn.getPos())
< Utility.LITTLE_FREQUENCY)
2.Dictionary.java中getMaxMatch方法
for (int j = 0; j < wis.size(); j++) 这一行出现NullPointerException
解决办法:在for之前加上如下判断语句
if (wis == null) {
return null;
}
3.Dictionary.java中addItem,save不能完成新词的添加
http://wenku.baidu.com/view/6c16deed6294dd88d0d26bce.html
http://tinypig.iteye.com/blog/250926
http://emily2ly.iteye.com/blog/742870
分享到:
相关推荐
ictclas4j java版 for lucene
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
ictclas4j java版实现,可供参考
ictclas4j for lucene 2.4 任何人不得将此用于商业用途,仅限个人学习研究之用.该开源项目遵循Apache License 2.0
sinboy发表的ictclas4j-0.9.1版(最新)相关的字典、源码和开发文档打包
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
ictclas中科院分词
NULL 博文链接:https://summerbell.iteye.com/blog/1354546
分词结果是中/w 国/w 科/w 学/w 院/w 计/w 算/w 技/w 术/w 研/w 究/w 所/w 在/w 多/w 年/w 研/w 究/w 基/w 础/w 上/w ,/w 耗/nx 时/nx 一/nx 年/nx 研/nx 制/nx 出/nx 了/nx ICTCLAS/nx解决: 字典没导入成功,/...
《中文分词器ictclas4j_3:深入解析与应用》 中文分词是自然语言处理中的关键步骤,尤其在中文信息检索、文本挖掘、机器翻译等领域扮演着至关重要的角色。ictclas4j_3是一款针对中文的分词工具,它基于贝叶斯公式,...
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
ictclas进行文本词汇标注,可直接运行 主函数在postag类
java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;...我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词,调节分词的效果
ictcasj 中文分词技术 有详细的说明
在左边的文本框中输入要分词的中文,单击“分词”按钮,可以在右边生成分词后的文本。... sinboy写的ictclas4j有一个gui函数是空的。为了抛砖引玉,写了一个gui demo,很简单。 写给0.9版本的,0.9.1已经有gui了
这个包是Bory.Chan对ictclas4j进行修改,适用于lucene分词的工具包
基于ICTCLAS中科院分词器实现Lucene4.9版本的中文分词功能,新增中英文停用词库,直接导入即可使用。
4. **适应性强**:支持32位操作系统,意味着它可以在多种环境下运行,满足不同用户的需求。 5. **API接口**:在压缩包中的“API”文件夹可能包含系统提供的编程接口,开发者可以通过这些接口将ICTCLAS集成到自己的...