`

Ictclas的一个bug(转)

 
阅读更多

SegTag tag=new SegTag(4); 
String str="在最新的研究中,美国威斯康星大学麦迪逊分校的Brad Singer和加州州立工业大学的Kenneth Hoffman分析了来自塔希提岛(位于南太平洋)和德国西部的古代熔岩流(lava flow),以研究地球磁场过去的模式。"; 
System.out.println(str); 
SegResult res=tag.split(str); 
System.out.println(res.getFinalResult()); 

Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 8, Size: 8 
at java.util.ArrayList.RangeCheck(ArrayList.java:547) 
at java.util.ArrayList.get(ArrayList.java:322) 
at org.ictclas4j.segment.PosTagger.computePossibility(PosTagger.java: 723) 
at org.ictclas4j.segment.PosTagger.placeRecognize(PosTagger.java:594) 
at org.ictclas4j.segment.PosTagger.recognition(PosTagger.java:82) 
at org.ictclas4j.segment.SegTag.split(SegTag.java:92) 
at forumIndexer.test.main(test.java:31) 

 

如果改成SegTag tag=new SegTag(1)就没有问题。SegTag的参数segPathCount好像是候选的路径数量。我原来改成10,出现异常,改成123都没有问题。大于4就不行了。

出错的代码是:

for (int i = startPos; i < startPos + length && sns != null; i++) { 
SegNode sn = sns.get(i); 

 

下标越界了。然后我在for里加上条件 i<sns.size(); 就没有问题。但因为我没有仔细阅读代码,不知道这样的修改会不会带来新的bug

 

 

 

分享到:
评论

相关推荐

    ICTCLAS5.0 Delphi2010接口源码

    这是本人根据其C接口文件修改测试而成的Delphi2010针对ICTCLAS5.0的dll库头文件,内含一个验证过的.pas文件,下载后直接整合到项目中即可使用。本来自用,考虑到互联网的分享精神,为了不让后来者走弯路特独家发送!...

    ICTCLAS中文分词系统

    ICTCLAS中文分词系统是基于信息...其高性能和高准确性使得它成为中文信息处理领域的一个重要工具。通过学习和理解这个系统的使用,开发者可以提升其在自然语言处理项目中的技术水平,进一步推动中文信息处理的发展。

    ICTCLAS Java版

    这个“ICTCLAS Java版”是该工具的一个Java实现版本,意味着开发者可以使用Java编程语言来调用和集成这个强大的分词引擎。 在sinboy的Java版分词系统基础上进行的修改,通常是为了适应特定需求或者优化性能。可能的...

    Java调用ICTCLAS2013

    ICTCLAS是一个高效、实用的中文自然语言处理工具,广泛应用于文本挖掘、信息检索等领域。以下是对Java调用ICTCLAS2013的详细说明: 首先,你需要获取Java 32位版本的ICTCLAS以及C++版本的库。Java版本包含了JNI库,...

    ICTCLAS2010

    ICTCLAS2010是基于信息与计算技术的汉语词法分析系统,它在中文自然语言处理领域具有...对于想要深入理解中文自然语言处理的人来说,ICTCLAS2010是一个不可多得的学习资源,可以借此了解词法分析的基本原理和实际操作。

    ICTCLAS_api及使用方法

    ICTCLAS 提供了一个基于C++的API接口,同时也支持Python、Java等多种编程语言的绑定,使得开发者可以在不同的环境下方便地进行分词操作。API的主要功能包括分词、词性标注、新词发现等,其分词效果在业界享有较高...

    ICTCLAS2013

    张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。 NLPIR汉语分词系统(又名...

    ICTCLAS分词系统研究

    ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院

    JAVA实现ICTCLAS2015分词

    1. **导入库**:首先,你需要引入ICTCLAS的JAVA接口库,这通常是一个.jar文件,如`ictclas.jar`。这个库提供了与ICTCLAS C++核心引擎交互的API。 2. **初始化**:在代码中,你需要创建一个ICTCLAS实例,并进行初始...

    ICTCLAS_Source_Analysis.rar_ICTCLAS_ICTCLAS java_ICTCLAS-analysi

    "ICTCLAS分词系统研究"很可能是一个详细的研究报告或者教程,深入探讨了ICTCLAS的设计思想、算法实现、性能优化等方面,对于开发者了解和改进ICTCLAS具有重要指导意义。 通过对这些内容的学习,开发者可以了解到...

    中科院ICTCLAS2014分词系统下载包

    中科院ICTCLAS2014分词系统下载包

    ICTCLAS50综合包

    ICTCLAS50综合包是涉及中文自然语言处理的一个重要工具包,主要聚焦于统计语言模型,特别是N-Gram模型和平滑技术的应用。N-Gram模型是基于马尔科夫假设的一种统计方法,用于预测序列中下一个元素的概率,广泛应用于...

    ICTCLAS的Java改造版本

    可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来存储,结果造成了可悲的内存溢出问题。 我觉得这...

    NLPIR/ICTCLAS2014

    NLPIR/ICTCLAS2014是一个由著名学者张华平教授研发的中文分词系统,被誉为当时最优秀的中文处理工具之一。这个系统主要应用于自然语言处理(NLP)领域,尤其在中文文本分析中扮演着核心角色。NLPIR/ICTCLAS2014具有...

    ICTCLAS50 Delphi调用例程

    Delphi下调用ICTCLAS50的参考方法

    ICTCLAS2009

    ICTCLAS2009是基于信息通信技术(ICT)的中文分词系统,它专为处理和理解中文文本而设计。...同时,对于研究者来说,ICTCLAS2009也是一个有价值的工具,可用于研究和改进中文分词技术,推动自然语言处理领域的发展。

    ICTCLAS源码解析

    ICTCLAS源码解析

    ICTCLAS的Java分词系统

    ICTCLAS(Chinese Word Segmentation for Information Content Extraction and Linguistic Analysis System)是由北京师范大学的陈天教授基于ICTCLAS(信息内容提取与语言分析系统)进一步开发的一个Java分词系统。...

    中科院计算所ICTCLAS

    中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...

    基于lucene3.0的ICTCLAS实现

    ictclas中文分词是中科院研发的一款分词工具,是当前最好的分词工具。本项目实现ictclas分词与lucene的结合,提高lucene的中文分词效果。

Global site tag (gtag.js) - Google Analytics