SegTag tag=new SegTag(4);
String str="在最新的研究中,美国威斯康星大学麦迪逊分校的Brad Singer和加州州立工业大学的Kenneth Hoffman分析了来自塔希提岛(位于南太平洋)和德国西部的古代熔岩流(lava flow),以研究地球磁场过去的模式。";
System.out.println(str);
SegResult res=tag.split(str);
System.out.println(res.getFinalResult());
Exception in thread "main" java.lang.IndexOutOfBoundsException: Index: 8, Size: 8
at java.util.ArrayList.RangeCheck(ArrayList.java:547)
at java.util.ArrayList.get(ArrayList.java:322)
at org.ictclas4j.segment.PosTagger.computePossibility(PosTagger.java: 723)
at org.ictclas4j.segment.PosTagger.placeRecognize(PosTagger.java:594)
at org.ictclas4j.segment.PosTagger.recognition(PosTagger.java:82)
at org.ictclas4j.segment.SegTag.split(SegTag.java:92)
at forumIndexer.test.main(test.java:31)
如果改成SegTag tag=new SegTag(1)就没有问题。SegTag的参数segPathCount好像是候选的路径数量。我原来改成了10,出现异常,改成1,2,3都没有问题。大于4就不行了。
出错的代码是:
for (int i = startPos; i < startPos + length && sns != null; i++) {
SegNode sn = sns.get(i);
下标越界了。然后我在for里加上条件 i<sns.size(); 就没有问题。但因为我没有仔细阅读代码,不知道这样的修改会不会带来新的bug。
分享到:
相关推荐
这是本人根据其C接口文件修改测试而成的Delphi2010针对ICTCLAS5.0的dll库头文件,内含一个验证过的.pas文件,下载后直接整合到项目中即可使用。本来自用,考虑到互联网的分享精神,为了不让后来者走弯路特独家发送!...
ICTCLAS中文分词系统是基于信息...其高性能和高准确性使得它成为中文信息处理领域的一个重要工具。通过学习和理解这个系统的使用,开发者可以提升其在自然语言处理项目中的技术水平,进一步推动中文信息处理的发展。
这个“ICTCLAS Java版”是该工具的一个Java实现版本,意味着开发者可以使用Java编程语言来调用和集成这个强大的分词引擎。 在sinboy的Java版分词系统基础上进行的修改,通常是为了适应特定需求或者优化性能。可能的...
ICTCLAS是一个高效、实用的中文自然语言处理工具,广泛应用于文本挖掘、信息检索等领域。以下是对Java调用ICTCLAS2013的详细说明: 首先,你需要获取Java 32位版本的ICTCLAS以及C++版本的库。Java版本包含了JNI库,...
ICTCLAS2010是基于信息与计算技术的汉语词法分析系统,它在中文自然语言处理领域具有...对于想要深入理解中文自然语言处理的人来说,ICTCLAS2010是一个不可多得的学习资源,可以借此了解词法分析的基本原理和实际操作。
ICTCLAS 提供了一个基于C++的API接口,同时也支持Python、Java等多种编程语言的绑定,使得开发者可以在不同的环境下方便地进行分词操作。API的主要功能包括分词、词性标注、新词发现等,其分词效果在业界享有较高...
张博士先后倾力打造十余年,内核升级10次,全球用户突破20万,先后获得了2010年钱伟长中文信息处理科学技术奖一等奖,2003年国际SIGHAN分词大赛综合第一名,2002年国内973评测综合第一名。 NLPIR汉语分词系统(又名...
ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院
1. **导入库**:首先,你需要引入ICTCLAS的JAVA接口库,这通常是一个.jar文件,如`ictclas.jar`。这个库提供了与ICTCLAS C++核心引擎交互的API。 2. **初始化**:在代码中,你需要创建一个ICTCLAS实例,并进行初始...
"ICTCLAS分词系统研究"很可能是一个详细的研究报告或者教程,深入探讨了ICTCLAS的设计思想、算法实现、性能优化等方面,对于开发者了解和改进ICTCLAS具有重要指导意义。 通过对这些内容的学习,开发者可以了解到...
中科院ICTCLAS2014分词系统下载包
ICTCLAS50综合包是涉及中文自然语言处理的一个重要工具包,主要聚焦于统计语言模型,特别是N-Gram模型和平滑技术的应用。N-Gram模型是基于马尔科夫假设的一种统计方法,用于预测序列中下一个元素的概率,广泛应用于...
可惜没有官方正式的java版本,有一个网友sinbo自己改写了一个java版本。 但在使用过程中发现问题很多。其中最大的问题,就是数据结构不够合适,统统采用arraylist来存储,结果造成了可悲的内存溢出问题。 我觉得这...
NLPIR/ICTCLAS2014是一个由著名学者张华平教授研发的中文分词系统,被誉为当时最优秀的中文处理工具之一。这个系统主要应用于自然语言处理(NLP)领域,尤其在中文文本分析中扮演着核心角色。NLPIR/ICTCLAS2014具有...
Delphi下调用ICTCLAS50的参考方法
ICTCLAS2009是基于信息通信技术(ICT)的中文分词系统,它专为处理和理解中文文本而设计。...同时,对于研究者来说,ICTCLAS2009也是一个有价值的工具,可用于研究和改进中文分词技术,推动自然语言处理领域的发展。
ICTCLAS源码解析
ICTCLAS(Chinese Word Segmentation for Information Content Extraction and Linguistic Analysis System)是由北京师范大学的陈天教授基于ICTCLAS(信息内容提取与语言分析系统)进一步开发的一个Java分词系统。...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
ictclas中文分词是中科院研发的一款分词工具,是当前最好的分词工具。本项目实现ictclas分词与lucene的结合,提高lucene的中文分词效果。