我现在用的是je-analysis-1.5.2.jar的分词,当我建立索引大约有几百条的时候,就出现一下异常,看看,是什么原因?谢谢了
java.lang.ArrayIndexOutOfBoundsException: 1056
at jeasy.analysis.lIIllIlIlIIIllll._$3(Unknown Source:264)
at jeasy.analysis.lIIllIlIlIIIllll._$2(Unknown Source:143)
at jeasy.analysis.lIIllIlIlIIIllll._$1(Unknown Source:58)
at jeasy.analysis.lIIllIlIlIIIllll.next(Unknown Source:38)
at org.apache.lucene.analysis.StopFilter.next(StopFilter.java:107)
at org.apache.lucene.index.DocumentWriter.invertDocument(DocumentWriter.java:219)
at org.apache.lucene.index.DocumentWriter.addDocument(DocumentWriter.java:95)
at org.apache.lucene.index.IndexWriter.buildSingleDocSegment(IndexWriter.java:1013)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:1001)
at org.apache.lucene.index.IndexWriter.addDocument(IndexWriter.java:983)
at com.hotct.search.core.IndexProcesser.createIndex(IndexProcesser.java:125)
at com.hotct.search.app.cms.index.ArticleIndexProcesser.createArticleIndex(ArticleIndexProcesser.java:49)
at com.hotct.search.app.cms.index.ArticleIndexProcesser.getPageAritcle(ArticleIndexProcesser.java:74)
at com.hotct.search.app.cms.index.ArticleIndexProcesser.main(ArticleIndexProcesser.java:82)
分享到:
相关推荐
"JE分词 1.4+1.5"是一个针对中文文本处理的工具,主要用于将汉字字符串分割成有意义的词语,这是自然语言处理中的关键步骤。这个版本的JE分词在之前的基础上进行了多方面的改进和增强,使得其在处理中文文本时更为...
【标题】"je分词jar文件1.5+1.4l两版本"涉及的核心知识点是中文分词技术,以及两个不同版本的Java Archive (JAR) 文件——JE-Analysis1.5.1.jar和JE-Analysis1.4.0.jar。 中文分词是自然语言处理(NLP)中的关键...
标题中的“lucene_JE分词_htmlParser--jar包”表明这是一个包含与Lucene、JE分词和HTMLParser相关的Java库的集合。这些组件在IT领域中有着特定的应用,特别是对于文本处理和搜索引擎构建。 首先,让我们详细了解...
中文分词很好的工具,可以自组定制
2. **歧义处理**:中文分词经常面临歧义问题,如“我去了银行”,既可理解为“我去了金融机构”,也可理解为“我过了河”。je-analysis可能需要结合上下文信息来消除歧义。 3. **新词发现**:随着社会的快速发展,...
修正细粒度分词错误的问题 1.5.0 —— 2007-01-18 全面支持Lucene 2.0 增强了词典维护的API 增加了商品编码的匹配 增加了Mail地址的匹配 实现了词尾消歧算法第二层的过滤 整理优化了词库 1.4.0 ...
本文将深入探讨"je-analysis-1.5.3"和"lucene-core-2.4.1"这两个分词组件,以及它们在相关场景中的应用。 首先,让我们了解什么是分词。分词,即词语切分,是自然语言处理(NLP)中的基本任务之一,它的目标是将...
总结来说,JE-Analysis 1.5.3是一个高效且易用的中英文分词工具,它的词典扩展功能和多样化的分词模式为各种文本处理任务提供了强大支持。无论是在学术研究还是商业项目中,都能看到其身影。掌握并熟练运用JE-...
JE-Analysis是专为Lucene设计的,旨在解决中文分词的问题。它在分词效率和准确性上都进行了优化,以适应大规模中文文档的检索需求。这个组件的核心在于其分词算法,它结合了多种策略,如基于字典的匹配、统计学习等...
Jeasy Analysis是为了简化中文分词而设计的,它主要由"je-analysis-1.5.3.jar"这个文件组成。这个分词器在Lucene的基础上,针对中文特性进行了优化,提高了分词效率和准确性,尤其适合对易读性和速度有较高要求的...
"JE分词器"是其主要的标识,表明了它是基于Java开发的,并且专注于中文分词任务。 分词是自然语言处理中的基础步骤,对于搜索引擎、文本分类、情感分析等应用至关重要。"je-analysis-1.5.1"的出现,旨在解决中文...
最流行、使用最方便的中文分词包,此资源为文件系统而非jar包,使用时Eclipse使用文件导入方式导入,其他编辑器视情况而定,用些编辑器支持将资源复制进工程。实在不行可以将解压后的指明路径或解压至java文件同一...
在本压缩包文件“词频计算,分词技术je-analysis.Net版本+代码.rar”中,包含了一系列相关资源,如项目文件、源代码和测试数据,供用户学习和实践。 首先,我们要了解什么是词频计算。词频计算是统计一个文档或一组...
除了jieba,"je-analysis"可能还包括其他的分词组件,如IK Analyzer、SmartChineseAnalyzer等,这些分词器各有特点,可以根据实际需求选择合适的工具。 总的来说,"lucene中文分词"是Lucene处理中文文本的关键环节...
修正在某些情况下分词遗漏的问题 1.3 —— 2006-06-22 实现了词尾消歧算法中第一层的过滤 增加日期时间的匹配 1.2.2 —— 2006-06-13 完善了中英文噪声词典 1.2.1 —— 2006-06-10 修正中文数字...
由中科院提供的中文极易分词器。比较完善的中文分词器
- 处理歧义:中文分词中常见的问题就是歧义,例如“苹果”既可以指水果,也可以指公司名。MMAnalyzer可能无法完全解决这个问题,可能需要结合其他手段如上下文信息来减少歧义。 - 性能考虑:对于大规模文本处理,...
《深入解析je-analysis-1.5.3:Java Lucene中的中文全文检索与分词组件》 在现代信息处理领域,全文检索与精准的文本分析是至关重要的技术。Je-analysis,作为一款基于Java的开源全文检索框架Lucene的中文分词组件...
例如,当主语是第一人称单数“je”时,过去分词不变化;当主语是第三人称单数“il/elle”时,过去分词也不变化;当主语是复数形式“nous”或“vous”时,过去分词同样不变化;而当主语是复数形式“ils/elles”时,...