在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf来读取进行一定的改善。)
但是到了分词这一步上面有时候会报错:
Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
at java.util.Arrays.copyOf(Unknown Source)
at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source)
at java.lang.AbstractStringBuilder.append(Unknown Source)
at java.lang.StringBuilder.append(Unknown Source)
at org.ictclas4j.segment.SegTag.split(SegTag.java:125)
at emily.function.TextExtraction.classifyWord(TextExtraction.java:43)
at emily.function.TextExtraction.getExtractText(TextExtraction.java:26)
at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60)
at emily.function.Main.main(Main.java:16)
解决:
在run->open run dialog->(x)=argument
新设置参数
-Xmx800m
(完)
create@2010-01-28
- 大小: 13.2 KB
分享到:
相关推荐
ictclas4j java版 for lucene
ictclas4j for lucene 2.4 任何人不得将此用于商业用途,仅限个人学习研究之用.该开源项目遵循Apache License 2.0
最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
ictclas中科院分词
NULL 博文链接:https://summerbell.iteye.com/blog/1354546
ictclas4j java版实现,可供参考
本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
sinboy发表的ictclas4j-0.9.1版(最新)相关的字典、源码和开发文档打包
《中文分词器ictclas4j_3:深入解析与应用》 中文分词是自然语言处理中的关键步骤,尤其在中文信息检索、文本挖掘、机器翻译等领域扮演着至关重要的角色。ictclas4j_3是一款针对中文的分词工具,它基于贝叶斯公式,...
java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;...我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词,调节分词的效果
**ICTCLAS API 及使用方法** ICTCLAS(信息技术-中文自动分词系统)是北京大学计算语言研究所开发的一款高效、准确的中文分词工具,它在自然语言处理领域广泛应用,尤其是在文本预处理中,如信息检索、情感分析、...
分词结果是中/w 国/w 科/w 学/w 院/w 计/w 算/w 技/w 术/w 研/w 究/w 所/w 在/w 多/w 年/w 研/w 究/w 基/w 础/w 上/w ,/w 耗/nx 时/nx 一/nx 年/nx 研/nx 制/nx 出/nx 了/nx ICTCLAS/nx解决: 字典没导入成功,/...
8. **文档资料**:“Doc”文件夹则可能包含了详细的使用手册和技术文档,解释了系统的安装、配置、调用方法以及常见问题的解决方案。 在实际应用中,ICTCLAS可以应用于搜索引擎优化、文本分析、情感分析、机器翻译...
ictclas进行文本词汇标注,可直接运行 主函数在postag类
ictcasj 中文分词技术 有详细的说明
在左边的文本框中输入要分词的中文,单击“分词”按钮,可以在右边生成分词后的文本。... sinboy写的ictclas4j有一个gui函数是空的。为了抛砖引玉,写了一个gui demo,很简单。 写给0.9版本的,0.9.1已经有gui了
首先,"基于N-最短路径方法的中文词语粗分模型",这是一种利用图论中的N-最短路径算法来解决中文分词问题的方法。N-最短路径考虑了多个可能的分词结果,并通过计算每个路径的代价来选择最优的分词方式。这种方法通常...