`
emily2ly
  • 浏览: 166616 次
  • 性别: Icon_minigender_2
  • 来自: 武汉
社区版块
存档分类
最新评论

使用ictclas4j过程中产生的内存不足问题及其解决方法

阅读更多

在读取中文pdf文档的内容并对用ictclas4j对其进行分词过程中,在读取pdf这一步上面没有问题(即没有报错,可以正确运行,但是会出现一些乱码,这可能是由于pdfbox包的不够完善,可以通过用xpdf来读取进行一定的改善。)

但是到了分词这一步上面有时候会报错:

Exception in thread "main" java.lang.OutOfMemoryError: Java heap space
    at java.util.Arrays.copyOf(Unknown Source)
    at java.lang.AbstractStringBuilder.expandCapacity(Unknown Source)
    at java.lang.AbstractStringBuilder.append(Unknown Source)
    at java.lang.StringBuilder.append(Unknown Source)
    at org.ictclas4j.segment.SegTag.split(SegTag.java:125)
    at emily.function.TextExtraction.classifyWord(TextExtraction.java:43)
    at emily.function.TextExtraction.getExtractText(TextExtraction.java:26)
    at emily.function.BuildXMLDocument.builder(BuildXMLDocument.java:60)
    at emily.function.Main.main(Main.java:16)
解决: 

在run->open run dialog->(x)=argument

新设置参数 -Xmx800m

 

(完)

create@2010-01-28

  • 大小: 13.2 KB
分享到:
评论

相关推荐

    ictclas4j java版 for lucene

    ictclas4j java版 for lucene

    ictclas4j for lucene 2.4

    ictclas4j for lucene 2.4 任何人不得将此用于商业用途,仅限个人学习研究之用.该开源项目遵循Apache License 2.0

    ictclas4j分词工具包

    最好的中分分词工具ictclas 最好的中分分词工具ictclas 最好的中分分词工具ictclas

    中文分词包——ictclas4j_0.9.1.jar

    基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。

    ictclas4j

    ictclas中科院分词

    ictclas4j调整

    NULL 博文链接:https://summerbell.iteye.com/blog/1354546

    ictclas4j-.rar_FreeICTCLAS_ICTCLAS_ictclas4j_ictclas4j java

    ictclas4j java版实现,可供参考

    ictclas4j.rar_ictclas4j_ictclas4j data_www.tr4j.com_分词java_分词和标注

    本代码用java实现了分词功能,包括分词和词性标注,里面有具体的说明文档,包括数据结构的设计,分词步骤,分词系统研究等。

    ictclas4j中文分词测试

    NULL 博文链接:https://lionsadness.iteye.com/blog/689910

    ictclas4j 0.9.1 相关字典、源码、开发文档打包

    sinboy发表的ictclas4j-0.9.1版(最新)相关的字典、源码和开发文档打包

    中文分词器ictclas4j_3

    《中文分词器ictclas4j_3:深入解析与应用》 中文分词是自然语言处理中的关键步骤,尤其在中文信息检索、文本挖掘、机器翻译等领域扮演着至关重要的角色。ictclas4j_3是一款针对中文的分词工具,它基于贝叶斯公式,...

    ictclas4j开源分词系统

    java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;...我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典中的词,调节分词的效果

    ICTCLAS_api及使用方法

    **ICTCLAS API 及使用方法** ICTCLAS(信息技术-中文自动分词系统)是北京大学计算语言研究所开发的一款高效、准确的中文分词工具,它在自然语言处理领域广泛应用,尤其是在文本预处理中,如信息检索、情感分析、...

    ictclas4j 1.0.0.zip源代码

    分词结果是中/w 国/w 科/w 学/w 院/w 计/w 算/w 技/w 术/w 研/w 究/w 所/w 在/w 多/w 年/w 研/w 究/w 基/w 础/w 上/w ,/w 耗/nx 时/nx 一/nx 年/nx 研/nx 制/nx 出/nx 了/nx ICTCLAS/nx解决: 字典没导入成功,/...

    ICTCLAS中文分词系统

    8. **文档资料**:“Doc”文件夹则可能包含了详细的使用手册和技术文档,解释了系统的安装、配置、调用方法以及常见问题的解决方案。 在实际应用中,ICTCLAS可以应用于搜索引擎优化、文本分析、情感分析、机器翻译...

    ictclas4j.rar_ICTCLAS_ictclas4j_www.tr4j.com_标注

    ictclas进行文本词汇标注,可直接运行 主函数在postag类

    ictclas4j.doc.rar_doc_ictclas4j

    ictcasj 中文分词技术 有详细的说明

    给ictclas4j写的gui demo

    在左边的文本框中输入要分词的中文,单击“分词”按钮,可以在右边生成分词后的文本。... sinboy写的ictclas4j有一个gui函数是空的。为了抛砖引玉,写了一个gui demo,很简单。 写给0.9版本的,0.9.1已经有gui了

    ICTCLAS中文分词论文收集

    首先,"基于N-最短路径方法的中文词语粗分模型",这是一种利用图论中的N-最短路径算法来解决中文分词问题的方法。N-最短路径考虑了多个可能的分词结果,并通过计算每个路径的代价来选择最优的分词方式。这种方法通常...

Global site tag (gtag.js) - Google Analytics