0 0

内存不够用了...IKAnalyzer加载扩展词典30W条,Dictionary类就占用了70多M内存?这是否正常5

如题,我在扩展词典中存入了30W条词条,文本大小13M多,加载到Dictionary中之后,加上IK自带的25W词条,占用了70多M内存,这个是否正常?
2014年6月05日 23:17
目前还没有答案

相关推荐

    org.wltea.analyzer.lucene.IKAnalyzer jar

    solr的IK分词器JAR及配置文件 jar包和配置文件的放置位置不一样,详情可搜索 IK Analyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。 org.wltea.analyzer.lucene.IKAnalyzer jar

    IKAnalyzer配置文件、扩展词典和停用词词典.zip

    这个压缩包文件包含的是IKAnalyzer的配置文件、扩展词典和停用词词典,这些组件对于优化IKAnalyzer的性能和精确度至关重要。 1. **IKAnalyzer.cfg.xml**:这是IKAnalyzer的核心配置文件,用于设定分词器的行为和...

    IKAnalyzer3.2.5Stable.jar

    这种格式的文件通常包含了IKAnalyzer的所有源代码、类文件和其他资源,使得用户可以直接引入到自己的项目中使用,而无需进行编译过程。 IKAnalyzer的主要功能是提供中文分词服务,它采用了词典和基于统计的分词方法...

    关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见

    ### 关于IKAnalyzer3.2.8扩展词典配置的个人心得和意见 #### 一、IKAnalyzer简介 IKAnalyzer是一款高性能的基于Java语言的中文分词组件,它被广泛应用于搜索引擎、内容管理系统以及各类需要进行中文文本处理的应用...

    solr5.5.x的中文分词IKAnalyzer

    标题 "solr5.5.x的中文分词IKAnalyzer" 指的是在Apache Solr 5.5.x版本中使用IKAnalyzer进行中文文本的分词处理。Solr是一款流行的开源搜索服务器,它允许对大量数据进行高效、复杂的全文检索。而中文分词是中文文本...

    IKAnalyzer6.5.0.jar

    1. **分词算法**:IK Analyzer 使用了基于正向最大匹配(Forward Maximum Matching, FMM)和逆向最大匹配(Backward Maximum Matching, BMM)的混合策略进行分词,同时支持用户自定义词典和动态扩展词典,以适应不断...

    IKAnalyzer2012完整分发包

    1. 《IKAnalyzer中文分词器V2012使用手册》(即本文档) 2. IKAnalyzer2012.jar(主jar包) 3. IKAnalyzer.cfg.xml(分词器扩展配置文件) 4. stopword.dic(停止词典) 5. LICENSE.TXT ; NOTICE.TXT (apache...

    IKAnalyzer-5.0.jar及solr-analyzer-extra-5.3.jar

    标题中的"IKAnalyzer-5.0.jar"和"solr-analyzer-extra-5.3.jar"是两个在中文搜索引擎系统Solr中常见的组件,主要用于处理中文分词问题。这两个组件在构建高性能的中文搜索解决方案中扮演着至关重要的角色。 首先,...

    ik-analyzer-solr7.zip

    JAR库文件(如`ik-analyzer.jar`)则需要添加到Solr的类路径中,以便在运行时能够加载和使用分词器。字典文件通常包含预定义的词汇,用于分词和识别特定的词语。 使用IKAnalyzer的步骤大致如下: 1. 下载并解压"ik...

    IKAnalyzer2012_FF_hf1.jar

    解决lucene4.0与IKAnalyzer的冲突。解决Exception in thread "main" java.lang.VerifyError: class org.wltea.analyzer.lucene.IKAnalyzer overrides final method tokenStream.(Ljava/lang/String;Ljava/io/Reader;...

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载

    IKAnalyzer 分词器所需要的停用词词典 ext_stopword.dic 下载 Solr中使用IK-Analyzer实现中文分词器的配置详情 : http://blog.csdn.net/hello_world_qwp/article/details/78890904

    ik-analyzer-8.5.0-jar

    ik-analyzer采用基于词典的分词方法,配合动态词典加载和灵活的扩展策略。它首先会加载词典,然后通过扫描输入文本,对每个字符进行判断,如果形成一个已知的词语,则将其添加到结果列表中。同时,ik-analyzer还支持...

    IKAnalyzer需要的文件.zip

    这个压缩包“IKAnalyzer需要的文件.zip”包含了IKAnalyzer运行时必要的配置文件,具体包括`hotword.dic`、`IKAnalyzer.cfg.xml`和`stopword.dic`这三个文件。 首先,我们来详细了解一下这些文件的作用: 1. **hot...

    IKAnalyzer2012FF_hf1.zip

    虽然压缩包内的文件列表只给出了"test",这可能是一个测试文件或者目录,用于验证IK Analyzer与FastDFS集成后的功能是否正常。在实际使用中,这个文件或目录可能包含各种配置文件、样例数据或者测试脚本。例如,可能...

    模糊查询-lucene-IKAnalyzer

    IKAnalyzer支持自定义词典,可以根据实际需求扩展分词效果。 模糊查询是Lucene中的一个重要特性,它允许用户输入部分关键词或者使用通配符来进行搜索。例如,用户可以输入"计算*"来查找所有以"计算"开头的词汇。在...

    IKAnalyzer 支持高版本最新Lucene 5.x、6.x、7.x

    - 将IKAnalyzer的jar包添加到项目的类路径中,然后在配置文件中指定使用IKAnalyzer作为分词器。 - 对于Lucene,需要在分析器配置中引用IKAnalyzer,并设置相应的词典路径。 - 对于Solr,需要在schema.xml中定义...

    IKAnalyzer3.2.5Stable

    IKAnalyzer 非常不错的分词器,JAVA版本

    IKAnalyzer.zip

    这个压缩包"IKAnalyzer.zip"包含了IKAnalyzer 2012_u6版本,它是针对Lucene 3.6版本优化的,能够解决在使用过程中可能出现的`java.lang.AbstractMethodError`错误。 首先,让我们深入了解一下Lucene。Lucene是...

    IKAnalyzer2012.jar

    IKAnalyzer2012.jar 中文分词包

    IKAnalyzer.rar

    1. **灵活的词典管理**:IKAnalyzer支持动态加载词典,可以根据业务需求添加或更新词典,提升分词效果。例如,对于新闻、论坛等实时性较高的应用场景,可以通过实时更新词典来应对新出现的热词。 2. **智能切词算法...

Global site tag (gtag.js) - Google Analytics