`
小网客
  • 浏览: 1248867 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Ansj 通过List方式加入自定义词典

 
阅读更多

首先灰常感谢@ansjsun

采用Ansj对文本进行切词,并作简单统计,加入自定义词典代码如下:

 

private void loadAnsjDic() {
	List<String> dic = Utils.getDicList();
	for (int i = 0; i < dic.size(); i++) {
		UserDefineLibrary.insertWord(dic.get(i), Utils.USER_DEFINE, 1000);
		}
	}
}

 然后对文本进行切词,代码如下:

 

List<Term> list = ToAnalysis.paser(content);
for (Term term : list) {
......................your business
}

 通过对ansj和IKAnalyzer进行切词速度对比详情如下:

文本数据量:180w篇新闻

服务器:4个(配置保密)

业务操作:统计分析

其他:自定义词典为4w

耗时对比:

IKAnalyzer 4个小时没有切晚,预估要8个小时

ansj 升级之后2个小时的样子,升级前30分钟

0
2
分享到:
评论
2 楼 ansjsun 2012-11-06  
180w文章用2个小时..是不对的吧..你调整了虚拟机大小了么??如果内存太小频繁gc速度会慢很多..其他调用都没有问题...
1 楼 ansjsun 2012-11-06  
我估计你的旧的是很旧的了...

新的代码增加了人名识别和外国人名识别..所以会慢点..如果你不需要..可以把不需要的功能注释掉就ok了..在ToAnalisy 中...

相关推荐

    ansj词典加载及简要分词过程

    总的来说,ansj的词典加载和分词过程是一个高效而灵活的过程,它通过合理的数据结构和算法设计,实现了对中文文本的高效处理。无论是对于搜索引擎、信息检索,还是机器学习和自然语言理解,ansj都提供了可靠的分词...

    ansj中文分词器加载自定义crf教程.docx

    ANsj分词器是一款优秀的开源中文分词工具,它支持多种分词算法,并且可以通过加载自定义的CRF(Conditional Random Field)模型来提高分词准确度。本文将详细介绍如何使用ANsj分词器加载自定义的CRF模型,帮助读者更...

    ansj分词ansj_seg-5.1.5.jar

    它支持自定义词典,允许用户根据实际需求添加或删除词汇,提高了分词的准确性。此外,ANSJ还支持繁体分词、英文分词以及数字识别,对于混合语言的处理有显著优势。 在标题提到的"ansj_seg-5.1.5.jar"中,"seg"代表...

    ansj_seg-master

    3. 社交媒体分析:处理微博、论坛等社交媒体数据时,ansj的自定义词典功能可以有效处理网络热词。 4. 机器翻译:在机器翻译系统中,分词是预处理的关键步骤,ansj可以提高翻译质量。 五、总结 ansj分词作为一款...

    ansj_seg:ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    目前实现了中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。 可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。 maven &lt;groupId&gt;org.ansj &lt;artifactId&gt;...

    ansj 2018.11

    这种自定义方式可以确保分词结果更符合实际语境,提高分词的准确性。例如,在医学领域,可以添加专业术语,避免将“心肌梗死”误分作“心肌”和“梗死”。 三、个性化分词 ansj的个性化分词功能是其一大亮点。通过...

    ansj中文分词器源码

    4. 自定义词典:如果需要,可以增加自定义词典,覆盖或补充默认词典。 5. 扩展功能:根据需要,可以对源码进行修改,以实现特定的功能,例如优化分词算法,或者添加新的处理模块。 通过深入理解ansj分词器的源码,...

    ansj的示例代码(包括对应的Jar包)

    ansj采用了HMM(隐马尔可夫模型)和CRF(条件随机场)等算法,实现了高效且准确的分词效果,同时还支持自定义词典,以适应不同领域的分词需求。 在实际应用中,**ansj的使用**通常涉及以下步骤: 1. **引入依赖**:...

    ansj中文分词工具

    1. **丰富的词典资源**:ansj包含了大量的预训练词典,涵盖了各种专业领域,同时支持自定义扩展,可以根据特定需求添加或更新词典。 2. **动态加载**:在运行时可以动态加载或卸载词典,无需重启服务,提高了系统的...

    ansj_seg-5.1.3.jar

    目前实现了:中文分词、中文姓名识别、用户自定义词典、关键字提取、自动摘要、关键字标记等功能。可以应用到自然语言处理等方面,适用于对分词效果要求高的各种项目。作者在最新的分词方式里增加了基于深度学习的...

    ansj elasticsearch 独立分词插件

    例如,可以调整分词模式,设置自定义词典,或者通过调整插件参数来控制分词速度和准确度的平衡。此外,为了提高性能,还可以考虑将词典加载到内存中,减少磁盘I/O操作。 总结来说,"ansj elasticsearch 独立分词...

    ansj分词器手册

    ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    ansj5-2.4.5

    通常步骤包括:解压、启动Elasticsearch服务、安装ANSJ插件、配置自定义词典,然后就可以开始使用集成后的系统进行文本处理和搜索操作。 总结,ansj5-2.4.5项目通过集成ANSJ分词库,极大地增强了Elasticsearch在...

    ansj_seg.zip

    此外,ANSJ还支持用户自定义词典,能有效处理专业领域的专有名词。 二、ANSJ分词库的工作原理 1. 基于词典的分词:ANSJ首先依赖一个庞大的词汇库,这个词汇库包含了常见的汉字组合和专有名词。在分词过程中,它会...

    跟益达学Solr5之使用Ansj分词器

    除了基本的分词功能,Ansj还支持用户自定义词典,可以方便地添加行业术语或专有名词,提高分词的准确性。同时,Ansj提供了丰富的插件系统,如依存句法分析、关键词抽取等,可以在Solr中实现更复杂的文本处理任务。 ...

    ansj_seg-5.1.3

    此外,它还支持自定义词典,用户可以根据自己的需求添加专业词汇或者特定领域的术语,进一步提高分词的准确性。 在实际应用中,ansj_seg不仅可以用于普通的文本分词,还可以应用于搜索引擎的索引构建、文本分类、...

    Ansj中文分词

    ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    ansj语义分析

    1. **分词模块**:ansj采用高效的动态规划算法进行分词,如HMM(隐马尔可夫模型)和CRF(条件随机场),能够处理各种复杂的中文句子结构,同时支持自定义词典,用户可以根据实际需求添加专业术语或新词。 2. **词性...

    TestFenci.zip_ansj_分词

    此外,Ansj还包含用户自定义词典功能,可以根据实际需求添加或修改词汇。 2. **Ansj的主要特点**: - **高效性**:Ansj采用字典匹配算法,对于常见词汇能快速分词。 - **准确性**:通过不断迭代优化,Ansj的分词...

Global site tag (gtag.js) - Google Analytics