`

Ansj与hanlp分词工具对比

 
阅读更多

 

一、Ansj

1、利用DicAnalysis可以自定义词库:

 



 

2、但是自定义词库存在局限性,导致有些情况无效:

比如:“不好用“的正常分词结果:“不好,用”。

 

1)当自定义词库”好用“时,词库无效,分词结果不变。

2)当自定义词库

“不好用”时,分词结果为:“不好用”,即此时自定义词库有效。

 

3、由于版本问题,可能DicAnalysis, ToAnalysis等类没有序列化,导致读取hdfs数据出错

此时需要继承序列化接口

  

 1|case class myAnalysis() extends DicAnalysis with Serializable  

   2|val seg = new myAnalysis()

 

二、HanLP

同样可以通过CustomDictionary自定义词库:

 



 

但是在统计分词中,并不保证自定义词典中的词一定被切分出来,因此用户可在理解后果的情况下通过

 

 1|StandardTokenizer.SEGMENT.enableCustomDictionaryForcing(true)强制生效

 

并发问题:

CustomDictionary是全局变量,不能在各节点中更改,否则会出现并发错误。

但是HanLP.segment(sentence),只有一个参数,不能指定CustomDictionary,导致在各个excutors计算的时候全局CustomDictionary无效。

由于CustomDictionary是全局变量,因此我采用一个方式:每个分区都对CustomDictionary加锁并添加一次词库,性能影响较小:

 



 

原文链接:https://blog.csdn.net/weixin_40901056/article/details/89349095

 

  • 大小: 74.4 KB
  • 大小: 17.9 KB
  • 大小: 96.4 KB
分享到:
评论

相关推荐

    ansj中文分词工具

    **ansj中文分词工具**是一款专为处理中文文本而设计的开源分词库,尤其在2015年时,其在Java开发领域中备受瞩目。作为一个专业的IT大师,我将详细介绍ansj分词工具及其在Java工程中的应用。 **一、ansj分词工具概述...

    ansj elasticsearch 分词插件

    ansj elasticsearch 分词

    Ansj分词工具包

    用途1 新建项目——>将ansj_seg-5.1.5.jar、nlp-lang-1.7.7.jar导入项目中。即可使用。 用途2 示例程序 1.1 将程序源码导入到Myeclipse中 1.2 此时,程序中自带的jar包路径可能不正确,须将两个jar包删除,然后...

    ansj分词ansj_seg-5.1.5.jar

    ANSJ分词库,全称“Anyang Standard Segmentation”,是由李东创建的一个高性能的Java实现的中文分词工具。它提供了强大的分词功能,适用于多种场景,如搜索引擎、文本挖掘等。本文将深入探讨ANSJ分词库以及如何结合...

    Ansj中文分词(强大)

    Ansj中文分词是一款纯Java、主要用于自然语言处理、高精度的中文分词工具,目标是“准确、高效、自由地进行中文分词”。 内容简介:http://www.iteye.com/magazines/102#234 此分词具有自己学习的功能,所以拜托大家...

    ansj中文分词器源码

    ansj中文分词器是由ansj工作室开发的一款高效、精准的中文处理工具,它以其快速的分词速度和较高的准确率在业界获得了广泛的认可。在Mac Air这样的轻薄型设备上,ansj分词器的性能表现尤为突出,可以达到每秒钟处理...

    ansj词典加载及简要分词过程

    《ansj词典加载与简要分词过程详解》 在中文自然语言处理领域,分词是基础且关键的一环。ansj库是一款高效的中文分词工具,它以其丰富的词典资源和高效的分词算法,被广泛应用于各种文本处理任务中。本文将深入探讨...

    ANSJ分词工具最新版

    **ANSJ分词工具最新版** ANSJ分词工具是一款高效、开源的中文分词库,由孙健老师开发并维护。它在处理中文文本时,能够将连续的汉字序列切分成具有语义的词汇单元,是自然语言处理(NLP)领域中不可或缺的基础组件...

    ansj elasticsearch 独立分词插件

    **Elasticsearch与分词** Elasticsearch是一个基于Lucene的搜索服务器,广泛应用于日志分析、全文检索、数据挖掘等领域。ES的核心功能之一就是全文索引,而中文分词是实现全文索引的关键步骤。由于ES默认的分词器对...

    ANSJ中文分词器

    aAnsj中文分词 这是一个ictclas的java实现.基本上重写了所有的数据结构和算法.词典是用的开源版的ictclas所提供的.并且进行了部分的人工优化 内存中中文分词每秒钟

    word分词器、ansj分词器、mmseg4j分词器、ik-analyzer分词器分词效果评估

    本话题将深入探讨四种常用的Java分词工具:word分词器、ansj分词器、mmseg4j分词器以及ik-analyzer,以及它们在实际应用中的效果评估。 首先,ansj分词器是由李弄潮开发的一款开源分词工具,它具有强大的词典支持和...

    Ansj中文分词

    Ansj中文分词是一个完全开源的、基于Google语义模型+条件随机场模型的中文分词的Java实现,具有使用简单、开箱即用等特点。 Ansj分词速度达到每秒钟大约100万字左右(Mac Air下测试),准确率能达到96%以上。 ...

    springMVC+ansj中文分词

    "ansj中文分词"是针对中文文本处理的重要工具。中文分词是NLP的基础任务,因为中文没有明显的词边界,需要通过算法来识别词语。Ansj分词库由纳兰志祥开发,支持歧义消除、新词识别等功能,广泛应用于搜索引擎、情感...

    ansj分词、关键词匹配

    "ansj分词、关键词匹配"是这个主题的核心,它涉及到自然语言处理(NLP)的技术,特别是中文分词。分词是将连续的汉字序列切分成具有语义的词汇单位,它是中文信息处理的基础。Ansj,全名“ANSJ Library”,是由李航...

    ansj分词工具所需jar包(最新)

    这是目前来说最新的ansj分词jar包,导入即可使用

    ansj分词器手册

    ansj分词.ict的真正java实现.分词效果速度都超过开源版的ict. 中文分词,人名识别,词性标注,用户自定义词典

    TestFenci.zip_ansj_分词

    "TestFenci.zip_ansj_分词"是一个Java分词测试程序,它利用了开源的分词工具Ansj进行测试。下面我们将深入探讨Ansj分词库及其在Java环境中的应用。 Ansj,全称“AnyThink NLP”,是由李新宇开发的一个开源中文分词...

    ansj5.0.1 分词jar包

    ansj5.0.1分词jar包

    分词工具ANSJ 1.3版本

    具体描述请看这里http://ansjsun.github.io/ansj_seg/ 这是最新的ANSJ版本,需要配合另一个tree-split jar包使用,请从这里下载:http://maven.ansj.org/org/ansj/

Global site tag (gtag.js) - Google Analytics