`

hanlp和jieba等六大中文分工具的测试对比

 
阅读更多

 

 

 

 

 

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULACjiebaFoolNLTKHanLP这六大中文分词工具是由  ...琥珀完成的。相关测试的文章之前也看到过一些,但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友!

 

安装调用

 

jieba“结巴”中文分词:做最好的 Python 中文分词组件

 

THULAC清华大学:一个高效的中文词法分析工具包

 

FoolNLTK可能不是最快的开源中文分词,但很可能是最准的开源中文分词

 

教程:FoolNLTK HanLP使用

 

HanLP最高分词速度2,000万字/

 

**中科院 Ictclas 分词系统 - NLPIR汉语分词系统

 

哈工大 LTP

 

LTP安装教程[python 哈工大NTP分词安装pyltp 及配置模型(新)]

 

如下是测试代码及结果

 

 

 



 

 

下面测试的文本上是极易分词错误的文本,分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下,分词器的宣传语是否得当吧。

 

 

 

 

 



 

 

jieba 中文分词

 

 

 



 

 

 

 

thulac 中文分词

 

 

 



 

 

fool 中文分词

 

 

 



 

 

HanLP 中文分词

 

 

 



 

 

中科院分词 nlpir

 

 

 



 

 

哈工大ltp 分词

 

 

 



 

 

以上可以看出分词的时间,为了方便比较进行如下操作:

 

 

 

分词效果对比

 



 

 

 

 

 

 

 

 

 

 

结果为:

 



 

 

 



 

 

 

 

 

 

 

 

 

总结:

 

1.时间上(不包括加载包的时间),对于相同的文本测试两次,四个分词器时间分别为:

 

jieba:      0.016992330551147461.8318662643432617

 

thulac          10.118737936019897    8.155954599380493

 

fool      2.227612018585205       2.892209053039551      

 

HanLP 3.6987085342407227    1.443108320236206

 

中科院nlpir0.002994060516357422

 

哈工大ltp_ 0.09294390678405762

 

可以看出平均耗时最短的是中科院nlpir分词,最长的是thulac,时间的差异还是比较大的。

 

2.分词准确率上,通过分词效果操作可以看出

 

第一句:结婚的和尚未结婚的确实在干扰分词啊

 

四个分词器都表现良好,唯一不同的是fool将“干扰分词”合为一个词

 

第二句:汽水不如果汁好喝,重点在“不如果”,“”不如“”和“”如果“”在中文中都可以成词,但是在这个句子里是不如与果汁正确分词

 

jieba  thulac fool HanLP

 

jieba fool HanLP正确  thulac错误

 

第三句:小白痴痴地在门前等小黑回来,体现在人名的合理分词上

 

正确是:

 

小白/ 痴痴地/ / 门前/ / 小黑/ 回来

 

jieba fool HanLP正确,thulac在两处分词错误:小白_np 痴痴_a _u _p 门前_s _u _a 黑回_n _f

 

第四句:是有关司法领域文本分词

 

发现HanLP的分词粒度比较大,fool分词粒度较小,导致fool分词在上有较大的误差。在人名识别上没有太大的差异,在组织机构名上分词,分词的颗粒度有一些差异,Hanlp在机构名的分词上略胜一筹。

 

六种分词器使用建议:

 

对命名实体识别要求较高的可以选择HanLP,根据说明其训练的语料比较多,载入了很多实体库,通过测试在实体边界的识别上有一定的优势。

 

中科院的分词,是学术界比较权威的,对比来看哈工大的分词器也具有比较高的优势。同时这两款分词器的安装虽然不难,但比较jieba的安装显得繁琐一点,代码迁移性会相对弱一点。哈工大分词器pyltp安装配置模型教程

 

结巴因为其安装简单,有三种模式和其他功能,支持语言广泛,流行度比较高,且在操作文件上有比较好的方法好用python -m jieba news.txt > cut_result.txt

 

对于分词器的其他功能就可以在文章开头的链接查看,比如说哈工大的pyltp在命名实体识别方面,可以输出标注的词向量,是非常方便基础研究的命名实体的标注工作。

 

 

 



 

 

精简文本效果对比

 

 

 

 

 

 



 

  

 

 

 

 

 

 

 

 

 

  • 大小: 23.4 KB
  • 大小: 92.4 KB
  • 大小: 161 KB
  • 大小: 196.5 KB
  • 大小: 187.4 KB
  • 大小: 205.5 KB
  • 大小: 208.4 KB
  • 大小: 201.9 KB
  • 大小: 170.1 KB
  • 大小: 154.2 KB
  • 大小: 136.1 KB
  • 大小: 214.1 KB
  • 大小: 213.2 KB
  • 大小: 419.6 KB
  • 大小: 114.9 KB
  • 大小: 92.8 KB
  • 大小: 134.5 KB
  • 大小: 167.9 KB
分享到:
评论

相关推荐

    NLPIR、pyltp、jieba、hanlp、snownlp分词工具安装使用记录

    最近适用了这五款分词工具,光是下载安装就踩了很多坑,特别是pyltp和hanlp,装到我怀疑人生。 以下是整理的安装过程和注意事项。 希望能给大家提供些帮助。 目录一、Nlpir第一步:下载工具。第二步:下载后,解压,...

    hanlp,jieba,nlpir分词工具安装报错完全解决方案.docx

    ### hanlp、jieba、nlpir 分词工具安装报错完全解决方案 #### 一、hanlp 安装问题分析及解决方案 **Windows环境分析:** 针对hanlp在Windows下的安装问题,我们需要关注以下几个方面: 1. **Python环境要求**:...

    jieba分词工具包下载

    jieba分词工具是Python中广泛使用的中文分词库,尤其在自然语言处理(NLP)领域中扮演着重要角色。这个工具包提供了一个高效、易用的接口,能够对中文文本进行精确、全模式和搜索引擎模式的分词。jieba库支持动态...

    Jieba分词工具的使用

    jieba是一个高效、易用的中文分词库,能够帮助开发者轻松地对中文文本进行分词、词性标注、关键词提取等操作。本文将详细介绍jieba分词工具的使用,包括基本分词、返回词位置以及自定义词典的创建与应用。 一、分词...

    jieba停用词分词表

    jieba停用词分词表

    Python Jieba中文分词工具实现分词功能

    Python Jieba中文分词工具实现分词功能,Python Jieba中文分词工具实现分词功能

    基于lucene和jieba分词的文档查重工具类

    基于lucene和jieba的查重工具类,自行扩展字段级停止词库

    jieba分词词典和停用词

    综上所述,jieba分词库通过其高效的分词算法、丰富的词典和停用词表,为中文文本处理提供了一套强大的工具。结合`jieba_dict`等资源,我们可以构建出更精准、高效的文本分析系统,满足各种自然语言处理需求。

    jieba-0_jieba安装0.4.1_jieba-0.42.1.tar_jieba-0.42.1.tar.gz_jieba-

    jieba,被誉为“结巴”,是Python社区中广泛使用的中文分词库,它以其高效、易用的特点,深受开发者喜爱。jieba分词组件的主要功能是对中文文本进行分词,这是自然语言处理(NLP)中的基础步骤,对于信息检索、文本...

    jieba 0.42.1中文分词

    jieba是Python编程语言中的一款著名中文分词库,它为开发者提供了强大的中文处理能力,尤其是在文本分析、自然语言处理等领域。版本0.42.1是jieba的一个更新版本,可能包含了一些优化和改进,以提升性能和用户体验。...

    jieba分词jar包

    jieba分词jar包是一个专为Java开发者设计的中文分词工具包,它在处理中文文本时具有高效、准确的特点。jieba分词基于著名的Python版本的jieba库,为Java环境提供了同样的功能,使得Java开发者能够方便地进行中文文本...

    使用jieba进行关键字抽取

    在Python的世界里,jieba库是一个非常流行的工具,专门用于处理中文文本,特别是中文分词和关键词抽取。本文将深入探讨如何使用jieba库来实现高效、精准的关键字抽取,帮助你更好地理解和应用这一强大的技术。 ...

    jieba结巴分词.zip

    总的来说,jieba结巴分词是Python环境下处理中文文本的强大工具,其高效的算法和丰富的功能使其在众多分词库中脱颖而出。通过理解jieba的工作原理,结合实践操作,开发者能够更好地利用这一工具,提升中文文本处理的...

    jieba分词java版项目

    jieba分词是中文处理领域的一个著名...综上所述,jieba分词Java版项目提供了一种在Java环境下进行中文分词的解决方案,通过Eclipse导入并运行测试,你可以快速了解和使用这个工具,为你的中文信息处理任务带来便利。

    python的jieba功能

    jieba库是Python中用于中文分词的流行工具,它为处理中文文本提供了强大的支持。在Python的世界里,面对中文处理的挑战,jieba库以其高效、易用的特点,成为了许多开发者的选择。下面将详细介绍jieba的功能、使用...

    jieba-0.42版集合包.rar

    它的主要功能是对中文文本进行精确、全模式、最短路径等多种分词方式的处理,同时支持用户自定义词典,极大地提高了中文信息处理的效率和准确性。0.42版的jieba集合包包含了两个不同版本的源代码,即jieba-0.42.1....

    dotnet-jieba中文分词NETCore版

    《深入理解dotnet-jieba中文分词NETCore版:构建高效中文处理工具》 在当今信息化社会,中文处理技术愈发重要,特别是在自然语言处理、搜索引擎优化、文本挖掘等领域。dotnet-jieba是一个专门为.NET Core平台打造的...

    jieba中文分词

    《jieba中文分词:深度解析与应用》 jieba是一个强大的开源中文分词库,专为处理中文文本而设计。在Python编程语言中,它以其高效、灵活和易用的特点,深受广大开发者喜爱。本篇文章将深入探讨jieba分词的工作原理...

    jieba分词的词性对照表(采用和ictclas兼容的标记法).docx

    jieba的词性标注采用了与ictclas(NLPIR)兼容的标记法,这是一种标准化的词性标记系统,方便了不同工具之间的数据交换和分析。 在jieba的词性标注体系中,每个词都被赋予了一个特定的标签,这些标签按照词性的英文...

    jieba结巴分词 支持lucene5

    jieba分词库是中文处理领域的一个非常知名的开源项目,由李航开发并维护,它的全名叫做"结巴分词",寓意“快速而准确地进行中文分词”。这个名字既俏皮又形象,反映了其在中文文本处理中的高效与精准。jieba支持多种...

Global site tag (gtag.js) - Google Analytics