hanlp和jieba等六大中文分工具的测试对比 - hadoop小学生 - ITeye博客

`

adnb34g

浏览: 86543 次

最近访客更多访客>>

adonis_yang

海麻雀

小taomi_77

zhangly2011

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hanlp和jieba等六大中文分工具的测试对比

博客分类：

大数据
hanlp

阅读更多

本篇文章测试的哈工大LTP、中科院计算所NLPIR、清华大学THULAC和jieba、FoolNLTK、HanLP这六大中文分词工具是由水...琥珀完成的。相关测试的文章之前也看到过一些，但本篇阐述的可以说是比较详细的了。这里就分享一下给各位朋友！

安装调用

jieba“结巴”中文分词：做最好的 Python 中文分词组件

THULAC清华大学：一个高效的中文词法分析工具包

FoolNLTK可能不是最快的开源中文分词，但很可能是最准的开源中文分词

教程：FoolNLTK 及 HanLP使用

HanLP最高分词速度2,000万字/秒

**中科院 Ictclas 分词系统 - NLPIR汉语分词系统

哈工大 LTP

LTP安装教程[python 哈工大NTP分词安装pyltp 及配置模型（新）]

如下是测试代码及结果

下面测试的文本上是极易分词错误的文本，分词的效果在很大程度上就可以提现分词器的分词情况。接下来验证一下，分词器的宣传语是否得当吧。

jieba 中文分词

thulac 中文分词

fool 中文分词

HanLP 中文分词

中科院分词 nlpir

哈工大ltp 分词

以上可以看出分词的时间，为了方便比较进行如下操作：

分词效果对比

结果为：

总结：

1.时间上（不包括加载包的时间），对于相同的文本测试两次，四个分词器时间分别为：

jieba: 0.016992330551147461.8318662643432617

thulac ： 10.118737936019897 8.155954599380493

fool： 2.227612018585205 2.892209053039551

HanLP： 3.6987085342407227 1.443108320236206

中科院nlpir：0.002994060516357422

哈工大ltp_ ：0.09294390678405762

可以看出平均耗时最短的是中科院nlpir分词，最长的是thulac，时间的差异还是比较大的。

2.分词准确率上，通过分词效果操作可以看出

第一句：结婚的和尚未结婚的确实在干扰分词啊

四个分词器都表现良好，唯一不同的是fool将“干扰分词”合为一个词

第二句：汽水不如果汁好喝，重点在“不如果”，“”不如“”和“”如果“”在中文中都可以成词，但是在这个句子里是不如与果汁正确分词

jieba thulac fool HanLP

jieba、 fool 、HanLP正确 thulac错误

第三句：小白痴痴地在门前等小黑回来，体现在人名的合理分词上

正确是：

小白/ 痴痴地/ 在/ 门前/ 等/ 小黑/ 回来

jieba、 fool 、HanLP正确，thulac在两处分词错误：小白_np 痴痴_a 地_u 在_p 门前_s 等_u 小_a 黑回_n 来_f

第四句：是有关司法领域文本分词

发现HanLP的分词粒度比较大，fool分词粒度较小，导致fool分词在上有较大的误差。在人名识别上没有太大的差异，在组织机构名上分词，分词的颗粒度有一些差异，Hanlp在机构名的分词上略胜一筹。

六种分词器使用建议：

对命名实体识别要求较高的可以选择HanLP，根据说明其训练的语料比较多，载入了很多实体库，通过测试在实体边界的识别上有一定的优势。

中科院的分词，是学术界比较权威的，对比来看哈工大的分词器也具有比较高的优势。同时这两款分词器的安装虽然不难，但比较jieba的安装显得繁琐一点，代码迁移性会相对弱一点。哈工大分词器pyltp安装配置模型教程

结巴因为其安装简单，有三种模式和其他功能，支持语言广泛，流行度比较高，且在操作文件上有比较好的方法好用python -m jieba news.txt > cut_result.txt

对于分词器的其他功能就可以在文章开头的链接查看，比如说哈工大的pyltp在命名实体识别方面，可以输出标注的词向量，是非常方便基础研究的命名实体的标注工作。

精简文本效果对比

查看图片附件

分享到：

开源自然语言处理工具包hanlp中CRF分词实 ... | Java利用hanlp完成语句相似度分析的案例详 ...

2019-02-26 13:58
浏览 496
评论(0)
分类:编程语言
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

NLPIR、pyltp、jieba、hanlp、snownlp分词工具安装使用记录: 最近适用了这五款分词工具，光是下载安装就踩了很多坑，特别是pyltp和hanlp，装到我怀疑人生。以下是整理的安装过程和注意事项。希望能给大家提供些帮助。目录一、Nlpir第一步：下载工具。第二步：下载后，解压，...

hanlp,jieba,nlpir分词工具安装报错完全解决方案.docx: ### hanlp、jieba、nlpir 分词工具安装报错完全解决方案 #### 一、hanlp 安装问题分析及解决方案 **Windows环境分析：** 针对hanlp在Windows下的安装问题，我们需要关注以下几个方面： 1. **Python环境要求**：...

jieba分词工具包下载: jieba分词工具是Python中广泛使用的中文分词库，尤其在自然语言处理（NLP）领域中扮演着重要角色。这个工具包提供了一个高效、易用的接口，能够对中文文本进行精确、全模式和搜索引擎模式的分词。jieba库支持动态...

Jieba分词工具的使用: jieba是一个高效、易用的中文分词库，能够帮助开发者轻松地对中文文本进行分词、词性标注、关键词提取等操作。本文将详细介绍jieba分词工具的使用，包括基本分词、返回词位置以及自定义词典的创建与应用。一、分词...

jieba停用词分词表: jieba停用词分词表

Python Jieba中文分词工具实现分词功能: Python Jieba中文分词工具实现分词功能，Python Jieba中文分词工具实现分词功能

jieba分词词典和停用词: 综上所述，jieba分词库通过其高效的分词算法、丰富的词典和停用词表，为中文文本处理提供了一套强大的工具。结合`jieba_dict`等资源，我们可以构建出更精准、高效的文本分析系统，满足各种自然语言处理需求。

jieba-0_jieba安装0.4.1_jieba-0.42.1.tar_jieba-0.42.1.tar.gz_jieba-: jieba，被誉为“结巴”，是Python社区中广泛使用的中文分词库，它以其高效、易用的特点，深受开发者喜爱。jieba分词组件的主要功能是对中文文本进行分词，这是自然语言处理（NLP）中的基础步骤，对于信息检索、文本...

dotnet-jieba中文分词NETCore版: 《深入理解dotnet-jieba中文分词NETCore版：构建高效中文处理工具》在当今信息化社会，中文处理技术愈发重要，特别是在自然语言处理、搜索引擎优化、文本挖掘等领域。dotnet-jieba是一个专门为.NET Core平台打造的...

jieba结巴分词.zip: 总的来说，jieba结巴分词是Python环境下处理中文文本的强大工具，其高效的算法和丰富的功能使其在众多分词库中脱颖而出。通过理解jieba的工作原理，结合实践操作，开发者能够更好地利用这一工具，提升中文文本处理的...

jieba 0.42.1中文分词: jieba是Python编程语言中的一款著名中文分词库，它为开发者提供了强大的中文处理能力，尤其是在文本分析、自然语言处理等领域。版本0.42.1是jieba的一个更新版本，可能包含了一些优化和改进，以提升性能和用户体验。...

jieba分词jar包: jieba分词jar包是一个专为Java开发者设计的中文分词工具包，它在处理中文文本时具有高效、准确的特点。jieba分词基于著名的Python版本的jieba库，为Java环境提供了同样的功能，使得Java开发者能够方便地进行中文文本...

使用jieba进行关键字抽取: 在Python的世界里，jieba库是一个非常流行的工具，专门用于处理中文文本，特别是中文分词和关键词抽取。本文将深入探讨如何使用jieba库来实现高效、精准的关键字抽取，帮助你更好地理解和应用这一强大的技术。 ...

jieba分词java版项目: jieba分词是中文处理领域的一个著名...综上所述，jieba分词Java版项目提供了一种在Java环境下进行中文分词的解决方案，通过Eclipse导入并运行测试，你可以快速了解和使用这个工具，为你的中文信息处理任务带来便利。

Jieba中文分词插件elasticsearch-jieba-plugin.zip: elasticsearch-jieba-plugin 是 Jieba 中文分词插件。试用 Elasticsearch 5.1.2 版本，基于 huaban 开源的的 jieba java 实现。使用checkout tag: v5.1.2git checkout v5.1.2运行gradle buildPluginZip创建 ...

python的jieba功能: jieba库是Python中用于中文分词的流行工具，它为处理中文文本提供了强大的支持。在Python的世界里，面对中文处理的挑战，jieba库以其高效、易用的特点，成为了许多开发者的选择。下面将详细介绍jieba的功能、使用...

jieba-0.42版集合包.rar: 它的主要功能是对中文文本进行精确、全模式、最短路径等多种分词方式的处理，同时支持用户自定义词典，极大地提高了中文信息处理的效率和准确性。0.42版的jieba集合包包含了两个不同版本的源代码，即jieba-0.42.1....

jieba 中文分词服务 Go语言版.zip: 总结起来，将jieba的中文分词服务移植到Go语言，不仅能为Go开发者提供强大的中文处理工具，还能促进跨语言的代码复用和项目协作，进一步推动整个技术生态的发展。而这个过程充满了挑战，包括算法的理解、数据结构的...

jieba.NET-master(2)_jieba分词_C#_: jieba.NET-master 是一个针对C#开发的项目，实现了对中文文本进行分词的功能，它是在C#中对著名的开源中文分词库“结巴分词”（jieba）的一个移植。结巴分词最初是为Python设计的，因其高效且易用的特点，广泛应用于...

jieba-0.42.1.zip: 《jieba-0.42.1.zip》是一款与机器学习相关的压缩包，其中包含了用于中文分词的jieba库的0.42.1版本。jieba是一个广泛应用于Python编程语言中...通过理解并掌握jieba的使用，可以极大地提升处理中文文本的效率和质量。

Global site tag (gtag.js) - Google Analytics