`

史上最全中文分词工具整理

 
阅读更多

 

一.中文分词

 



 

二.准确率评测:

THULAC:与代表性分词软件的性能对比

我们选择LTP-3.2.0 、ICTCLAS(2015版) 、jieba(C++版)等国内具代表性的分词软件与THULAC做性能比较。我们选择Windows作为测试环境,根据第二届国际汉语分词测评(The SecondInternational Chinese Word Segmentation Bakeoff)发布的国际中文分词测评标准,对不同软件进行了速度和准确率测试。

 

在第二届国际汉语分词测评中,共有四家单位提供的测试语料(Academia Sinica、 City University 、Peking University 、MicrosoftResearch), 在评测提供的资源icwb2-data中包含了来自这四家单位的训练集(training)、测试集(testing), 以及根据各自分词标准而提供的相应测试集的标准答案(icwb2-data/scripts/gold).在icwb2-data/scripts目录下含有对分词进行自动评分的perl脚本score。

我们在统一测试环境下,对上述流行分词软件和THULAC进行了测试,使用的模型为各分词软件自带模型。THULAC使用的是随软件提供的简单模型Model_1。评测环境为 Intel Core i5 2.4 GHz 评测结果如下:



 

 

除了以上在标准测试集上的评测,我们也对各个分词工具在大数据上的速度进行了评测,结果如下:

 

 

CNKI_journal.txt(51 MB)



 

 

分词数据准备及评测由BosonNLP完成:11 款开放中文分词引擎大比拼(2015年发布)

分词的客观量化测试离不开标注数据,即人工所准备的分词“标准答案”。在数据源方面,我们将测试分为: 1.新闻数据:140篇,共30517词语; 2.微博数据:200篇,共12962词语; 3.汽车论坛数据(汽车之家)100篇:共27452词语; 4.餐饮点评数据(大众点评):100条,共8295词语。

 

准确度计算规则:

将所有标点符号去除,不做比较

参与测试的部分系统进行了实体识别,可能造成词语认定的不统一。我们将对应位置替换成了人工标注的结果,得到准确率估算的上界。

经过以上处理,用SIGHAN 分词评分脚本比较得到最终的准确率,召回率和F1值。

以上所有数据采用北大现代汉语基本加工规范对所有数据进行分词作为标准。具体数据下载地址请参见附录。通过这四类数据综合对比不同分词系统的分词准确度。

 



 

 

 

  • 大小: 130.8 KB
  • 大小: 69.8 KB
  • 大小: 302 KB
  • 大小: 148.2 KB
分享到:
评论

相关推荐

    中文分词工具类

    最新中文分词工具jar包,使用方便,分词准确,中文分析的一个不错的包

    中文分词词库整理 rar

    30万 中文分词词库.txt 42537条伪原创词库.txt 百度分词词库.txt 词库地址.txt 词库下载地址.txt

    seo优化工具-中文分词工具

    中文分词工具是SEO优化中不可或缺的工具,它专门处理中文文本,因为中文句子由汉字组成,不像英文单词之间有明显的空格分隔。中文分词就是将连续的汉字序列切分成具有语义的词汇单位,这对于理解和分析中文内容至关...

    ansj中文分词工具

    **ansj中文分词工具**是一款专为处理中文文本而设计的开源分词库,尤其在2015年时,其在Java开发领域中备受瞩目。作为一个专业的IT大师,我将详细介绍ansj分词工具及其在Java工程中的应用。 **一、ansj分词工具概述...

    lucene中文分词工具包

    Lucene是一个高性能、全文检索库,而“lucene中文分词工具包”则为Lucene提供了一个专门针对中文分词的解决方案。这个工具包的核心是IKAnalyzer,它是一个开源且基于Java语言开发的轻量级中文分词工具,旨在提升中文...

    中文分词词库整理.7z

    近年来,基于深度学习的模型如LSTM、BERT等在分词上取得了显著效果。 3. **词库的构建**:词库通常由常见词汇、专业术语、人名地名等构成,还需要包括一些成语、短语和习惯用语。构建词库时,会参考大量语料库,如...

    中文分词工具.docx

    本文将对比分析三种常用的中文分词工具:Jieba、SnowNLP 和 THULAC。 1. Jieba(结巴)中文分词 Jieba 是一个广泛使用的 Python 中文分词组件,支持 Windows 和 Linux 平台。它提供了三种切词模式: - 全模式:尽...

    自然语言处理分词_中文分词词库整理词库下载地址.txt

    中文分词处理的是将连续的中文文本切分成有意义的词汇单元,由于中文写作时词语之间没有空格分隔,所以分词是中文处理的一个难点和重要研究领域。 在进行中文分词处理时,通常会用到一系列的分词算法和词库资源。...

    最新中文分词工具的词库

    本文将详细探讨标题中提到的四款中文分词工具——IK分词、jieba分词、mmseg分词以及word分词,以及它们各自的词库特点。 1. **IK分词**:全称为“Intelligent Keyword”分词,是一款广泛应用于Java环境的开源中文...

    分词词库_中文分词词库最新整理(TXT格式)

    ### 分词词库_中文分词词库最新整理(TXT格式) #### 知识点概述 本文档将根据提供的文件信息“分词词库_中文分词词库最新整理(TXT格式)”来生成相关知识点。该文件主要包含了中文分词词库的内容,通过分析这些...

    中文分词工具包.zip

    综上所述,“中文分词工具包.zip”可能提供了从传统到现代的各种分词技术,适用于各种NLP应用场景。通过学习和使用这个工具包,开发者可以有效地处理中文文本,提升其在信息处理领域的效率和精度。

    solr6.x_IK中文分词工具

    IK中文分词工具支持多种分词模式,包括“精确模式”、“全模式”以及“最短路径模式”。精确模式主要用于保证分词的准确性,适用于新闻、论文等对分词精度要求高的场景;全模式尽可能将句子中的所有可能词汇都切分...

    中文分词工具1.0绿色免费版64位

    分词小工具是一款中文分词工具,能够将txt文件内的中文自动分词并重新排版生成一份新的txt文件。用户通过中文分词工具可将中文句子中的词汇分割开来,分词后方便用户学习和纠错等,需要的朋友赶紧下载吧。 使用方法...

    基于java的开发源码-中文分词工具包 smallseg.zip

    基于java的开发源码-中文分词工具包 smallseg.zip 基于java的开发源码-中文分词工具包 smallseg.zip 基于java的开发源码-中文分词工具包 smallseg.zip 基于java的开发源码-中文分词工具包 smallseg.zip 基于java的...

    中文分词工具

    中文分词工具是自然语言处理领域中的重要工具,主要用于将连续的汉字序列切分成具有语义意义的词汇单元。在中文文本中,由于没有明显的空格分隔,分词是进行后续诸如信息检索、文本分类、情感分析等任务的基础。LDC-...

    JE中文分词工具

    中文分词很好的工具,可以自组定制

    中文分词中文分词中文分词

    综上所述,这个压缩包提供了IK Analyzer 3.2.8版本的中文分词工具,用户可以通过阅读使用手册来了解如何集成和使用这个分词器。IK Analyzer支持自定义词典,可以根据实际需求调整分词效果,同时通过停用词表优化处理...

    中文分词词库汇总

    汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库...

    关键词分词工具(宏命令) 改进版(.rar

    在IT行业中,关键词分词工具是一项非常重要的技术,特别是在搜索引擎优化(SEO)、网络广告投放(如百度竞价)以及自然语言处理等领域。标题提到的“关键词分词工具(宏命令) 改进版”是一个专为竞价员设计的工具,...

Global site tag (gtag.js) - Google Analytics