`
tiansoft
  • 浏览: 175562 次
  • 性别: Icon_minigender_1
  • 来自: 重庆
社区版块
存档分类
最新评论

4款开源的中文分词系统

阅读更多
中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来 分隔,因而中文分词的难点在于如何准确而又快速地进行分词。以下介绍4款开源中文分词系统。

1、ICTCLAS – 全球最受欢迎的汉语分词系统



中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系 统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典;支持繁体中文;支持GBK、UTF-8、UTF-7、 UNICODE等多种编码格式。我们先后精心打造五年,内核升级6次,目前已经升级到了ICTCLAS3.0。ICTCLAS3.0分词速度单机 996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M,是当前世界上最好的汉语词法分析器。

系统平台:Windows

开发语言:C/C++、Java、C#

使用方式:dll调用

演示网址:http://ictclas.org/test.html

开源官网:http://ictclas.org

晴枫附注:ICTCLAS有共享版、商业版、行业版,支持Linux平台,但不开源。ICTCLAS已进入商用,且应用范围较广,相信分词效率出 色。

2、HTTPCWS – 基于HTTP协议的开源中文分词系统
HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。

ICTCLAS是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标 注;命名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。

ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人补充的一个19万条词语的自定义词库,对ICTCLAS分词结果进行合并 处理,输出最终分词结果。

由于 ICTCLAS 3.0 2009 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用iconv函数转换成GBK编码,再用httpcws进行分词处理,最后转换回 UTF-8编码。

HTTPCWS 软件自身(包括httpcws.cpp源文件、dict/httpcws_dict.txt自定义词库)采用NewBSD开源协议,可以自由修改。 HTTPCWS 使用的 ICTCLAS 共享版 API 及 dict/Data/ 目录内的语料库,版权及著作权归中国科学院计算技术研究所、ictclas.org所有,使用需遵循其相关协议。
系统平台:Linux

开发语言:C++

使用方式:HTTP服务

演示网址:http://blog.s135.com/demo/httpcws/

开源官网:http://blog.s135.com/httpcws_v100/

晴枫附注:基于ICTCLAS,增加了19万条词语的扩展词库,并且构建成HTTP服务的方式,使用上更加便捷。

3、SCWS – 简易中文分词系统


SCWS 在概念上并无创新成分,采用的是自行采集的词频词典,并辅以一定程度上的专有名称、人名、地名、数字年代等规则集,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些中小型搜索引擎、关键字提取等场合运用。 SCWS 采用纯 C 代码开发,以 Unix-Like OS 为主要平台环境,提供共享函数库,方便植入各种现有软件系统。此外它支持 GBK,UTF-8,BIG5 等汉字编码,切词效率高。

系统平台:Windows/Unix

开发语言:C

使用方式:PHP扩展

演示网址:http://www.ftphp.com/scws/demo.php

开源官网:http://www.ftphp.com/scws/

晴枫附注:作为PHP扩展,容易与现有的基于PHP架构的Web系统继续集成,是其一大优势。

4、PhpanAlysis - PHP无组件分词系统

PhpanAlysis分词系统是基于字符串匹配的分词方法 ,这种方法又叫做机械分词方法,它是按照一定的策略将待分析的汉字串与一个“充分大的”机器词典中的词条进行配,若在词典中找到某个字符串,则匹配成功 (识别出一个词)。按照扫描方向的不同,串匹配分词方法可以分为正向匹配 和逆向匹配;按照不同长度优先匹配的情况,可以分为最大(最长)匹配和最小(最短)匹配;按照是否与词性标注过程相结合,又可以分为单纯分词方法和分词与 标注相结合的一体化方法。

系统平台:PHP环境

开发语言:PHP

使用方式:HTTP服务

演示网址:http://www.itgrass.com/phpanalysis/

开源官网:http://www.itgrass.com/phpanalysis/

晴枫附注:实现简单,容易使用,能做一些简单应用,但大数据量的计算效率不如前几种。

试用了几个系统,基本分词功能都没什么问题,只是在个别一些词的划分上存在一些差异;对于词性的确定,系统间有所不同。
分享到:
评论

相关推荐

    基于HTTP协议的开源中文分词系统,64位

    开源中文分词系统通常会包含以下关键组件: 1. 分词引擎:这是系统的核心部分,负责对输入的中文文本进行分析,识别出合适的词语边界。常见的分词算法有最大匹配法、前向最大匹配、逆向最大匹配、Viterbi算法等,...

    基于HTTP协议的开源中文分词系统,php演示

    【标题】: "基于HTTP协议的开源中文分词系统,php演示" 涉及的知识点 在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,尤其对于中文文本的理解和分析至关重要。这里提到的是一个开源项目,它提供了一个基于...

    Elasticsearch的开源中文分词器 IK Analysis.zip

    原生IK中文分词是从文件系统中读取词典,es-ik本身可扩展成从不同的源读取词典。目前提供从sqlite3数据库中读取。es-ik-plugin-sqlite3使用方法: 1. 在elasticsearch.yml中设置你的sqlite3词典的位置:ik_analysis...

    ictclas4j开源分词系统

    java开源分词系统主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展用户可以动态增加、删除用户词典...

    工具查询开源中文分词系统 HTTPCWS 1.0.0 PHP演示程序-httpcws-php-demo.zip

    【标题】中的“工具查询开源中文分词系统 HTTPCWS 1.0.0 PHP演示程序”揭示了我们要讨论的核心内容:一个基于PHP的开源项目,名为HTTPCWS,用于中文分词。这个系统提供了对中文文本进行词汇切分的能力,是自然语言...

    开源免费的简易中文分词系统PHP分词的上乘之选

    标题中的“开源免费的简易中文分词系统PHP分词的上乘之选”指的是一个针对中文文本处理的软件工具,特别适用于PHP编程语言。在IT领域,中文分词是自然语言处理(NLP)的一个重要步骤,它涉及到将连续的汉字序列切...

    盘古分词-开源中文分词组件词典-词典

    盘古分词是一款开源的中文分词组件,其主要任务是将连续的汉字序列切分成具有语义的词语,这是自然语言处理中的基础步骤。在中文文本处理中,由于汉字没有明显的空格来划分单词,因此分词显得尤为重要。分词的准确性...

    基于java的中文分词系统

    【标题】:“基于Java的中文分词系统”指的是一个利用Java编程语言开发的软件工具,其主要功能是对中文文本进行分词处理。在自然语言处理(NLP)领域,中文分词是预处理的关键步骤,因为中文没有明显的空格来区分...

    Yard中文分词系统V0.1.1版

    Yard中文分词系统采用改进了的正向最大匹配算法,利用双字哈希进行词典组织解决了中文分词中最长词带来的分词效率低下问题。 本次发布的版本为0.1.1版能对中文词组进行完美的切分同时利用词组的词频和词性解决了...

    11款开放中文分词引擎测试数据

    在这个主题中,“11款开放中文分词引擎测试数据”提供了对不同开源分词工具进行性能评估的数据集。这个数据集通常包括各种类型的文本,如新闻、文章、社交媒体内容等,以全面测试分词引擎在不同场景下的准确性和效率...

    用纯C语言开发了一个中文分词系统,速度大约1万字/1秒,大小100K(免费+开源+86万词库+操作示意图+测试用例)

    用纯C语言开发了一个中文分词系统,速度大约1万字/1秒,大小100K(免费+开源+86万词库+操作示意图+测试用例) 用法很简单,比如:你把中文分词系统解压后保存到D:\那你直接在 dos 窗口下输入: d:\cfenci.exe 然后回车...

    国内首例开源搜索引擎分词

    其次,云寻觅的分词系统设计具有灵活性和可扩展性。其代码结构清晰,易于理解和二次开发。开发者可以根据实际需求调整词典,添加自定义词汇,或者定制特定领域的分词策略。此外,该系统支持多种接口,可以方便地与...

    c#中文分词类库 可用来做搜索引擎分词 准确率90% 支持Lucene.net

    分词是自然语言处理中的基础步骤,它将连续的汉字序列切分成有意义的词语,这对于搜索引擎、信息检索、文本分析等多个领域至关重要。这类类库能够帮助开发者高效地实现对中文文本的预处理,提升系统的性能和准确性。...

    IK Analyzer 开源中文分词 2012 u6.zip

    IK Analyzer是一个开源的,基于java语言开发的轻量级的中文分词工具包。从2006年12月推出1.0版开始, IKAnalyzer已经推出了4个大版本。最初,它是以开源项目Luence为应用主体的,结合词典分词和文法分析算法的中文...

    几款开源的中文分词系统

    中文分词是做好中文内容检索、文本分析的基础,主要应用于搜索引擎与数据挖掘领域。中文是以词为基本语素单位,而词与词之间并不像英语一样有空格来分隔,因而中文分词的难点在于如何准确而又快速地进行分词

    基于HMM模型中文分词系统

    4. `test` 或 `examples` 目录:包含测试用例或演示如何使用分词系统的样例文件。 5. `requirements.txt`:列出项目依赖的Python库和版本。 6. `.gitignore`:定义了在Git版本控制系统中忽略的文件或目录。 7. `...

    lucene.NET 中文分词

    中文分词是将连续的汉字序列切分成具有语义的词语的过程,是自然语言处理(NLP)中的基础步骤。在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备...

    C#开源项目盘古分词的使用手册

    盘古分词是基于C#开发的,专门针对中文文本的分词系统,它以其高效、准确的特性在信息检索、文本分析等领域广泛应用。 2PanGuSegment是盘古分词的核心组件,负责进行实际的分词工作。开发者可以通过调用这个组件来...

    中科院分词系统

    中科院开发的开源中文分词系统。 可以作为自然语言处理的预处理工具。

    基于PHP的SCWS 开源免费的简易php中文分词系统.zip

    SCWS(Simple Chinese Word Segmentation)是一个开源且免费的简易PHP中文分词系统,由华大的Xunsearch团队开发。这个系统旨在为PHP开发者提供一个轻量级、高效的中文分词解决方案,使得在PHP环境中处理中文文本变得...

Global site tag (gtag.js) - Google Analytics