`
com1com4
  • 浏览: 162276 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论

常见中文分词开源项目

阅读更多

由于项目技术需要, 需要使用中文分词技术, 那么就去简单调研了一下, 简单搜集了一些资料

 

常见中文分词开源项目

SCWS

  Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频 词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95% 之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和 PHP 5。

 

ICTCLAS

  这可是最早的中文开源分词项目之一,ICTCLAS在国内973 专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机 996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、 FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。

 

HTTPCWS

   HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0 2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。   庖丁解牛分词:   Java 提供lucence 接口,仅支持Java语言。

 

CC-CEDICT

  一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8 日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。

 

IK

  IKAnalyzer 是一个开源的,基于java语言开发的轻量级的中文分词工具包。从 2006年12月推出1.0版开始,IKAnalyzer 已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典 分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对 Lucene的默认优化实现。

 

Paoding

   Paoding (庖丁解牛)基 于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。   高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。   采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。   能够对未知的词汇进行合理解析

 

MMSEG4J

    MMSEG4J 基于Java的开源中文分词组件,提供lucene和solr 接口   1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg 算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory 以方便在Lucene和Solr中使用。   2、MMSeg 算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了 98.41%。mmseg4j 已经实现了这两种分词算法。

分享到:
评论

相关推荐

    盘古中文分词 开源 C#

    4. **开源**:作为开源项目,盘古中文分词的源代码对所有用户开放,允许用户根据自身需求进行定制和改进,同时也促进了社区间的交流和合作。 5. **文档齐全**:配套的文档(如压缩包中的`Doc`文件)详细介绍了如何...

    盘古分词-开源中文分词组件词典-词典

    盘古分词是一款开源的中文分词组件,其主要任务是将连续的汉字序列切分成具有语义的词语,这是自然语言处理中的基础步骤。在中文文本处理中,由于汉字没有明显的空格来划分单词,因此分词显得尤为重要。分词的准确性...

    中文分词处理技术源代码

    总的来说,这个开源项目为处理中文文本提供了一套完整的解决方案,包括核心的分词算法、词典资源以及相关的元数据。开发者可以在此基础上进行二次开发,根据具体需求调整和优化分词策略,以适应不同的应用场景。同时...

    中文分词C语言版.rar

    对于学习C语言和自然语言处理的开发者来说,研究和使用这个开源项目不仅能提升编程技巧,还能加深对分词原理的理解。 总结来说,这个名为“fenci”的C语言中文分词程序是一个有价值的教育资源和工具,它展示了如何...

    php中文实现分词搜索

    常见的中文分词算法有基于词典的分词法(如HMM、CRF)、统计分词法(如最大匹配法、双向最大匹配法)等。这需要对NLP有一定的理解,并且可能涉及到词性标注、歧义消除等复杂步骤。 在实际应用中,通常会结合多种...

    lucene6.6+拼音分词+ik中文分词包

    它是开源的Java实现的中文分词组件,特别适合用于Java开发的项目中。提供的ik-analyzer-solr6.x.jar文件就是IK Analyzer的一个版本,适用于Solr 6.x,能够很好地与Lucene集成,进行中文分词。 除了IK Analyzer,...

    Lucene中文分词器组件

    由于中文是以词为基本单位,不像英文那样有明显的空格分隔,因此在进行信息检索时,需要先对中文文本进行分词,将连续的汉字序列切分成具有独立含义的词语。这样才能有效地进行关键词匹配和索引。 在Lucene中,常见...

    中文分词(linux)

    中文分词是将连续的汉字序列切分成具有语义的词语单元,是中文处理的预处理步骤。由于中文没有明显的词边界,如空格或标点符号,因此分词对于计算机理解中文文本至关重要。常见的中文分词算法有最大匹配法、前向最大...

    C#中文分词源码

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列切分成有意义的词语单元,这对于信息检索、文本分析、机器翻译等多个应用场景至关重要。"C#中文分词源码"是一个专门针对C#编程语言...

    最新逆向最大匹配分词算法 盘古分词 分词算法 中文分词 源码

    逆向最大匹配分词算法(Reverse Maximum Matching,RMM)是一种常见的中文分词技术,广泛应用于自然语言处理、搜索引擎和信息检索等领域。该算法的基本思想是从待分词文本的末尾开始,向前寻找最长的已存在于词典中...

    基于HTTP协议的开源中文分词系统,64位

    6. 文档和社区支持:完善的文档和活跃的社区是开源项目的重要组成部分,可以帮助用户解决问题,推动项目的持续发展。 总之,基于HTTP协议的开源中文分词系统为开发者提供了一种便捷、灵活的方式来处理中文文本,它...

    中文分词 提取关键字

    因为中文句子没有像英文那样的空格作为单词间的分隔符,所以需要通过特定算法将连续的汉字序列切分成有意义的词语,这一过程就是中文分词。在这个项目中,我们看到的是一个使用PHP实现的中文分词功能,这为处理中文...

    solr ik中文分词

    在处理中文文本时,由于中文的特殊性(词与词之间没有明显的分隔符),需要使用专门的分词器进行预处理,将连续的汉字流分割成有意义的词语,这个过程称为中文分词。IK Analyzer(简称IK)就是为了解决这个问题而...

    C#中文分词技术源码

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列切分成有意义的词语单元,以便计算机能够理解和处理中文文本。C#作为一门广泛应用的编程语言,也提供了实现中文分词技术的工具和...

    PHP 版简易中文分词.tar.gz

    中文分词是指将连续的汉字序列切分成具有语义的词语,这是理解和处理中文文本的基础。由于中文没有明显的空格分隔,分词成为了一项挑战。常见的分词方法有基于词典的精确匹配、基于统计的模糊匹配以及深度学习等。 ...

    工具查询开源中文分词系统 HTTPCWS 1.0.0 PHP演示程序-httpcws-php-demo.zip

    【标题】中的“工具查询开源中文分词系统 HTTPCWS 1.0.0 PHP演示程序”揭示了我们要讨论的核心内容:一个基于PHP的开源项目,名为HTTPCWS,用于中文分词。这个系统提供了对中文文本进行词汇切分的能力,是自然语言...

    ik中文分词词库,包含不低于20万词

    "ik中文分词词库"是一个专为分词任务设计的资源,其中包含了至少20万个词汇,这样的规模确保了对常见词汇和术语的广泛覆盖。 分词,简单来说,就是将连续的汉字序列切分成具有语义意义的词汇单位。由于中文没有像...

    PHP中文分词扩展(demoPHPCWS)

    中文分词是将连续的汉字序列切分成具有语义的词汇单元,它是自然语言处理(NLP)的基础,对于信息检索、文本分析、机器翻译等领域至关重要。`demoPHPCWS`是一个专门用于PHP的中文分词扩展,它旨在帮助开发者更高效地...

    IKAnalyzer中文分词器

    它使用了一个庞大的中文词汇库,包含了常见的汉字词语、成语、缩略语等。当输入一段中文文本时,IKAnalyzer会通过词典匹配来识别出单词边界,实现快速高效的分词。此外,它还采用了动态扩展词典的技术,可以根据上...

    C# .Net 写的中文分词

    在C# .Net环境中实现中文分词,可以借助现有的开源库,如SharpNLP、HanLP.NET等,它们提供了丰富的API和分词算法,方便开发者快速集成到项目中。同时,也可以自定义实现分词算法,这样可以更好地适应特定的业务需求...

Global site tag (gtag.js) - Google Analytics