由于项目技术需要, 需要使用中文分词技术, 那么就去简单调研了一下, 简单搜集了一些资料
常见中文分词开源项目
SCWS
Hightman开发的一套基于词频词典的机械中文分词引擎,它能将一整段的汉字基本正确的切分成词。采用的是采集的词频
词典,并辅以一定的专有名称,人名,地名,数字年代等规则识别来达到基本分词,经小范围测试大概准确率在 90% ~ 95%
之间,已能基本满足一些小型搜索引擎、关键字提取等场合运用。45Kb左右的文本切词时间是0.026秒,大概是1.5MB文本/秒,支持PHP4和
PHP 5。
ICTCLAS
这可是最早的中文开源分词项目之一,ICTCLAS在国内973
专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan组织的评测中都获得了多项第一名。ICTCLAS3.0分词速度单机
996KB/s,分词精度98.45%,API不超过200KB,各种词典数据压缩后不到3M.ICTCLAS全部采用C/C++编写,支持Linux、
FreeBSD及Windows系列操作系统,支持C/C++、C#、Delphi、Java等主流的开发语言。
HTTPCWS
HTTPCWS 是一款基于HTTP协议的开源中文分词系统,目前仅支持Linux系统。HTTPCWS 使用“ICTCLAS 3.0
2009共享版中文分词算法”的API进行分词处理,得出分词结果。HTTPCWS 将取代之前的 PHPCWS 中文分词扩展。
庖丁解牛分词:
Java 提供lucence 接口,仅支持Java语言。
CC-CEDICT
一个中文词典开源项目,提供一份以汉语拼音为中文辅助的汉英辞典,截至2009年2月8
日,已收录82712个单词。其词典可以用于中文分词使用,而且不存在版权问题。Chrome中文版就是使用的这个词典进行中文分词的。
IK
IKAnalyzer
是一个开源的,基于java语言开发的轻量级的中文分词工具包。从
2006年12月推出1.0版开始,IKAnalyzer
已经推出了3个大版本。最初,它是以开源项目Luence为应用主体的,结合词典
分词和文法分析算法的中文分词组件。新版本的IKAnalyzer3.0则发展为面向Java的公用分词组件,独立于Lucene项目,同时提供了对
Lucene的默认优化实现。
Paoding
Paoding
(庖丁解牛)基
于Java的开源中文分词组件,提供lucene和solr 接口,具有极 高效率
和 高扩展性
。引入隐喻,采用完全的面向对象设计,构思先进。
高效率:在PIII 1G内存个人机器上,1秒
可准确分词 100万
汉字。
采用基于 不限制个数
的词典文件对文章进行有效切分,使能够将对词汇分类定义。
能够对未知的词汇进行合理解析
MMSEG4J
MMSEG4J
基于Java的开源中文分词组件,提供lucene和solr 接口
1、mmseg4j 用 Chih-Hao Tsai 的 MMSeg
算法实现的中文分词器,并实现 lucene 的 analyzer 和 solr 的TokenizerFactory
以方便在Lucene和Solr中使用。
2、MMSeg
算法有两种分词方法:Simple和Complex,都是基于正向最大匹配。Complex 加了四个规则过虑。官方说:词语的正确识别率达到了
98.41%。mmseg4j 已经实现了这两种分词算法。
分享到:
相关推荐
4. **开源**:作为开源项目,盘古中文分词的源代码对所有用户开放,允许用户根据自身需求进行定制和改进,同时也促进了社区间的交流和合作。 5. **文档齐全**:配套的文档(如压缩包中的`Doc`文件)详细介绍了如何...
盘古分词是一款开源的中文分词组件,其主要任务是将连续的汉字序列切分成具有语义的词语,这是自然语言处理中的基础步骤。在中文文本处理中,由于汉字没有明显的空格来划分单词,因此分词显得尤为重要。分词的准确性...
总的来说,这个开源项目为处理中文文本提供了一套完整的解决方案,包括核心的分词算法、词典资源以及相关的元数据。开发者可以在此基础上进行二次开发,根据具体需求调整和优化分词策略,以适应不同的应用场景。同时...
对于学习C语言和自然语言处理的开发者来说,研究和使用这个开源项目不仅能提升编程技巧,还能加深对分词原理的理解。 总结来说,这个名为“fenci”的C语言中文分词程序是一个有价值的教育资源和工具,它展示了如何...
它是开源的Java实现的中文分词组件,特别适合用于Java开发的项目中。提供的ik-analyzer-solr6.x.jar文件就是IK Analyzer的一个版本,适用于Solr 6.x,能够很好地与Lucene集成,进行中文分词。 除了IK Analyzer,...
由于中文是以词为基本单位,不像英文那样有明显的空格分隔,因此在进行信息检索时,需要先对中文文本进行分词,将连续的汉字序列切分成具有独立含义的词语。这样才能有效地进行关键词匹配和索引。 在Lucene中,常见...
中文分词是将连续的汉字序列切分成具有语义的词语单元,是中文处理的预处理步骤。由于中文没有明显的词边界,如空格或标点符号,因此分词对于计算机理解中文文本至关重要。常见的中文分词算法有最大匹配法、前向最大...
在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列切分成有意义的词语单元,这对于信息检索、文本分析、机器翻译等多个应用场景至关重要。"C#中文分词源码"是一个专门针对C#编程语言...
逆向最大匹配分词算法(Reverse Maximum Matching,RMM)是一种常见的中文分词技术,广泛应用于自然语言处理、搜索引擎和信息检索等领域。该算法的基本思想是从待分词文本的末尾开始,向前寻找最长的已存在于词典中...
6. 文档和社区支持:完善的文档和活跃的社区是开源项目的重要组成部分,可以帮助用户解决问题,推动项目的持续发展。 总之,基于HTTP协议的开源中文分词系统为开发者提供了一种便捷、灵活的方式来处理中文文本,它...
因为中文句子没有像英文那样的空格作为单词间的分隔符,所以需要通过特定算法将连续的汉字序列切分成有意义的词语,这一过程就是中文分词。在这个项目中,我们看到的是一个使用PHP实现的中文分词功能,这为处理中文...
在处理中文文本时,由于中文的特殊性(词与词之间没有明显的分隔符),需要使用专门的分词器进行预处理,将连续的汉字流分割成有意义的词语,这个过程称为中文分词。IK Analyzer(简称IK)就是为了解决这个问题而...
在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列切分成有意义的词语单元,以便计算机能够理解和处理中文文本。C#作为一门广泛应用的编程语言,也提供了实现中文分词技术的工具和...
中文分词是指将连续的汉字序列切分成具有语义的词语,这是理解和处理中文文本的基础。由于中文没有明显的空格分隔,分词成为了一项挑战。常见的分词方法有基于词典的精确匹配、基于统计的模糊匹配以及深度学习等。 ...
【标题】中的“工具查询开源中文分词系统 HTTPCWS 1.0.0 PHP演示程序”揭示了我们要讨论的核心内容:一个基于PHP的开源项目,名为HTTPCWS,用于中文分词。这个系统提供了对中文文本进行词汇切分的能力,是自然语言...
"ik中文分词词库"是一个专为分词任务设计的资源,其中包含了至少20万个词汇,这样的规模确保了对常见词汇和术语的广泛覆盖。 分词,简单来说,就是将连续的汉字序列切分成具有语义意义的词汇单位。由于中文没有像...
中文分词是将连续的汉字序列切分成具有语义的词汇单元,它是自然语言处理(NLP)的基础,对于信息检索、文本分析、机器翻译等领域至关重要。`demoPHPCWS`是一个专门用于PHP的中文分词扩展,它旨在帮助开发者更高效地...
它使用了一个庞大的中文词汇库,包含了常见的汉字词语、成语、缩略语等。当输入一段中文文本时,IKAnalyzer会通过词典匹配来识别出单词边界,实现快速高效的分词。此外,它还采用了动态扩展词典的技术,可以根据上...
在C# .Net环境中实现中文分词,可以借助现有的开源库,如SharpNLP、HanLP.NET等,它们提供了丰富的API和分词算法,方便开发者快速集成到项目中。同时,也可以自定义实现分词算法,这样可以更好地适应特定的业务需求...
IKAnalyzer中文分词器是一款广泛应用于Java环境中的开源中文分词工具,主要设计目标是为了解决中文在信息检索、文本分析等领域的分词难题。它由北京大学信息科学技术学院的李明博士及其团队开发,目前已被广泛应用在...