`
wbj0110
  • 浏览: 1603571 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

常用中文分词

阅读更多

常用中文分词

1. 庖丁解牛分词包,适用于与Lucene整合。http://www.oschina.net/p/paoding
    庖丁中文分词库是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。
    Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词开源组件。 Paoding中文分词追求分词的高效率和用户良好体验。
    Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。
    高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。
    采用基于 不限制个数 的词典文件对文章进行有效切分,使能够将对词汇分类定义。
    能够对未知的词汇进行合理解析

2. LingPipe,开源自然语言处理的Java开源工具包。http:/alias-i.com/lingpipe/
    功能非常强大,最重要的是文档超级详细,每个模型甚至连参考论文都列出来了,不仅使用方便,也非常适合模型的学习。
    主题分类(Top Classification)、命名实体识别(Named Entity Recognition)、词性标注(Part-of Speech Tagging)、句题检测(Sentence Detection)、查询拼写检查(Query Spell Checking)、兴趣短语检测(Interseting Phrase Detection)、聚类(Clustering)、字符语言建模(Character Language Modeling)、医学文献下载/解析/索引(MEDLINE Download, Parsing and Indexing)、数据库文本挖掘(Database Text Mining)、中文分词(Chinese Word Segmentation)、情感分析(Sentiment Analysis)、语言辨别(Language Identification)等

3. JE分词包
4. LibMMSeg http://www.oschina.net/p/libmmseg
    采用C++开发,同时支持Linux平台和Windows平台,切分速度大约在300K/s(PM-1.2G),截至当前版本(0.7.1)。
    LibMMSeg没有为速度仔细优化过,进一步的提升切分速度应仍有空间。
5. IKAnalyzer http://www.oschina.net/p/ikanalyzer
    IKAnalyzer基于lucene2.0版本API开发,实现了以词典分词为基础的正反向全切分算法,是LuceneAnalyzer接口的实现。
    该算法适合与互联网用户的搜索习惯和企业知识库检索,用户可以用句子中涵盖的中文词汇搜索,如用"人民"搜索含"人民币"的文章,这是大部分用户的搜索思维;
    不适合用于知识挖掘和网络爬虫技术,全切分法容易造成知识歧义,因为在语义学上"人民"和"人民币"是完全搭不上关系的。
6. PHPCWS http://www.oschina.net/p/phpcws
    PHPCWS 是一款开源的PHP中文分词扩展,目前仅支持Linux/Unix系统。

    PHPCWS 先使用“ICTCLAS 3.0 共享版中文分词算法”的API进行初次分词处理,再使用自行编写的“逆向最大匹配算法”对分词和进行词语合并处理,并增加标点符号过滤功能,得出分词结果。

    ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System)是中国科学院计算技术研究所在多年研究工作积累的基础上,基于多层隐马模型研制出的汉语词法分析系统,主要功能包括中文分词;词性标注;命 名实体识别;新词识别;同时支持用户词典。ICTCLAS经过五年精心打造,内核升级6次,目前已经升级到了ICTCLAS3.0,分词精度 98.45%,各种词典数据压缩后不到3M。ICTCLAS在国内973专家组组织的评测中活动获得了第一名,在第一届国际中文处理研究机构SigHan 组织的评测中都获得了多项第一名,是当前世界上最好的汉语词法分析器。

    ICTCLAS 3.0 商业版是收费的,而免费提供的 ICTCLAS 3.0 共享版不开源,词库是根据人民日报一个月的语料得出的,很多词语不存在。所以本人对ICTCLAS分词后的结果,再采用逆向最大匹配算法,根据自己补充的 一个9万条词语的自定义词库(与ICTCLAS词库中的词语不重复),对ICTCLAS分词结果进行合并处理,输出最终分词结果。

    由于 ICTCLAS 3.0 共享版只支持GBK编码,因此,如果是UTF-8编码的字符串,可以先用PHP的iconv函数转换成GBK编码,再用phpcws_split函数进行分词处理,最后转换回UTF-8编码。

分享到:
评论

相关推荐

    常用中文分词器及地址链接

    当前有多种中文分词器可供选择,每种分词器都有其特点和优势,本文将对当前常用的中文分词器进行列举和介绍。 1. ICTCLAS ICTCLAS是业界比较出名的中文分词器,能够进行分词、词性标注等功能。ICTCLAS由C++编写,...

    baidu.rar_ baidu_dictionary_中文分词_中文分词 词典_分词词典

    百度的中文分词词典因其广泛的应用和高准确率而备受推崇,它包含了大量的常用词汇和专有名词,覆盖了日常语言和专业领域的词汇。 “baidu.txt”文件很可能是百度词典的一个文本版,其中包含了词典中的词条和它们的...

    分词词库_中文分词词库最新整理(TXT格式)

    中文分词是自然语言处理中的一个基础任务,它是指将连续的汉字序列切分成具有语义意义的词汇序列的过程。与英文等其他语言相比,中文没有明显的单词界限,因此中文分词是进行后续自然语言处理任务(如文本分类、情感...

    中文分词词库汇总

    汇总的中文分词词库,分为两个目录: 1、中文分词词库汇总。包含10个词库,文件名字表示里面词的数量(单位是千),如150.txt,表示包含15万词。 2、主流分词工具的词库。包含word/jieba/mmseg/IK分词工具的最近词库...

    中文分词词库大全词库

    ### 中文分词词库大全词库解析 #### 标题与描述概述 标题:“中文分词词库大全词库” 描述重复强调了一个词典的来源及其格式(TXT)。这表明该词库是为了中文自然语言处理(NLP)任务中的分词而准备的资源。中文...

    中文分词词库整理.7z

    中文分词是自然语言处理(NLP)领域中的基础任务,它是将连续的汉字序列切分成具有语义意义的词语序列。在这个“中文分词词库整理.7z”压缩包中,包含的可能是一个精心整理的中文词汇集合,用于支持各种中文分词算法...

    中文分词词库整理 rar

    30万 中文分词词库.txt 42537条伪原创词库.txt 百度分词词库.txt 词库地址.txt 词库下载地址.txt

    lucene.NET 中文分词

    中文分词是将连续的汉字序列切分成具有语义的词语的过程,是自然语言处理(NLP)中的基础步骤。在Lucene.NET中,为了支持中文分词,通常需要结合第三方分词器,如IK Analyzer、HanLP、jieba.NET等。这些分词器具备...

    基于NLP技术实现的中文分词插件,准确度比常用的分词器高太多,同时提供ElasticSearch和OpenSearch插件

    ideaseg 是 Indexea 推出的一个基于最新的 HanLP 自然语言处理工具包实现的中文分词器, 包含了最新的模型数据,同时移除了 HanLP 所包含的非商业友好许可的 NeuralNetworkParser 相关代码和数据。

    matlab中文分词——最大正向匹配法.rar

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词语单元,以便计算机能够理解和分析文本。本项目以"matlab中文分词——最大正向匹配法.rar"为主题,重点讨论了如何...

    基于Nutch中文分词的研究与实现

    作为舆情监测系统的一部分,本文的目标是基于Nutch,同时,结合目前最常用中文分词技术,根据不同的中文分词方法,实验并得出不同分词方法在性能以及使用环境上的优缺点,以此为舆情监测系统选择合适的中文分词方法...

    微软亚洲研究院中文分词语料库

    中文分词是中文文本处理的基石,因为中文没有像英文那样的空格来自然地划分单词,所以需要通过分词算法将连续的汉字序列切分成有意义的词汇单元。这一过程对于后续的文本分析、信息检索、机器翻译等任务至关重要。 ...

    简单的中文分词程序(练习)

    在这个项目中,开发者可能使用了 Python 语言,因为 Python 是处理自然语言处理任务(NLP,Natural Language Processing)的常用语言,尤其在中文分词领域。Python 的库如 jieba 和 pkuseg 提供了方便的接口来进行...

    全新整理中文分词字典,242764个中文词语

    中文分词是自然语言处理(NLP)领域中的一个关键步骤,它涉及到将连续的汉字序列分割成具有语义意义的词语。在这个标题为“全新整理中文分词字典,242764个中文词语”的资源中,提供了一个包含大量中文词语的字典,...

    java实现中文分词simhash算法

    Sanford中文分词库是一种常用的分词工具,它基于统计模型,能够根据语料库学习到的词频信息进行分词。下载并引入这个库后,可以调用`CoreNLPSegment.java`中的方法来对中文文本进行分词处理,得到单词列表,这是后续...

    易语言应用中文分词

    中文分词是将连续的汉字序列切分成具有独立语义的词语单元,它是中文文本处理的基础,对于信息检索、机器翻译、情感分析等应用至关重要。 易语言应用中文分词源码通常包括以下几个核心部分: 1. **词典构建**:一...

    JAVA实现的中文分词程序

    该程序包含了词典文件,词典是分词算法的核心部分,存储了大量的常用词汇及其相关信息。词典可能以不同的格式存在,如文本文件或二进制文件,用于快速查找和匹配输入文本中的词语。在Java程序中,通常会通过I/O操作...

    中文分词常用停用词 文档

    根据提供的文档信息,我们可以深入探讨中文分词中的停用词概念及其应用。停用词在自然语言处理(NLP)领域扮演着重要角色,尤其是在文本分析、信息检索和机器学习等场景下。以下是对该主题的详细解析: ### 一、...

    jcseg java中文分词

    由于中文没有明显的空格分隔单词,因此需要通过分词来将连续的汉字序列切分成有意义的词汇单元。这有助于后续的文本分析、信息检索、机器翻译、情感分析等任务。 **mmseg算法的原理与应用** mmseg(Maximum ...

    C语言中文分词源代码

    在IT领域,中文分词是自然语言处理(NLP)中的关键步骤,它涉及到将连续的汉字序列分割成有意义的词汇单元,这对于信息检索、文本分析、机器翻译等多个应用至关重要。"C语言中文分词源代码"是一个专门用于实现这一...

Global site tag (gtag.js) - Google Analytics