找了一些,列出来,备忘.部分内容来自
http://lihaiyan.iteye.com/blog/127674
1 计算所汉语词法分析系统 ICTCLAS
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
下载页面:
http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面:
http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击
本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面:
http://www.donews.net/accesine
2 海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面:
http://www.hylanda.com/cgi-bin/download/download.asp?id=8
3 CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面:
http://www.vgoogle.net/
4 C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面:
http://www.rainsts.net/article.asp?id=48
5 (C) scws-1.0.0 正式发布 (含php扩展及2文本词典) http://www.hightman.cn/
6 MMSeg Java开源实现http://www.solol.org/projects/mmseg/
7 小麻雀搜索引擎http://www.sqlet.com/
8 (C#) 开源 ShootSearch 分词组件 1.0 bate 070312 (支持dotlucene)
http://www.shootsoft.net/home/show.aspx?id=38&cid=8
9 (Java) Paoding Analysis(庖丁解牛)http://code.google.com/p/paoding/
10 (Java) lucene开源中文分词器 IKAnalyzer2.0.2 共享及源码发布http://linliangyi2007.iteye.com/blog/165287
11 (ruby) RMMSeg 作者,
一些介绍
根据作者自己博客上面的测试,中文分词的准确率可以达到98%以上.应该是MMSEG的Ruby实现.
12 (C) MMSEGhttp://technology.chtsai.org/mmseg/
13 (C++)FirteX 是一个功能强大、高性能、灵活的全文索引和检索平台http://www.firtex.org/
其他:
搜索引擎资料收集(转)
http://wind-bell.iteye.com/blog/81504
几个免费的中文分词模块
http://lihaiyan.iteye.com/blog/127674
开源研究,中文分词
http://www.j-kanban.com/bbs/thread-1806-1-1.html
分享到:
相关推荐
**Elasticsearch与IK中文分词器** Elasticsearch(ES)是一款强大的开源搜索引擎,它基于Lucene构建,提供实时、分布式、可扩展的搜索和分析能力。在处理中文文档时,由于中文句子中词语之间没有明显的分隔符,因此...
**Elasticsearch 7.0.0 版本与 IK 中文分词器详解** Elasticsearch 是一款功能强大的开源搜索引擎,广泛应用于大数据分析、全文检索以及日志分析等领域。在处理中文文档时,为了实现精确的搜索和索引,我们需要使用...
IK中文分词器是一款在Java平台上广泛使用的开源中文分词工具,主要针对Solr和Elasticsearch等全文搜索引擎进行设计和优化。它以其高效的性能、灵活的扩展性和丰富的词库管理功能,在处理中文文本分析任务时表现优秀...
中文分词是中文自然语言处理的基础步骤,它将连续的汉字序列分割成具有独立意义的词语。对于搜索引擎来说,有效的分词可以提高搜索结果的相关性。这个由作者自己编写的分词器正是为了解决这个问题,它采用最大向前...
IK中文分词器资源包是专门针对中文文本处理的一个重要工具,主要应用于自然语言处理、信息检索、搜索引擎等领域。在中文文本中,由于词汇没有明显的边界,如何准确地将句子切分成一个个有意义的词语(即分词)是...
4. **中文分词器(Chinese Tokenizer)**:如IK Analyzer或Smart Chinese Analyzer,专为中文文本设计,能识别词组并处理停用词。 5. **语言特定分词器**:如German、French、Spanish等,针对特定语言的语法和词汇...
2. **自定义扩展词库**: 用户可以自定义扩展词库,将一些专业术语或者新词加入到词库中,增强分词器对特定领域文本的理解和处理能力。 3. **动态词典加载**: 在运行时,IK 分词器支持动态加载和更新词典,无需重启...
IK Analyzer 是一个开源的、基于Java实现的中文分词器,专为全文检索或信息提取等任务设计。它由尹力(Wu Li)在2006年发起,最初是为了改善Lucene的中文处理能力。自那时起,IK Analyzer已经发展成为一个广泛使用的...
在中文自然语言处理(NLP)领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇,以便进行后续的分析、检索或挖掘。IK分词器以其高效、灵活的特点,深受开发者的喜爱,尤其适用于Web应用和大数据...
总的来说,"庖丁解牛"分词器是中文信息处理领域的一个强大工具,它与Lucene的结合进一步增强了对中文文本的处理能力。对于需要处理大量中文文本的开发者来说,掌握这款分词器的使用和集成技巧是非常有价值的。通过...
它的主要任务是对中文文本进行分词,即将连续的汉字序列切分成一个个有意义的词汇,这是中文信息处理中的关键步骤。 描述中提到的"IKAnalyzer 2012_u6 jar包"是指IKAnalyzer的一个特定版本,即2012年的第六次更新...
IKAnalyzer是一个开源的中文分词器,基于Java语言开发,它是一个轻量级的中文分词工具包。IKAnalyzer自2006年12月推出1.0版本以来,已经发展到了2012版本。这个分词器最初是基于开源项目Lucene的词典分词和文法分析...
分词器6659282.zip可能包含了一些定制化的分词器配置或第三方分词库,这些可能针对特定的语言、领域或者用户需求进行了优化。例如,对于中文文本,可能包含了IK Analyzer、HanLP、jieba分词等专门处理中文的分词器。...
5. **性能优化**:可能会提供一些关于如何优化分词速度和内存消耗的建议,比如利用缓存、并行处理等。 6. **错误处理与调试**:对于可能出现的问题,如分词不准确、无法启动等问题,手册通常会有相应的解决方案和...
该文件主要包含了中文分词词库的内容,通过分析这些内容,我们可以了解到关于中文分词的基础知识、应用场景以及分词词库的重要性等方面的信息。 #### 中文分词简介 中文分词是自然语言处理中的一个基础任务,它是...
**Lucene+中文IK分词器实例解析** Lucene是一个高性能、全文检索库,由Apache软件基金会开发。它提供了一个简单但功能强大的API,用于在各种应用中实现全文索引和搜索。在处理中文文本时,由于中文词汇的复杂性和无...
IK分词器是Java开发的一款高效、灵活的中文分词工具,主要应用于全文检索和自然语言处理领域。它由Liu Xiao Dong和Ma Shangbo共同创建,最初是为了支持Lucene搜索引擎而设计的。源码分析有助于理解其内部工作原理,...
ICTCLAS分词器是一款广泛应用于中文文本处理的开源工具,尤其在自然语言处理(NLP)领域中占据重要地位。它的全称是“信息技术——中文词语切分系统”,主要功能是对输入的中文文本进行词汇划分,将连续的汉字序列...
Elasticsearch(简称ES)作为一个强大的全文搜索引擎,提供了多种分词器,其中包括针对中文环境的拼音分词器。本文将深入探讨Elasticsearch中的拼音分词器及其用法。 ### 1. Elasticsearch与分词器 Elasticsearch ...
IK分词器是一款广泛应用于Java环境中的开源中文分词组件,尤其在搜索引擎和文本分析领域中有着重要地位。它的全称是"Intelligent Chinese Analyzer for Java",由Lucene项目衍生而来,专为提高中文分词效率和准确性...