转载自: http://percyboy.cnblogs.com/
中文切词领域,中科院开发的 ICTCLAS 占有重要一席,号称是世界上最好的中文分词系统。ICTCLAS 初期曾发布过一个免费版本(C++),采用“自然语言处理开放资源许可证”公开。后来走向商业开发道路,最新版本是 ICTCLAS 2010,提供有 C++, Java, C# 等多种版本可供购买。
从 ICTCLAS Free 版有一些衍生版本:ictclas4j 是张新波(sinboy)移植的 Java 版本,SharpICTCLAS 是吕震宇移植的 C# 版本。这两个版本也采用“自然语言处理开放资源许可证”。
2009年中科院高先生针对 Lucene 用 Java 重写了 ICTCLAS 代码,采用 Apache Licence 2.0 协议公开了源码和词库数据,目前已并入了 Lucene contrib 代码树中。我花了些时间将这个版本转写为 C# 版。
下图表示了这些版本间的关系:(红色为商业软件,紫色为“自然语言处理开放资源许可证”,绿色为“Apache Licence 2.0”)
目前讨论较多的切词器,如庖丁解牛、盘古分词等,多采用查词典的方式切分,词典质量决定切分效果。
ICTCLAS 切词基于概率统计的语料库(高先生称之为“智能词典”),算法基于“层叠式隐含马尔可夫模型”(Hierarchical Hidden Markov Model, HHMM)。仅就算法而言,应该说这是一种较为先进的方法,Google 研究员也说“统计语言模型比任何已知的借助某种规则的解决方法都有效”(数学之美系列)。
但是高先生贡献的版本(包括我转写的版本),从 ICTCLAS 中去除了一些功能,如:词性标注、人名识别、日期识别等等,特别是后两项,切分结果在这方面不是很理想。另外,“智能词典”里存储的是各种词汇出现的概率,是通过机器训练得到的,难以采用人工方式维护,这也是一个不方便之处。
分享到:
相关推荐
ICTCLAS 中文分词的elipse 工程
总之,ICTCLAS的Java分词系统为中文自然语言处理提供了一个强大且易用的工具,它在科研和实际应用中都发挥着重要作用。无论是文本挖掘、搜索引擎优化还是智能问答系统,都可以借助此系统提升中文处理的效率和准确性...
ICTCLAS 中文分词 中科院 ICTCLAS 中文分词 中科院
ICTCLAS中文分词系统是基于信息技术(ICT)和自然语言处理(NLP)的工具,主要用于处理中文文本。这个系统由中关村的科研团队开发,代表着国内在中文分词技术领域的先进水平。分词是中文信息处理的重要步骤,因为...
中科院分词,最流行的中文分词,我的总结。
ICTCLAS中文分词系统是基于C++语言开发的一个高效、准确的中文处理工具,尤其在中文分词领域表现出色。这个压缩包包含了ICTCLAS的源代码,使得用户能够深入理解其工作原理,并根据需求进行二次开发。下面将详细介绍...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
ICTCLAS中文分词是信息技术领域的一个重要研究方向,它主要关注如何准确高效地将连续的汉字序列分割成有意义的词汇单位,这是自然语言处理(NLP)的基础任务之一。在给定的压缩包文件中,我们可以看到多个与中文分词...
ICTCLAS 的中文分词,用的是sql数据库,自己把数据库部分去掉就可以运行
ICTCLAS中文分词系统C++代码,内容很强大,很好。ICTCLAS中文分词系统是目前世界最好的分词系统
基于Lucene的中文分词包,ictclas4j的最新发布,已经打包成jar包。
这是中科院的ICTCLAS的中文分词算法的源代码,可以实现中文分词,词性标注等功能。绝对好用!
ICTCLAS分词器是一款广泛应用于中文文本处理的开源工具,尤其在自然语言处理(NLP)领域中占据重要地位。它的全称是“信息技术——中文词语切分系统”,主要功能是对输入的中文文本进行词汇划分,将连续的汉字序列...
NULL 博文链接:https://lionsadness.iteye.com/blog/689910
System),主要功能包括中文分词;词性标注;命名实体识别;新词识别;同时支持用户词典。我们先后精心打造五年,内核升级7次,目前已经升级到了ICTCLAS2009 用户词典接口扩展 用户可以动态增加、删除用户词典中的...
本程序使用ICTCLAS中文分词系统,支持中文分词,同时实现高效率的关键字匹配,使用的分词系统支持用户自定义词典,并支持GBK和UTF-8编码,在Linux系统上运行,同时避免某些因证书引起的问题,适用于个人研究,因商业...
ICTCLAS是一款高效、准确的中文分词工具,广泛应用于信息检索、文本挖掘等领域。 首先,我们要理解ICTCLAS2015的工作原理。它基于统计模型,尤其是隐马尔科夫模型(HMM)和条件随机场(CRF)等机器学习算法,通过...
中科院最新版中文分词软件。 2014版,各种材料齐全,包含代码、文档等等;希望大家爱用。 以备不时之需。
最好的中文分词算法,新鲜出炉,不过里面的文件是2014的
中科院 北大 实现的 一级二级分词算法简单方便 只是感觉词源不够丰富 但是幸运的是可以自己添加新词啊