计算所汉语词法分析系统ICTCLAS 字典格式解析
这段时间小叮咚分词模块基本上没有什么大更新了,不是不想更新,而是感觉好像碰到了天花板,不知道该如何进一步拓展分词的功能了。当然分词不是目的,只是为了让小叮咚理解自然语言的一步必须的中间环节。我对小叮咚的定位是一个智能知识问答系统。这样让小叮咚理解用户输入的内容是最基础也最关键的一步。我们学习一门语言,首先要了解句子的构成,句子的成份,主、谓、宾、定、状、补等等。让机器理解人的语言,也应该采取大致的步骤。
分词很显然是第一步。在我看来分词有两个层次:
1、把一句话中的词语按照其所代表的含义分开;(搜索引擎的分词到这一步基本就可以了)
2、对第一个环节分词结果加上词性标注;(动词,名词,等等)
小叮咚的分词程序现在只是基本完成了上面的第一个部分。
要做完第2部分非常困难,首先需要一个分词词性词库,其次需要一个好的算法来标注词性。
这大概就是小叮咚的分词程序一直无法提高的原因吧。
于是就准备参考国内有名的 计算所汉语词法分析系统ICTCLAS, 先看看人家是如何实现的。
汉语词法分词系统 ICTCLAS 是中国科学院的两位研究员开发的一套广受专家好评的汉语分词系统。该系统的功能有:中文分词;词性标注;未登录词识别。详细信息可以看这里。由于对方提供了源代码,所以分析ICTCLAS是个很好的起点。(现在ICTCLAS提供了 windows 和 linux 下的动态链接库,还没有 java 和 C# 版本的,我想如果顺利的话这个系列的文章写完,就应该可以实现C#和java版本的了,呵呵)
当然在好的东西也有缺点,在我看来ICTCLAS最大的缺点是没有文档。就像JBOSS,代码虽然免费,可是没有文档,很多人只好乖乖的交服务费或者购买文档了。这也算是一种盈利模式吧,给作者的劳动一些补偿。
分词的两个重点分别是一个好的词库和一套好的分词算法。ICTCLAS 无疑在这两方面都是很出色的。
本篇重点分析一下ICTCLAS所采用的词库的格式。
ICTCLAS 使用的词库是以dct结尾的文件。
我实现的解析ictclas4j。可直接导入eclipse运行。
词库:这里有一个例子。
今天就先写到这里吧,没有写过文件格式方面的文章,不知道该怎么描述了...。
田春峰
20041223
分享到:
相关推荐
为此,中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;...
词是最小的能够独立活动的有意义的语言成分,但汉语是以字为基本的书写单位,词语之间没有明显的区分标记,因此,中文词法分析是中文信息处理的基础与关键。所有涉及中文内容处理的系统,如果没有一个好的中文词法...
汉语词法分析系统ICTCLAS,主要功能包括中文分词;词性标注;命名实体识别;新词识别;用户词典功能,同时支持GBK编码、UTF8编码、BIG5编码。包括java,c,c#,linux 32位等各种接口
计算所汉语词法分析系统ICTCLAS 电话: +86-10-62587953 QQ: 12821216 Email: zhanghp@software.ict.ac.cn<br> Homepage:http://pipy_world.y365.com
ICTCLAS10,全称为“汉语语言词法分析系统2010”,是北京大学计算语言研究所开发的一款强大的自然语言处理工具,尤其在汉语词法分析领域具有显著的影响力。这款软件的核心功能在于对汉语文本进行深入的词法分析,...
中文词法分析是中文信息处理的基础与关键。中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统
关键词中的“汉语词法分析”、“分词”、“词性标注”、“未登录词识别”以及“层叠隐马模型”和“ICTCLAS”都是本文所关注和使用的术语或系统名称。这些关键词概述了文章的研究主题和研究对象,也反映了汉语自然...
NICTCLAS是大名鼎鼎的中科院计算所语词法分析系统ICTCLAS免费版的.NET包装版本,在原有免费EXE源码的基础上使用C++/CLI封装成NICTCLAS.dll,将原CResult类改写成NICTCLAS managed class,并为适应VC8编译对源码做了...
现了基于层叠隐马模型的汉语词法分析系统ICTCLAS, 该系统在2002年的“九七三”专家组评测中获得第1名,在2003 年汉语特别兴趣研究组(ACLSpecialInterestGrou ponChineseLan guageProcessing,SIGHAN )组织的第1届国际...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
计算所汉语词法分析系统ICTCLAS同时还提供一套完整的动态连接库ICTCLAS.dll,COM组件和相应的概率词典,开发者可以完全忽略汉语词法分析,直接在自己的系统中调用ICTCLAS,ICTCLAS可以根据需要输出多个高概率的结果,...
中科院的中文分词系统ICTCLAS是从事文本挖掘研究工作的学者们所广泛使用的软件,在此就不多作介绍了。这是该软件的2015版本,欢迎各位学者下载使用。
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),主要功能包括中文分词;词性标注;命名实体识别;...
隐马尔可夫模型(Hidden Markov Model,HMM)是统计模型,它用来...然后利用这些参数来作进一步的分析,例如模式识别。 是在被建模的系统被认为是一个马尔可夫过程与未观测到的(隐藏的)的状态的统计马尔可夫模型。
编译原理是研究编译器设计的一门学科,其中词法分析是编译器的第一个关键步骤。本篇文章将深入探讨“编译原理词法分析系统”,以及它在编程语言处理中的作用。 词法分析,又称扫描或词法分析器生成,是编译器前端的...
第一届学生计算语言学研讨会(SWCL2002)专题讲座 汉语词法分析和句法分析技术综述 刘群 北京大学计算语言学研究所 中国科学院计算技术研究所 liuqun@ict.ac.cn 引言
作者开发了一个基于HHMM的汉语词法分析系统——ICTCLAS。该系统在各种实验中表现出色,证实了HHMM在处理汉语复杂性和歧义时的有效性。 HHMM模型的优势在于其层次结构,能够更好地捕捉语言的层次特征和上下文信息。...
在编程语言处理领域,语法分析器和词法分析器是至关重要的组成部分,它们主要用于解析源代码,将其转化为计算机可以理解的形式。在这个项目中,我们关注的是一个基于Java实现的语法分析器和词法分析器。Java是一种...
中国科学院计算技术研究所在多年研究工作积累的基础上,研制出了汉语词法分析系统ICTCLAS