一、什么是中文分词
众所周知,英文是以词为单位的,词和词之间是靠空格隔开,而中文是以字为单位,句子中所有的字连起来才能描述一个意思。例如,英文句子“I am a student”,用中文则为:“我是一个学生”。计算机可以很简单通过空格知道“student”是一个单词,但是不能很容易明白「学」、「生」两个字合起来才表示一个词。把中文的汉字序列切分成有意义的词,就是中文分词,有些人也称为切词。“我是一个学生”,分词的结果是:“我 是 一个 学生”。
中文分词是其他中文信息处理的基础,搜索引擎只是中文分词的一个应用。其他的比如机器翻译(MT)、语音合成、自动分类、自动摘要、自动校对等等,都需要用到分词。
目前研究中文分词的大多是科研院校,清华、北大、中科院、北京语言学院、东北大学、IBM研究院、微软中国研究院等都有自己的研究队伍,而真正专业研究中文分词的商业公司除了海量科技以外,几乎没有了。
Google的中文分词技术采用的是美国一家名叫 Basis Technology(http://www.basistech.com/)的公司提供的中文分词技术,百度使用的是自己公司开发的分词技术,中搜使用的是国内海量科技(http://www.hylanda.com/)提供的分词技术。业界评论海量科技的分词技术目前被认为是国内最好的中文分词技术,其分词准确度超过99%,由此也使得中搜在搜索结果中搜索结果的错误率很低。
(以上内容摘录自附录1)
二、计算所汉语词法分析系统 ICTCLAS
中国科学院计算技术研究所在多年研究基础上,耗时一年研制出了基于多层隐马模型的汉语词法分析系统 ICTCLAS(Institute of Computing Technology, Chinese Lexical Analysis System),该系统的功能有:中文分词;词性标注;未登录词识别。分词正确率高达97.58%(最近的973专家组评测结果),基于角色标注的未登录词识别能取得高于90%召回率,其中中国人名的识别召回率接近98%,分词和词性标注处理速度为31.5KB/s。ICTCLAS 和计算所其他14项免费发布的成果被中外媒体广泛地报道,国内很多免费的中文分词模块都或多或少的参考过ICTCLAS的代码。
下载页面: http://www.nlp.org.cn/project/project.php?proj_id=6
由于 ICTCLAS 是由 C 语言写成的,现在主流的开发工具用起来不太方便,于是有一些热心的程序员把 ICTCLAS 改为 Java 和 C# 等其他语言。
(1)fenci,Java 的 ICTCLAS,下载页面: http://www.xml.org.cn/printpage.asp?BoardID=2&id=11502
(2)AutoSplit,另一个 Java 的 ICTCLAS,已经找不到下载页面,点击本地下载
(3)小叮咚中文分词,曾经有下载页面,现在找不到了。据作者介绍,从 ICTCLAS 中改进,有 Java,C# 和 C++ 三个版本,介绍页面: http://www.donews.net/accesine
三、海量智能分词研究版
海量智能计算技术研究中心为了使中文信息处理领域的研究者们能够共同分享海量智能中心的研究成果,共同提高中文信息处理水平,特此发布《海量智能分词研究版》,供专家、学者和爱好者进行研究。
下载页面: http://www.hylanda.com/cgi-bin/download/download.asp?id=8
四、其他
(1)CSW中文智能分词组件
运行环境:Windows NT、2000、XP 或更高,可以在 ASP,VB 等微软的开发语言中调用。
简介: CSW中文智能分词DLL组件,可将一段文本自动的按常规汉语词组进行拆分,并以指定方式进行分隔,且可对其拆分后的词组进行语义、词频标注。其广范应用于各行各业的信息资料检索、分析。
下载页面: http://www.vgoogle.net/
(2) C# 写的中文分词组件
据作者介绍,一个 DLL 文件,可以做中英文分词组件。完全C#托管代码编写,独立开发。
下载页面: http://www.rainsts.net/article.asp?id=48
附录:
1. Winter;中文搜索引擎技术揭密:中文分词;http://www.e800.com.cn/articles/98/1091788186451.html;2004-04-19.
来源:http://hi.baidu.com/icecho/blog/item/cc75b3b71f2a19f430add1e4.html
分享到:
相关推荐
该系统主要研究了以下几个方面: - **分词算法的设计与实现**:包括正向最大匹配法(FMM)、逆向最大匹配法(RMM)以及改进的动态FMM算法。 - **歧义字段处理技术**:探讨了歧义字段的成因、类型及其处理方法。 - **...
评估主要包括以下几个方面: - **分词准确率**:通过对比人工标注的标准数据集来评估分词的准确性。 - **运行效率**:测量分词过程的时间消耗,以及对Lucene整体性能的影响。 - **与现有方法的比较**:与其他流行的...
使用ansj分词器通常需要经过以下几个步骤: 1. 添加依赖:将ansj分词器的依赖引入到项目中,对于Maven项目,可以通过在pom.xml中添加相应的依赖项。 2. 初始化:创建分词器实例,并加载词典和模型。 3. 分词:...
4. `uCnDiv.pas`:可能包含了分词模块的核心代码,如分词算法的实现。 5. `ufrmMain.pas`:对应`ufrmMain.dfm`的源代码文件,包含了用户界面的逻辑控制。 6. `CnDiv.res`:资源文件,可能包含了程序的图标或者其他...
在这个“中文分词系统”中,我们可能涉及到以下几个关键知识点: 1. **分词原理**:中文分词的原理通常基于词典匹配、统计模型或两者结合。词典匹配法通过对比输入文本与预定义的词典来找出可能的词语;统计模型如...
在jieba-0.31版本中,我们可以看到以下几个重要文件: 1. `dict.txt`: 这是结巴分词的基础词典文件,包含了大量常用词汇和它们的词频信息。 2. `seg.py`: 包含了分词的主要逻辑,实现了多种分词策略,如最大匹配法、...
中文分词是将连续的汉字序列切分成具有语义的词汇单位的过程,它是各种中文文本处理任务(如情感分析、机器翻译、问答系统等)的前提。由于中文没有明显的空格作为词与词之间的分隔,因此分词任务相对复杂。 ### 2....
工程源码中可能包含以下几个关键部分: 1. **词典管理**:词典是分词系统的基础,通常存储了大量的词汇及其相关信息。这部分代码可能涉及词典的加载、更新和查询。 2. **分词引擎**:这部分实现具体的分词算法,如...
在"易语言模块汉字处理"中,主要包括以下几个关键知识点: 1. **汉字编码**:汉字在计算机中存储和处理通常需要用到不同的编码方式,如GBK、GB2312、UTF-8等。模块可能包含了将汉字在不同编码间转换的函数,帮助...
在Android系统上实现中文分词测试程序,通常涉及到以下几个关键技术点: 1. **分词库选择**:首先,需要选择一个适合Android平台的中文分词库。常见的有结巴分词(Jieba)、HanLP、SnowNLP等。这些分词库提供了API...
jieba分词库主要包括以下几个主要功能: 1. **基本分词**:这是jieba的核心功能,提供了精确模式、全模式和搜索引擎模式三种分词方式,满足不同场景的需求。精确模式力求准确,全模式则尽可能多地切出词语,而搜索...
实现HMM分词涉及以下几个关键步骤: 1. **初始化模型**:确定初始状态概率分布和状态转移概率矩阵。这通常可以通过统计大量已标注的语料库来完成。 2. **训练模型**:使用Baum-Welch算法或前向-后向算法更新模型...
分词器的设计通常考虑以下几个方面: 1. **词典**:分词的基础是词典,它包含了一组已知的词汇。词典可以是静态的,也可以是动态更新的。在处理特定领域文本时,可能需要额外添加专业术语。 2. **模式匹配**:分词...
在"jieba-master"压缩包中,主要包括以下几个核心部分: 1. **源代码文件**:如`jieba.py`,这是结巴分词的主要实现模块,包含了分词、精准模式、全模式和搜索引擎模式等不同方式的分词函数。 2. **词典文件**:如...
在压缩包中,我们可以看到以下几个文件或文件夹: 1. `medicine.zip`:这是医学领域的分词模型,用于处理医疗相关的文本数据。在医疗文献、病例报告、药品说明书等场景中,专业词汇和术语的准确划分对理解内容至关...
下面我们将深入探讨其中涉及的几个关键知识点。 首先,**分词**是自然语言处理(NLP)中的基础任务,它是将连续的汉字序列切分成有意义的词汇单元,如词语或短语。中文分词的难度在于汉字无明显边界,需要通过词典...
作者深入分析了分词错误的原因,发现除了文化认同和地域特点外,还存在如下几个方面的影响因素: 1. 分词算法的局限性:算法可能无法很好地适应闽菜名中出现的未登录词或专有名词。 2. 词库的不完善:对于特殊词汇和...
哈工大ITP团队在自然语言处理方面有着丰富的研究和实践经验,他们的分词系统通常具备以下几个关键知识点: 1. **中文分词原理**:中文不同于英文,单词之间没有明显的分隔符,因此需要通过特定算法来识别词边界。...
在压缩包子文件的文件名称列表中,我们看到以下几个关键文件: 1. `.project`:这是Eclipse IDE的项目配置文件,用于存储关于项目设置的信息,如源代码路径、构建路径等。这表明这个压缩包可能是从一个使用Eclipse...
中文信息分词是自然语言处理(NLP)中的基础步骤,其目的是将连续的汉字序列切分成具有独立语义的词语序列。这是因为汉语中没有像英语那样的空格来自然地划分单词,因此需要通过特定算法进行分词。中文分词在文本...