中文分词基本算法介绍

DSQiu

浏览: 1414552 次
性别:
来自: 广州

最近访客更多访客>>

ymgjava

spike_wq

sdsunrunner

hackxboy

博主相关

博客

微博

相册

留言

关于我

博客专栏

: NGUI所见即所得
浏览量：197698

: Effective C# ...
浏览量：0

文章分类

社区版块

存档分类

博客分类：

自然语言处理

中文分词中文信息处理自然语言处理

中文分词基本算法介绍

本文内容框架：

1、基于词典的方法（字符串匹配，机械分词方法）

2基于统计的分词（无字典分词）

3基于规则的分词（基于语义）

4基于字标注的中文分词方法

5基于人工智能技术的中文分词方法

6中文分词的难点

7小结

基于词典的方法、基于统计的方法、基于规则的方法等

1、基于词典的方法（字符串匹配，机械分词方法）

定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

按照扫描方向的不同：正向匹配和逆向匹配

按照长度的不同：最大匹配和最小匹配

1.1正向最大匹配思想MM

1》从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。

2》查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。

若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

1.2邻近匹配算法

邻近匹配算法是正向最大匹配算法的改进，因为正向正向最大匹配算法对每个不存在的长字符串都要进行一次二分搜索，算法复杂度太高，可以利用同一个首字符下的词条按升序排列这一条件，在找到某个字符串后，在其后增加一个字得到一个新字串，如果新字串在词典中出现，那么新词一定在原字串的后面，且相隔位置不会太远。这样就可以加快匹配进程。

1.3逆向最大匹配算法RMM

该算法是正向最大匹配的逆向思维（最大匹配的顺序不是从首字母开始，而是从末尾开始），匹配不成功，将匹配字段的最前一个字去掉，实验表明，逆向最大匹配算法要优于正向最大匹配算法。

1.4双向最大匹配法(Bi-directction Matching method,BM)

双向最大匹配法是将正向最大匹配法得到的分词结果和逆向最大匹配法的到的结果进行比较，从而决定正确的分词方法。据SunM.S. 和 Benjamin K.T.（1995）的研究表明，中文中90.0％左右的句子，正向最大匹配法和逆向最大匹配法完全重合且正确，只有大概9.0％的句子两种切分方法得到的结果不一样，但其中必有一个是正确的（歧义检测成功），只有不到1.0％的句子，或者正向最大匹配法和逆向最大匹配法的切分虽重合却是错的，或者正向最大匹配法和逆向最大匹配法切分不同但两个都不对（歧义检测失败）。这正是双向最大匹配法在实用中文信息处理系统中得以广泛使用的原因所在。

1.5最短路径匹配算法(Shortest path match)

最短路径匹配算法是根据词典，找出字串中所有可能的词（也称全分词），然后构造词语切分有向无环图。这样，每一个词对应图中的一条有向边。若赋给相应的边长一个权值（该权值可以是常数，也可以是构成的词的属性值），然后针对该切分图，在起点到终点的所有路径中，求出最短路径，该最短路径上包含的词就是该句子的切分结果。最短路径匹配算法的规则是使切分处理的词数最少，符合汉语自身的语言规律。但是，同样发现在实际应用中，同样不能正确切分出许多不完全符合规则的句子。如果有多条最短路径，往往只能保留其中一个结果，这样对其他同样符合要求的结果是不公平的，也缺乏理论依据。

1.6基于统计的最短路径分词算法

为进一步提供切分精度，可以在词表中增加词的属性值，即为每一个词给出一个权重，这样每个词在字符串的权重就不同。最简单的词权重可以用词的词频表示，具体权重值可以通过该规模语料库获得。

2基于统计的分词（无字典分词）

主要思想：上下文中，相邻的字同时出现的次数越多，就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。

主要统计模型为：N元文法模型（N-gram）、隐马尔科夫模型(Hidden Markov Model, HMM)

2.1N-gram模型思想

模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关，整句的概率就是各个词出现概率的乘积 .我们给定一个词，然后猜测下一个词是什么。当我说“艳照门”这个词时，你想到下一个词是什么呢？我想大家很有可能会想到“***”，基本上不会有人会想到“陈志杰”吧。N-gram模型的主要思想就是这样的。

对于一个句子T，我们怎么算它出现的概率呢？假设T是由词序列W1,W2,W3,…Wn组成的，那么P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

但是这种方法存在两个致命的缺陷：一个缺陷是参数空间过大，不可能实用化；另外一个缺陷是数据稀疏严重。

为了解决这个问题，我们引入了马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。

如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bigram。即

P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

如果一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为trigram。

在实践中用的最多的就是bigram和trigram了，而且效果很不错。高于四元的用的很少，因为训练它需要更庞大的语料，而且数据稀疏严重，时间复杂度高，精度却提高的不多。设w1,w2,w3,...,wn是长度为n的字符串，规定任意词wi 只与它的前两个相关，得到三元概率模型，以此类推，N元模型就是假设当前词的出现概率只同它前面的N-1个词有关。

2.2隐马尔科夫模型思想

3基于规则的分词（基于语义）

通过模拟人对句子的理解，达到识别词的效果，基本思想是语义分析，句法分析，利用句法信息和语义信息对文本进行分词。自动推理，并完成对未登录词的补充是其优点。不成熟.

具体概念:有限状态机\语法约束矩阵\特征词库

4基于字标注的中文分词方法

以往的分词方法，无论是基于规则的还是基于统计的，一般都依赖于一个事先编制的词表(词典)。自动分词过程就是通过词表和相关信息来做出词语切分的决策。与此相反，基于字标注的分词方法实际上是构词方法。即把分词过程视为字在字串中的标注问题。由于每个字在构造一个特定的词语时都占据着一个确定的构词位置(即词位)，假如规定每个字最多只有四个构词位置：即B(词首)，M (词中)，E(词尾)和S(单独成词)，那么下面句子(甲)的分词结果就可以直接表示成如(乙)所示的逐字标注形式：

(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／

(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S

首先需要说明，这里说到的“字”不只限于汉字。考虑到中文真实文本中不可避免地会包含一定数量的非汉字字符，本文所说的“字”，也包括外文字母、阿拉伯数字和标点符号等字符。所有这些字符都是构词的基本单元。当然，汉字依然是这个单元集合中数量最多的一类字符。

把分词过程视为字的标注问题的一个重要优势在于，它能够平衡地看待词表词和未登录词的识别问题。在这种分词技术中，文本中的词表词和未登录词都是用统一的字标注过程来实现的。在学习架构上，既可以不必专门强调词表词信息，也不用专门设计特定的未登录词(如人名、地名、机构名)识别模块。这使得分词系统的设计大大简化。在字标注过程中，所有的字根据预定义的特征进行词位特性的学习，获得一个概率模型。然后，在待分字串上，根据字与字之间的结合紧密程度，得到一个词位的标注结果。最后，根据词位定义直接获得最终的分词结果。总而言之，在这样一个分词过程中，分词成为字重组的简单过程。然而这一简单处理带来的分词结果却是令人满意的。

5基于人工智能技术的中文分词方法

5.1神经网络分词算法

词算法该类分词算法是以模拟人脑运行，分布处理和简历数值计算模型工作的。它将分词知识的隐式方法存入神经网内部，通过自学习和训练内部权值，以达到正确的分词结果。

神经网络分词法的关键在于知识库（权重链表）的组织和网络推理机制的建立。算法的分词过程是一个生成分词动态网的过程，该过程是分步进行的：首先以确定待处理语句的权字串为基础，来确定网络处理单元；然后根据链接权重表激活输入/输出单元之间的链接，该过程可以采用某种激活方式，取一个汉字作为关键字，确定其链接表，不断匹配。神经网络分词法具有自学习、自组织功能，可以进行并行、非线性处理，并且反应迅速、对外界变换敏感；但是目前的基于神经网络的分词算法存在着网络模型表达复杂，学习算法收敛速度较慢，训练时间长，并且对已有的知识维护更新困难等不足。

5.2专家系统分词算法

专家系统分词算法从模拟人脑功能出发，构造推理网络，将分词过程看做是知识推理过程。该方法将分词所需要的语法、语意以及句法知识从系统的结构和功能上分离处理，将知识的表示、知识库的逻辑结构与维护作为首要考虑的问题。知识库按常识性知识与启发性知识分别进行组织。知识库是专家系统具有“智能”的关键行部件。

专家系统分词算法是一种统一的分词算法，不仅使整个分词处理过程简明，也使整个系统的运行效率提高。

6设立切分标志法这种方法

首先要收集那些标点符号（称为自然切分标志）以外的众多非自然切分标志，例如，只充当词首字或词尾的子，对这些非自然切分标志进行搜索，根据这些标志，把句子切分为若干较短的字段，然后在使用MM或者RMM等方法进一步切分。准确的说，这种方法并不是一种真正意义上的分词方法，只不过是自动分词的前处理而已。

6中文分词的难点

6.1歧义问题

最困难\最核心的问题:只用机械匹配进行分词,其精度不可能高,不能满足高标准要求.分为不同类型：交集型歧义\组合型歧义\真歧义，主要依靠上下文\语义来解决.

6.2未登录词识别

7小结

这篇文章讲的比较简单，其实就是要么太难（还不成熟），要么太简单（不够理想），但实际应用只要稍加改进就可以，日后再有收获，定来补充。如果你有任何建议或者批评和补充，请不吝留言指出，不胜感激，更多参考请移步互联网。

参考：

①abstractwind： http://www.cnblogs.com/lvpei/archive/2010/08/04/1792409.html

②朱巧明，李培峰等：中文信息处理技术教程

③尹炳龙：消除交叉歧义中文分词算法的研究与应用

1
顶

3
踩

分享到：

Skip List（跳跃表）原理详解与实现 | 散列表（Hash）概述

2012-10-25 11:01
浏览 14875
评论(2)
分类:非技术
查看更多

2 楼 DSQiu 2012-11-01

3.14hgh 写道

如果没记错的话，以前我看过这个网页，应该不是楼主自己写的吧。 ^_^

嗯，是我整理的，还有综合了其他方法，文末有参考索引……

1 楼 3.14hgh 2012-11-01

如果没记错的话，以前我看过这个网页，应该不是楼主自己写的吧。 ^_^

发表评论

您还没有登录,请您登录后再发表评论

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

中文分词基本算法介绍

中文分词基本算法介绍

本文内容框架：

1、基于词典的方法（字符串匹配，机械分词方法）

2基于统计的分词（无字典分词）

3基于规则的分词（基于语义）

4基于字标注的中文分词方法

5基于人工智能技术的中文分词方法

6中文分词的难点

7小结

基于词典的方法、基于统计的方法、基于规则的方法等

1、基于词典的方法（字符串匹配，机械分词方法）

定义:按照一定策略将待分析的汉字串与一个“大机器词典”中的词条进行匹配，若在词典中找到某个字符串，则匹配成功。

按照扫描方向的不同：正向匹配和逆向匹配

按照长度的不同：最大匹配和最小匹配

1.1正向最大匹配思想MM

1》从左向右取待切分汉语句的m个字符作为匹配字段，m为大机器词典中最长词条个数。

2》查找大机器词典并进行匹配。若匹配成功，则将这个匹配字段作为一个词切分出来。

若匹配不成功，则将这个匹配字段的最后一个字去掉，剩下的字符串作为新的匹配字段，进行再次匹配，重复以上过程，直到切分出所有词为止。

1.2邻近匹配算法

1.3逆向最大匹配算法RMM

该算法是正向最大匹配的逆向思维（最大匹配的顺序不是从首字母开始，而是从末尾开始），匹配不成功，将匹配字段的最前一个字去掉，实验表明，逆向最大匹配算法要优于正向最大匹配算法。

1.4双向最大匹配法(Bi-directction Matching method,BM)

1.5最短路径匹配算法(Shortest path match)

1.6基于统计的最短路径分词算法

为进一步提供切分精度，可以在词表中增加词的属性值，即为每一个词给出一个权重，这样每个词在字符串的权重就不同。最简单的词权重可以用词的词频表示，具体权重值可以通过该规模语料库获得。

2基于统计的分词（无字典分词）

主要思想：上下文中，相邻的字同时出现的次数越多，就越可能构成一个词。因此字与字相邻出现的概率或频率能较好的反映词的可信度。

主要统计模型为：N元文法模型（N-gram）、隐马尔科夫模型(Hidden Markov Model, HMM)

2.1N-gram模型思想

对于一个句子T，我们怎么算它出现的概率呢？假设T是由词序列W1,W2,W3,…Wn组成的，那么P(T)=P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

但是这种方法存在两个致命的缺陷：一个缺陷是参数空间过大，不可能实用化；另外一个缺陷是数据稀疏严重。

为了解决这个问题，我们引入了马尔科夫假设：一个词的出现仅仅依赖于它前面出现的有限的一个或者几个词。

如果一个词的出现仅依赖于它前面出现的一个词，那么我们就称之为bigram。即

P(T) = P(W1W2W3…Wn)=P(W1)P(W2|W1)P(W3|W1W2)…P(Wn|W1W2…Wn-1)

≈P(W1)P(W2|W1)P(W3|W2)…P(Wn|Wn-1)

如果一个词的出现仅依赖于它前面出现的两个词，那么我们就称之为trigram。

2.2隐马尔科夫模型思想

3基于规则的分词（基于语义）

通过模拟人对句子的理解，达到识别词的效果，基本思想是语义分析，句法分析，利用句法信息和语义信息对文本进行分词。自动推理，并完成对未登录词的补充是其优点。不成熟.

具体概念:有限状态机\语法约束矩阵\特征词库

4基于字标注的中文分词方法

(甲)分词结果：／上海／计划／N／本／世纪／末／实现／人均／国内／生产／总值／五千美元／

(乙)字标注形式：上／B海／E计／B划／E N／S 本／s世／B 纪／E 末／S 实／B 现／E 人／B 均／E 国／B 内／E生／B产／E总／B值／E 五／B千／M 美／M 元／E 。／S

5基于人工智能技术的中文分词方法

5.1神经网络分词算法

词算法该类分词算法是以模拟人脑运行，分布处理和简历数值计算模型工作的。它将分词知识的隐式方法存入神经网内部，通过自学习和训练内部权值，以达到正确的分词结果。

5.2专家系统分词算法

专家系统分词算法是一种统一的分词算法，不仅使整个分词处理过程简明，也使整个系统的运行效率提高。

6设立切分标志法这种方法

6中文分词的难点

6.1歧义问题

最困难\最核心的问题:只用机械匹配进行分词,其精度不可能高,不能满足高标准要求.分为不同类型：交集型歧义\组合型歧义\真歧义，主要依靠上下文\语义来解决.

6.2未登录词识别

7小结

参考：

评论

发表评论

相关推荐

未登录词获取

分词歧义消解

最近访客更多访客>>