ansj词典加载及简要分词过程

goofyan

浏览: 15248 次
性别:
来自: 杭州

最近访客更多访客>>

zjwangmail

士大夫地方

唯一用户名007

a83652299

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

开源框架

ansj 分词

粗略看了点ansj源代码，记录备忘。

词典等配置文件加载类（以调用NlpAnalysis分词类为例）：

1， MyStaticValue

初始化NlpAnalysis中static的静态变量splitword时调用了MyStaticValue类，该类中几乎所有变化、方法均是静态的。包括以ResourceBundle.getBundle("library")获取library.properties配置文件，读取用户词典路径、歧义词典路径、是否用户辞典不加载相同的词isSkipUserDefine、isRealName。并读取resources目录下的company、person、newword、nature（词性表、词性关联表）等文件夹中的数据，及resources目录下bigramdict.dic（bi-gram模型）、英文词典englishLibrary.dic、数字词典numberLibrary.dic，以及加载crf模型。

2，DATDictionary

在MyStaticValue读取数据中，如加载bigramdict.dic时，会根据词调用DATDictionary.getItem获取AnsjItem，而在DATDictionary类中包含静态变量DAT，加载core.dic这个核心词典，构造双数组trie树

3，UserDefineLibrary

NlpAnalysis的父类Analysis中定义成员ambiguityForest，初始化为UserDefineLibrary.ambiguityForest。UserDefineLibrary类中均为静态方法。该类加载配置文件中userLibrary项对应路径的词典，包括用户词典，及歧义词典。均加载为Forest。

各词典内容及加载：

core.dic为构造双数组trie树，森林。

DATDictionary.loadDAT()中加载，返回DoubleArrayTire。（有限状态的自动机。每个节点代表自动机的一个状态，根据变量的不同，进行状态转移，当到达结束状态或者无法转移的时候，完成查询DoubleArrayTire.getItem）

理解双数组：1是base-index，2是check-index。base用于确定状态的转移，check用于检验转移的正确性

11万。第一行是树大小。

列：index(词id),name(词),base,check,status,{词性=词频,词性=词频….}

Index是dat数组的下标，对于字，是字符的ascii码

name不一定是一个词，也可能是词的前缀

base默认为65536（2的16次方）。词的index为前缀词的base+末字。如index(泰晤士报)=base(泰晤士)+‘报’。65536表示为叶子节点

check是词由哪个词转换过来的，即前缀。如公因数、公因式的check为118193，而118193为公因的id。而公因的check为20844，为公的id。单字为-1

status是当前单词的状态。status>1时用index、词性词频构成词。词的默认词性为词频最大的词性。IN_SYSTEM中只保存status<4的词，status<2的词name被赋为null。status为各个值的意义，见Analysis.analysis方法及以下词典文件：1为词性词频为null的字、词，不能单独存在，应继续；4为圆半角英文字母及'；5为数字、小数点、百分号；2、3为词，其中2表示是个词但是还可以继续，3表示停止已经是个词了。

core词典参考附件

人名标注先后加载person/person.dic和person/asian_name_freq.data

人名加载在DATDictionary.loadDAT()方法中仅次于读取何鑫词典生成双数组trie树执行。PersonAttrLibrary调用MyStaticValue加载。两者加载在同一个map中，key为词，value为PersonNatureAttr。两个pna不同。前者的pna调用addFreq设置begin、end、split、allFreq，后者的pna调用setlocFreq设置词在某一长度的词中某一位置的词频。加载完后若词的长度为1且不在dat中，将其添加到dat中

person.dic词语的上下文。格式列：词,index,freq。index取值为11(人名的下文),12(两个中国人名之间的成分),44(可拆分的姓名)

asian_name_freq.data（对象反序列化）字体位频率表。初始文件加载结果为一个map，key为词，value为大小为3的数组，各元素分别为大小为2、3、4的数组。分别表示在2字人名、3字人名、4字人名中第1-2,1-3,1-4个位置出现的概率。参考http://ansjsun.iteye.com/blog/1678483

词性及词性标注

nature/nature.map四列，index,词性index,词性,词性allfreq。其中所列的词性比下表中提供的词性少，仅有其中的一类和部分二类词性（也并非子集）。

词性表参考附件

nature/nature.table是词性关联表。行数（50行）等同于nature.map中的行数，并且与nature.map相对应，即每行表示的词性同nature.map中的词性。每行中有50个列，即构成50*50的矩阵，每个（i，j）位置的数值表示从前一个词的词性i变化到下一个词的词性j的发生频次。用在词性标注工具类NatureRecognition中

词性标注：NatureRecognition.recognition()。以传入的分词结果构造NatureRecognition对象，其中成员natureTermTable为二维数组，每行表示当前词的词性数组NatureTerm[]。

bigramdict.dic

词关联表。Bi-Gram。词典中为词与词之间的关联数据，@前为from，后为to及词频。

Bi-Gram，是二元的N-Gram（汉语语言模型，又称为一阶马尔科夫链。该模型基于这样一种假设，第n个词的出现只与前面N-1个词相关，而与其它任何词都不相关）。计算出每种分词后句子出现的概率，并找出其中概率最大的，即为最好的分词方法。

用户自定义词典：library.properties中配置，MyStaticValue加载配置文件，由UserDefineLibrary根据词典路径加载词典。用户词典可以为目录，其中的词典必须后缀名为dic，如果设置了MyStaticValue.isSkipUserDefine，且在核心词典中存在该词，则跳过；若当前行只有列数不为3，以默认词性userDefine/词频1000构造。Library.insertWord(forest, value)加载用户自定义词典：添加过程：初始branch指向forest。每个字生成一个branch，除最后一个字生成的branch的status为3，参数为resultParams外，其余的branch的status为1，参数为null。在当前字branch的子节点branches中二分查找下一个字（其中branches是字典序排列的），若查找失败，添加到合适位置上，否则更新当前branch的status（1继续，2是个词语但是还可以继续，3确定nature）

歧义词典ambiguity.dic

加载过程中不负责解析歧义，只区分原词temp和剩下所有的词resultParams（数组），逐字添加temp到forest中。歧义词典只有一个文件。添加temp的过程为同添加用户自定义词典的过程，调用Library.insertWord。歧义词典中的词性不是很重要，但是需要。词性也可是null，若是null，分词后该词无词性标注。歧义词典中也可以只有一个词，定义一定要分的词，如“江湖上江湖上 n”，这种情况下“江湖上”是比分的。要慎用。

crf模型：crf/crf.model

由MyStaticValue调用。该model文件是由crf++生成的明文模型调用GZIPOutputStream压缩过后的文件。Model.writeModel执行。Model.loadModel调用GZIPInputStream执行解压

CRF++模型文件model

模型格式参考：http://www.hankcs.com/nlp/the-crf-model-format-description.html（CRF模型格式）

CRFModel.parseFile读取模型文件。依次读取文件头【其中maxid为特征数，即特征权值的行数】、标签【statusMap存储输出标签，即状态。tagNum为标签数，若为BEMS则为4】、模板【同crf++训练是的template文件中的内容，去掉空行。Template.parse解析模板，返回一个Template t，其ft变量为二维数组，其大小为模板的行数，t.ft[index] = ints，其中index为每行模板的编号，ints为数组，其值为对应的行号(代码中为空格分隔，且与列位置无关)。如“U05:%x[-2,0]/%x[-1,0]/%x[0,0]”，t.ft[5] = ints[-2,-1,0]，t.left、t.right分别为ints中数值的最小值与最大值】、特征函数【每行是一个TempFeature。如“107540 U05:一/方/面”，id为107540/tagNum，featureId为5，name为词，即“一方面”。其中id为16开始，而0-15为BEMS转移到BEMS的转移函数，id也不是连续的，而是隔了tagNum个】、特征函数权值【依id顺序对应每个特征函数的权值，前16行为转移函数权值，用二维数组status表示。随后返回map，myGrad，key为词，value为Feature。连续的4个权值对应一个特征函数BEMS状态下的权值，例如第17-20行权值对应id为16的特征函数。每读一行权重，更新Feature的value、w，其中value为4个权重累加，w为二维数组，大小同t.ft的大小，w[fIndex][sta]，fIndex对应TempFeature中的featureId，sta为0-tagNum-1，相同的fIndex和sta权重累加，即若存在相同的特征函数和输出状态，权重累加】。

SplitWord(Model model)根据statusMap标签构造SplitWord对象

分词过程Analysis.analysisStr：

1， 构造最短路径图Graph

2， 判断是否启用歧义词典。若是，找出句子中是否包含歧义词。若不存在，对整个句子调用Analysis.analysis；若存在，优先歧义词：以歧义词分隔原句子，根据歧义分词数组中的词及词性逐个添加到graph中，并对非歧义词的部分分别调用Analysis.analysis。Analysis.analysis的过程为按字从DAT中找，通过GetWordsImpl.allWords()查询字在DAT中的base、check等获得状态返回单字或词，调用graph.addTerm添加节点到graph的terms数组中，同时标注是否为数字，英文

以下例子：“让战士们过一个欢乐祥和的新春佳节”，添加完后terms为如图1所示

而以下例子：“让战士们过一个阖家欢乐的新春佳节”，添加完后terms为如图2所示

原因是阖、阖家在core中的status均为1，认为不是词应继续；而欢、祥、战等的status为2，认为是词，只是可以继续

1， 调用getResult(graph)获取分词结果。各粒度的分词结果区别就在于该方法，analysisStr都没有重写，都是调用父类的。各重写的getResult(graph)方法中均定义Merger类，包含merger()和getResult()方法，代为获取分词结果。Merger中首先调用graph.walkPath()遍历打分。（官方说明：N最短路径的粗切分，根据隐马尔科夫模型和viterbi算法，达到最优路径的规划）

graph.walkPath()计算过程：从根节点开始，依次获取terms中各个节点，对其各个前置节点，分别计算分值，取分值最小的设置为其from节点。其中该分值表示为从from节点到当前节点的可能性，计算该分值在MathUtil.compuScore中，（hmm/viterbi算法：转移概率+表现概率），为from节点的score+当前value，而当前value由from所属词性的频率及bigramdic中设定的from到当前词的关联数值等决定。随后调用optimalRoot()根据路径从后往前修改terms数组，将不在路径上的term设为null，非null的依次就是该句的分词结果

BaseAnalysis的分词过程极为以上的过程

ToAnalysis多支持了用户词典、数字、人名的识别。在Merger.merger()中增加了NumRecognition.recognition()、AsianPersonRecognition().recognition()、userDefineRecognition等

其中userDefineRecognition是在基础分词步骤3的基础上，遍历所生成的terms数组中的词，根据词是否结束，即状态1-3，识别是不是在用户自定义词典中。若自定义词生效，即需要更新terms数组。具体步骤：

1，UserDefineRecognition().recognition()执行后找出了句子中在用户自定义词典中的词，在对应词的位置生成新的节点term，为原term的next节点

2，graph.rmLittlePath()匹配最长的term，执行后若无交叉，以最长匹配更新terms中的词，否则暂不修改

3，graph.walkPathByScore()的mergerByScore对节点遍历打分。打分类似于walkPath()，区别在于walkPath()计算分值时使用了viterbi算法，而该方法仅考虑了词频。当前词的分值为本词的负词频与from词的分值之和。由此分值往后传递。词频高的词优于词频低的词就在这体现。执行后的结果是根据最优路径修改各词的from节点和分值

如以下例子："上海电力怎爸爸去哪儿么办"，原分词结果为[上海/ns,电力/n, 怎/r, 爸爸/n, 去/v, 哪儿/r, 么/y, 办/v]，若添加用户词“爸爸去哪儿”，该词生效，其中term“爸爸去哪儿”为term“爸爸”的next节点，分词结果为“上海/电力/怎/爸爸去哪儿/么/办”；若用户词为“怎爸”，不能生效；甚至用户词为“爸爸去哪”，也不能生效，虽然能识别出“爸爸”和“去”，但是“哪儿”不在用户词典所创建的树中。若用户词包含“爸爸去哪儿”和“去哪儿了呢”，且前者词频高于后者，前者被分出来；否则后者被分出来，词频相同时根据从后往前原理，也是后者优先。

IndexAnalysis和ToAnalysis类Merger的merger方法相同，区别在于Merger的getResult方法，后者仅移除terms数组中为null的term，而前者针对长度大于等于3的词，还会调用GetWordsImpl.allWords()进行一次分词，将其中长度超过1的词也添加到terms数组中

NlpAnalysis与ToAnalysis的区别在于它在标准分词的基础上会进行词性调整NatureRecognition.recognition()，并引入了crf模型来分词，以及增加了新词发现LearnTool等功能

其中词性标注NatureRecognition.recognition()，标准分词结果中的词性是取得core词典中该词freq最高的词性，而该方法会对所有的词性比较，计算各个词性到后一个词词性的可能性，该可能性与nature.table中定义的词性相关性及词性本身的频率有关，计算见MathUtil.compuNatureFreq。将计算结果最大的设为后一个词性的from词性。

LearnTool.learn方法中只有对亚洲和外国人名的识别，没有其他功能。

其他辅助类及辅助方法：

GetWordsImpl.getStatement 0.代表这个字不在词典中 1.继续 2.是个词但是还可以继续 3.停止已经是个词了。

WordAlert是字符串规范的转换类

MathUtil是计算的类，包括计算两个词性之间的分数（NatureLibrary.getTwoNatureFreq，根据NATURETABLE），两个词之间的分数（NgramLibrary.getTwoWordFreq，NgramLibrary中加载）等

Analysis.setRealName，可能是分词过程中将部分词进行了标准化，比如繁体转简体，%等（见DATDictionary.IN_SYSTEM），该方式是返回原句的分词。但是测试“％”始终返回的是原词

ansj-core词典等.zip (4.5 MB)
下载次数: 22

查看图片附件

分享到：

struts理解

2015-07-03 09:38
浏览 6430
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论