jieba中文分词的.NET版本：jieba.NET

jiasongmao

浏览: 675946 次
性别:
来自: 石家庄

最近访客更多访客>>

huangfeng2000

wyx065747

hanmiao

因为不得不所以

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

.NET

简介

平时经常用Python写些小程序。在做文本分析相关的事情时免不了进行中文分词，于是就遇到了用Python实现的结巴中文分词。jieba使用起来非常简单，同时分词的结果也令人印象深刻，有兴趣的可以到它的在线演示站点体验下（注意第三行文字）。

.NET平台上常见的分词组件是盘古分词，但是已经好久没有更新了。最明显的是内置词典，jieba的词典有50万个词条，而盘古的词典是17万，这样会造成明显不同的分词效果。另外，对于未登录词，jieba“采用了基于汉字成词能力的HMM模型，使用了Viterbi算法”，效果看起来也不错。

基于以上两点，加上对于中文分词的兴趣，就尝试将jieba移植到.NET平台上，已经把代码放在了github上：jieba.NET。在试用jieba.NET之前，先简单介绍下jieba的实现思路。

jieba实现浅析

jieba本身提供的文档较少，但我们可以在《对Python中文分词模块结巴分词算法过程的理解和分析》、《jieba 分词源代码研读(1)》这一系列文章中一窥jieba实现的整体思路。简言之，它的核心模块和分词过程大致是：

前缀词典（Trie）：用于存储主词典，也可以动态增删词条，这个词典可以理解为jieba所“知道”的词，或者说已登录词；
有向无环图（DAG）：通过前缀词典，可以找出句子所有可能的成词结果；
最大概率路径：通过DAG，可以了解所有的成词结果，每个结果对应于一条路径及其概率。由于不同词条的出现概率不同，不同的结果就对应了不同的概率，我们找出概率最大的那条路径。到这里，我们对于已登录词做出了最合理的划分；
HMM模型和Viterbi算法：最大概率路径之后，我们可能会遇到一些未登录词（不包含在前缀词典中的词），这时通过HMM和Viterbi尝试进一步的划分，得到最终结果

这个过程与人的分词过程很类似。比如看到这句话：“语言学家参加学术会议”，我们会把它划分为：“语言学家参加学术会议”。尽管这个过程是瞬间完成的，但是它确实包含了上述过程的前三步：分词之前，大脑中已有一个“前缀词典”，它包括语言、语言学、语言学家等等各个词条；大脑知道这句话确实存在多种分词的可能；但它最后还是选出了那个最可能的结果，舍弃了诸如“语言学家参加学术会议”这样的结果。

前面这句话仅包含了已登录词，再来看另一句话：“他来到了网易杭研大厦”。一般人可以迅速做出划分：“他来到了网易 (杭研)? 大厦”，除了“杭研”这两个字，其它的都属于已登录词，容易划分出来。对于“杭研”，我们要想一想它们是两个单字呢，还是一个新词。最后，可能会伴随着这样一个过程：我知道网易是有研发中心或研究院之类的在杭州的，那么“杭研”可能是与此相关的一个缩写，嗯，又知道了一个新词。尽管这个过程与HMM不同，但我们至少了解到，jieba确实是通过某种方式去尝试寻找未登录词。

不过可以想象的是，基于状态转移概率的HMM模型（建议参考文章《中文分词之HMM模型详解》）能够发现的词应该也是比较自然或正常的词，对于新的人名、机构名或网络词（喜大普奔之类的），效果不会很好。

jieba.NET用法

jieba.NET当前版本是0.37.1，与jieba保持一致，可以通过NuGet安装：

PM> Install-Package jieba.NET

分享到：

史上最全的MSSQL复习笔记 | 前端JS验证框架

2015-09-10 09:36
浏览 817
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论