庖丁分词的源码分析（4）分词过程

huangyunbin

浏览: 2616720 次
性别:
来自: 广州

最近访客更多访客>>

cht的大摩托

xiaoxiaoHer

zzqfsy

为了ta

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

庖丁分词的源码分析

庖丁分词源码分析

庖丁分词的主要分词实现是CJKKnife，主要的方法是dissect方法。但是这个方法300多行，我不想全部贴出来。我选一些重点说说。dissect首先会用到assignable方法，其实就是找到要分词的对象，这里主要是中文。遇到不是中文的就强行截断了，后面的再继续开始。

	/**
	 * 分解以CJK字符开始的，后可带阿拉伯数字、英文字母、横线、下划线的字符组成的语句
	 */
	public int assignable(Beef beef, int offset, int index) {
		char ch = beef.charAt(index);
		if (CharSet.isCjkUnifiedIdeographs(ch))
			return ASSIGNED;
		if (index > offset) {
			if (CharSet.isArabianNumber(ch) || CharSet.isLantingLetter(ch)
					|| ch == '-' || ch == '_') {
				return POINT;
			}
		}
		return LIMIT;
	}

GO_UNTIL_LIMIT: while (true) {
			switch (assignable(beef, offset, limit)) {
			case LIMIT:
				break GO_UNTIL_LIMIT;
			case POINT:
				if (point == -1) {
					point = limit;
				}
			}
			limit++;
		}

如果从字典找到有：

if (curSearch.isHit()) {

					if (!word.isNoise()) {
						collector.collect(word.getText(), curSearchOffset,
							curSearchEnd);
					}
					}

把这个放到结果容器里去，当然这个容器还会再处理，就是最长和最多的分词实现，这个下篇文章会细说。
其实这个已经是分词的主要实现了，去找字典，找到的就切分出来，找不到字典的怎么办：

dissectIsolated(collector, beef, maxDicWordEnd, offsetLimit);

这个方法执行的就是两个字一分而已。

当然还有处理“”《》这些特殊情况的：

int len = limit - offset;
		if (len > 2 && len != maxDicWordLength
				&& shouldBeWord(beef, offset, limit)) {
			collector.collect(beef.subSequence(offset, limit).toString(),
					offset, limit);
		}

这样其实整个过程就完了，但是如何尽早确定这个词不在字典里，这个很关键，这个就用到了上篇文章说的，字典查询返回的几个状态了：

// 若isolatedFound==true，表示词典没有该词语
				boolean isolatedFound = curSearch.isUndefined();

				// 若isolatedFound==false，则通过Hit的next属性检视词典没有beef的从offset到curWordEnd
				// + 1位置的词
				// 这个判断完全是为了减少一次词典检索而设计的，
				// 如果去掉这个if判断，并不影响程序的正确性(但是会多一次词典检索)
				if (!isolatedFound && !curSearch.isHit()) {
					isolatedFound = curSearchEnd >= limit
							|| beef.charAt(curSearchEnd) < curSearch.getNext()
									.charAt(curSearchLength);
				}
				// 2)
				// 词汇表中没有该词语，且没有以该词语开头的词汇...
				// -->将它记录为孤立词语
				if (isolatedFound) {

分享到：

庖丁分词的源码分析（5）最多分词和 ... | 庖丁分词的源码分析（3）字典文件的生成 ...

2013-04-09 00:00
浏览 1394
评论(0)
论坛回复 / 浏览 (0 / 1397)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

庖丁分词的源码分析（4）分词过程

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

庖丁分词的源码分析 （4） 分词过程

评论

发表评论

相关推荐

庖丁分词的源码分析 （6） 我自己对庖丁分词的修改应用

庖丁分词的源码分析 （5） 最多分词和最长分词

庖丁分词的源码分析 （3）字典文件的生成和使用

庖丁分词的源码分析(2) 自动更新字典

最近访客更多访客>>

庖丁分词的源码分析（4）分词过程

庖丁分词的源码分析（6）我自己对庖丁分词的修改应用

庖丁分词的源码分析（5）最多分词和最长分词

庖丁分词的源码分析（3）字典文件的生成和使用