如何打造自己的coreseek/sphinx分词词库

鱼儿鱼儿猫猫

浏览: 27226 次
性别:
来自: 上海

最近访客更多访客>>

xiaomabobo

黄小胖

吝啬你的温柔

zx119koko

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Sphinx
php

php

下面给大家介绍一下如何打造自己的coreseek分词词库。 coreseek自身带的词库不是很大，直接使用它分词可能会返回大量没用结果。要想搜索结果准确打造一个专门的分词词库必不可少。

i. 首先到搜狗http://pinyin#sogou#com/dict/下载你要的词库

ii. 因为下载回来的词库不是文本文件我们不能直接使用，所以要先转换成文本文件。网上找一个搜狗转 google的小工具，用它把你下载的全部词库转成文本文件。合并为一个文件命名为words.txt。文件要用utf8编码保存，如果想直接使用我下面的工具进行转换的话文件名一定要是words.txt。如果你想自己转换请参考官网上的方法http://www#coreseek#cn/opensource/mmseg/

iii. 现在我们有了一个初步的词库，但这个词库还不能直接使用，要再整理并转换coreseek使用的格式才行。这里我提供一个自己编写的小程序方便转换。源程序如下：

 


1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
46
47
48
49
50
51
52
53
54
55
56
57
58
59
60

/**
Last edit 2012-8-11
Copyrigh@ www.4ji.cn
**/

ini_set('max_execution_time','6000');
 

$buffer=ini_get('output_buffering');

if($buffer)ob_end_flush();
 

echo'处理新词库...

';

flush();

$filename="words.txt";

$handle=fopen($filename,"r");

$content=fread($handle,filesize($filename));
 

fclose($handle);
 

$content=trim($content);

$arr1=explode("\r\n",$content);

$arr1=array_flip(array_flip($arr1));

foreach($arr1as$key=>$value){

$value=dealchinese($value);

if(!empty($value)){

$arr1[$key]=$value;
}

else{

unset($arr1[$key]);
}
 
}
 

echo'处理原来词库...

';flush();

$filename2="unigram.txt";

$handle2=fopen($filename2,"r");

$content2=fread($handle2,filesize($filename2));

fclose($handle2);

$content2=dealchinese($content2,"\r\n");

$arr2=explode("\r\n",$content2);

echo'删除相同词条...

';flush();

$array_diff=array_diff($arr1,$arr2);
 

echo'格式化词库...

';flush();

$words='';

foreach($array_diffas$k=>$word){

$words.=$word."\t1\r\nx:1\r\n";
}
//echo $words;

file_put_contents('words_new.txt',$words,FILE_APPEND);

echo'done!';
 

functiondealChinese($str,$join=''){

preg_match_all('/[\x{4e00}-\x{9fff}]+/u',$str,$matches);//将中文字符全部匹配出来

$str=join($join,$matches[0]);//从匹配结果中重新组合

return$str;
}
?>

使用方法如下：

1. 把words.txt,转换工具words_format.php及c:\coreseek\etc\unigram.txt三个文件放到能运行php的服务器同一个目录下.

2. 然后访问words_format.php .

3. 等待程序运行完，时间长短要看你词的多少，太多的话中间可能假死。运行完后会在相同目录下生产 words_new.txt把这个文件加到原unigram.txt的后面，保存备用.

4. 把上面得到的文件unigram.txt复制到C:\coreseek\bin然后在命令行下进入目录C:\coreseek\bin 执行 mmseg -u unigram.txt 该命令执行后，将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件，将该文件改名为uni.lib，完成词典的构造。

5. 测试新词库能否正解分词。在C:\coreseek\bin下新建文本文件test.txt。输入要测试的关键词。例如:四季服装网中大面料辅料，然后保存。当中一定要包含你新加进词库的某个关键词。例如四季服装网是我新加的关键词。然后在刚才的命令行下执行mmseg -d C:\coreseek\bin test.txt>result.txt .执行完后打开新生产的结果文件result.txt .如果看到分词结果类似四季服装网/x 中大/x 面料/x 辅料/x 的话证明词库已正确生成，如果看到新关键词被分切开如: 四/x 季/x 服/x 装/x网/x 中大/x 面料/x 辅料/x的话就说明新的词库并不正确。要检查一下哪里出错了，重新生产。

6. 再把得到的uni.lib复制到C:\coreseek\etc覆盖原文件就大功告成了

====================================

使用命令行构造词典：详情看这个coreseek词典构造 http://www.coreseek.cn/opensource/mmseg/

词典的构造

mmseg -u unigram.txt

该命令执行后，将会在unigram.txt所在目录中产生一个名为unigram.txt.uni的文件，将该文件改名为uni.lib，完成词典的构造。需要注意的是，unigram.txt需要预先准备，并且编码格式必须为UTF-8编码。

特别提醒：Windows下面编辑词典文件，请使用Notepad2，绝对不要使用记事本（Notepad）。

词典文件格式：

....
河 187
x:187
造假者 1
x:1
台北队 1
x:1
湖边 1
......

其中，每条记录分两行。其中，第一行为词项，其格式为：[词条]\t[词频率]。特别提醒，有的编辑器会使用4到8个空格代表\t，这将导致该词条无法解析。需要注意的是，对于单个字后面跟这个字作单字成词的频率，这个频率需要在大量的预先切分好的语料库中进行统计，用户增加或删除词时，一般不需要修改这个数值；对于非单字词，词频率处必须为1。第二行为占位项，是由于LibMMSeg库的代码是从Coreseek其他的分词算法库（N-gram模型）中改造而来的，在原来的应用中，第二行为该词在各种词性下的分布频率。LibMMSeg的用户只需要简单的在第二行处填"x:1"即可。

将修改好的uni.lib 放到mmseg对应的目录下就可以了

分享到：

PPython - 打通python3 + php | useragent收集

2017-04-04 22:20
浏览 977
评论(0)
分类:互联网
查看更多

发表评论

文章已被作者锁定，不允许评论。

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论