庖丁分词 paoding 字典的自定义加载

cyjxyx

浏览: 84761 次

最近访客更多访客>>

erics

a410688531

灿烂闪电

牧夫天文

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene

转自：http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx

庖丁分词 paoding 字典的自定义加载

大家下载好了庖丁中文分词后并且在MyEclipse配置好了后，并且在wingdows的环境变量里面配好了dic的字典路径后，就想着怎么加载自定义的字典了吧，哈哈，其实很简单啦，我突然之间看到的啦，你进入dic文件夹找到paoding-dic-names.properties这个文件，用文本编辑器打开内容是这样的

#dictionary character encoding
#paoding.dic.charset=UTF-8

#dictionaries which are skip
#paoding.dic.skip.prefix=x-

#chinese/cjk charactors that will not token
#paoding.dic.noise-charactor=x-noise-charactor

#chinese/cjk words that will not token
paoding.dic.noise-word=x-noise-word

#unit words, like "ge", "zhi", ...
#paoding.dic.unit=x-unit

#like "Wang", "Zhang", ...
#paoding.dic.confucian-family-name=x-confucian-family-name

#linke "uPAN", "cdHE"
#paoding.dic.for-combinatorics=x-for-combinatorics

你把你自己建立的词库添加到这个里面，或者将已有的词库前面的#去除保存，然后运行程序就可以自动检测到了，

顺便介绍下里面的几个词库功能，前面带X的词库就是屏蔽敏感词用的，哈哈哈，你将你不希望的词放到那个文件里面就可以了，哈哈，真是太高兴了。

转自：http://hi.baidu.com/xwx520/blog/item/c288ee3eb0f5b9f0838b137f.html

庖丁解牛分词之自定义词库[自定义词典]

发现很久很久没更新了，尤其是这个模块，也就好久没进步了！学习如逆水行舟，不进则退！趁着还没到白首之际，应该多学习。
首先，还是先贴出来参考来源，毕竟非原创。
（1）、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
（2）、http://qipei.javaeye.com/blog/365207
现在继续：
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩，找到dic文件夹，复制到你想存放的文件夹下

3、配置环境变量，如果不配置，运行会报错，报错的中文信息也是需要进行配置环境变量

4、删除.compiled文件

5、新建一个文本文件，后缀名问.dic，采用utf-8保存到dic的文件目录中，这里保存在了E:/paodingTest/dic/locale中

6、下面我们写个分词测试程序

7、自定义词库的情况下分词结果，首先看到的是词库的编译信息

8、带自定义词库的分词结果

9、删除自定义词库和.compiled文件，重新分词

10、放在一起比较，效果还是有的

11、假设我们在分词的时候，需要把运、动分开，默认情况下是不分开的

12、在词库中增加两个词运和动

13、当然，如果想把这个分词器用得更好，还需要深入去了解和思考该分词方法，比如，“我是运动员”，虽然我们在自定义词库中填加了词“运动员”，但是依旧没有切分成“我”，“是”，“运动员”，反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”，“动“，”运动“，那也是需要好好思考用法，当然这也和中国汉语的特殊性有关，例如：“乒乓球拍卖完了”，在没有上下文的情况下本身就存在歧义。