转自:http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
庖丁分词 paoding 字典的自定义加载
大家下载好了庖丁中文分词后并且在MyEclipse配置好了后,并且在wingdows的环境变量里面配好了dic的字典路径后,就想着怎么加载自定义的字典了吧,哈哈,其实很简单啦,我突然之间看到的啦,你进入dic文件夹找到paoding-dic-names.properties这个文件,用文本编辑器打开内容是这样的
#dictionary character encoding
#paoding.dic.charset=UTF-8
#dictionaries which are skip
#paoding.dic.skip.prefix=x-
#chinese/cjk charactors that will not token
#paoding.dic.noise-charactor=x-noise-charactor
#chinese/cjk words that will not token
paoding.dic.noise-word=x-noise-word
#unit words, like "ge", "zhi", ...
#paoding.dic.unit=x-unit
#like "Wang", "Zhang", ...
#paoding.dic.confucian-family-name=x-confucian-family-name
#linke "uPAN", "cdHE"
#paoding.dic.for-combinatorics=x-for-combinatorics
你把你自己建立的词库添加到这个里面,或者将已有的词库前面的#去除保存,然后运行程序就可以自动检测到了,
顺便介绍下里面的几个词库功能,前面带X的词库就是屏蔽敏感词用的,哈哈哈,你将你不希望的词放到那个文件里面就可以了,哈哈,真是太高兴了。
转自:http://hi.baidu.com/xwx520/blog/item/c288ee3eb0f5b9f0838b137f.html
庖丁解牛分词之自定义词库[自定义词典]
发现很久很久没更新了,尤其是这个模块,也就好久没进步了!学习如逆水行舟,不进则退!趁着还没到白首之际,应该多学习。
首先,还是先贴出来参考来源,毕竟非原创。
(1)、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
(2)、http://qipei.javaeye.com/blog/365207
现在继续:
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩,找到dic文件夹,复制到你想存放的文件夹下


3、配置环境变量,如果不配置,运行会报错,报错的中文信息也是需要进行配置环境变量

4、删除.compiled文件

5、新建一个文本文件,后缀名问.dic,采用utf-8保存到dic的文件目录中,这里保存在了E:/paodingTest/dic/locale中

6、下面我们写个分词测试程序

7、自定义词库的情况下分词结果,首先看到的是词库的编译信息

8、带自定义词库的分词结果

9、删除自定义词库和.compiled文件,重新分词

10、放在一起比较,效果还是有的

11、假设我们在分词的时候,需要把运、动分开,默认情况下是不分开的

12、在词库中增加两个词运和动
13、当然,如果想把这个分词器用得更好,还需要深入去了解和思考该分词方法,比如,“我是运动员”,虽然我们在自定义词库中填加了词“运动员”,但是依旧没有切分成“我”,“是”,“运动员”,反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”,“动“,”运动“,那也是需要好好思考用法,当然这也和中国汉语的特殊性有关,例如:“乒乓球拍卖完了”,在没有上下文的情况下本身就存在歧义。

相关推荐
2. **初始化**:在Java代码中,需要创建庖丁分词的实例,这通常涉及到加载词典和设置分词策略。 3. **分词处理**:调用分词API,将待处理的中文文本传入,得到分词结果。庖丁分词提供了多种分词模式,如精确模式、...
标题中的“庖丁分词jar包和dic目录”指的是一个用于中文分词处理的软件工具,其中包含了必要的jar包和字典文件。庖丁分词是基于Java开发的一个高效、可扩展的中文分词库,它借鉴了Lucene的分词技术,并在此基础上...
庖丁分词采用了基于字典匹配、动态规划等方法,结合用户自定义规则,能够灵活处理各类文本,适应不同领域的分词需求。 4. **源代码分析**: 在压缩包中的`paoding-analysis`目录下,包含了庖丁分词的核心源代码。...
庖丁解牛提供了丰富的字典资源,涵盖了各类常见词汇,同时支持用户自定义字典,以满足不同场景的需求。 3. **智能分析**:除了基础的词语切分,庖丁解牛还具备词语消歧、新词发现、关键词提取等高级功能,能够更好...
庖丁解牛中文分词器通过高效的算法和精心构建的字典,能够准确、快速地将连续的汉字序列分割成有意义的词语。在信息检索、文本分析、情感分析等众多领域,分词效果的好坏直接影响到后续处理的精度。 庖丁解牛的特点...
庖丁解牛中文分词器,只要配置好字典的路径,就可以使用庖丁解牛,可以有效针对中文进行分词,而且可以自定义词典。适用于lucene-core-3.3.0.jar,包内已经包含lucene-core-3.3.0.jar,已测试,包好用!