<转>庖丁解牛分词之自定义词库[自定义词典] -

yingbin920

浏览: 391573 次
性别:
来自: 上海

最近访客更多访客>>

fan0128

hongbo.wu

qsjiangs

粪海狂蛆

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

<转>庖丁解牛分词之自定义词库[自定义词典]

博客分类：

搜索

原链接：　http://hi.baidu.com/stone_kings/item/fff2efd6db55df2b38f6f766

发现很久很久没更新了，尤其是这个模块，也就好久没进步了！学习如逆水行舟，不进则退！趁着还没到白首之际，应该多学习。
首先，还是先贴出来参考来源，毕竟非原创。
（1）、http://blog.csdn.net/askpp/archive/2009/09/08/4532355.aspx
（2）、http://qipei.javaeye.com/blog/365207
现在继续：
1、到http://code.google.com/p/paoding/downloads/list下载paoding-analysis-2.0.4-alpha2.zip
2、然后解压缩，找到dic文件夹，复制到你想存放的文件夹下


3、配置环境变量，如果不配置，运行会报错，报错的中文信息也是需要进行配置环境变量


4、删除.compiled文件
5、新建一个文本文件，后缀名问.dic，采用utf-8保存到dic的文件目录中，这里保存在了E:\paodingTest\dic\locale中

6、下面我们写个分词测试程序
7、自定义词库的情况下分词结果，首先看到的是词库的编译信息

8、带自定义词库的分词结果


9、删除自定义词库和.compiled文件，重新分词

10、放在一起比较，效果还是有的


11、假设我们在分词的时候，需要把运、动分开，默认情况下是不分开的

12、在词库中增加两个词运和动


13、当然，如果想把这个分词器用得更好，还需要深入去了解和思考该分词方法，比如，“我是运动员”，虽然我们在自定义词库中填加了词“运动员”，但是依旧没有切分成“我”，“是”，“运动员”，反而出现了不相关的”动员“这个词语。而需要同时将”运动“切分为“运”，“动“，”运动“，那也是需要好好思考用法，当然这也和中国汉语的特殊性有关，例如：“乒乓球拍卖完了”，在没有上下文的情况下本身就存在歧义。

分享到：

maven常见问题问答 | 庖丁（Paoding）分词的词典原理解析

2012-07-03 10:21
浏览 941
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>庖丁解牛分词之自定义词库[自定义词典]

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

<转>庖丁解牛分词之自定义词库[自定义词典]

评论

发表评论

相关推荐

百度GOOGLE的用户鼠标行为分析<转>

lucene 一些性能调优建议

庖丁（Paoding）分词的词典原理解析

solr 百度相关搜索类似功能的实现

solr 索引库同步数据库

solr 对拼音搜索和拼音首字母搜索的支持

<转>Solr Suggest实现搜索智能提示

IK的整个分词处理过程

Solr的检索运算符

Solr 学习（5） —- Solr查询语法和参数

Apache Solr schema.xml及solrconfig.xml文件中文注解

<转>LUCENE3.0 自学吧 4 TermDocs

<转>Lucene里经常被聊到的几个话题

<转>浅谈文档索引普遍原理<笔记>

Lucene中Field类很重要

Lucene架构简单分析

<转>lucene3.0中Field.Index, Field.Store,Field.TermVector详解

<转>用于Lucene的各中文分词比较

Lucene3参考资料

lucene索引word/pdf/html/txt文件及检索(搜索引擎)

最近访客更多访客>>