中文分词庖丁解牛

zpchen

浏览: 207551 次
性别:
来自: 北京

最近访客更多访客>>

cpjit

Java技术干货

sunxue299

kook_82

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

lucene全文搜索引擎

lucene SVN 算法 Google .net

(转载自 javaeye 会员Qieqie )
庖丁解牛最新版本2.0.0

主要变更：

1)调整了package命名改为net.paoding.analysis开头；调整了一些类的命名，主要是XAnalyzer改为
PaodingAnalyzer之类的。

2)并调整了部分代码的相对位置：代码集中在三个包中：
net.paoding.analysis.dictionary 字典抽象--这是核心代码之一
net.paoding.analysis.knife "刀"抽象-分词算法-这是核心代码之二
net.paoding.analysis.analyzer 封装adapter到lucene接口
关键代码没有任何改变，特别是CJKKnife没有发现错误。

3)同时，将字典改为英文命名，避免操作系统中文命名带来不必要影响

4)增加了配置文件；使knife可以在配置文件配置增减，同时字典的安装路径可以随意指定。

5)BUGFIX : highlight位置错误

下载地址：http://code.google.com/p/paoding/downloads/list
SVN地址：http://paoding.googlecode.com/svn/trunk/paoding-analysis/

-------------------------------------------------------------------
选择"庖丁解牛"作为Lucene中文分词可能有以下理由：

@设计优美-使用庖丁隐喻，容易理解代码设计

@效率极高-极高效率的字典查找算法；尽量避免无谓试探查找

@算法简练-简单易理解的算法，但效率却是非常高效的

@轻松支持最大/最小切词

@字典灵活-
字典文件个数不限；
名称不限，只要符合以dic作为扩展名的均视为字典
目录层级不限(所以可以任意加减字典目录以及目录下的字典)
字典格式简单：不需要特别排序，人工可编辑

@源代码是开放的，遵守http://www.apache.org/licenses/LICENSE-2.0协议

@作者能力：Java基础知识、设计能力扎实、持续关注改进

-------------------------------------------------------------------
"庖丁解牛" 使用指南

1、准备
1)将二进制包paoding-analyis.jar放到自己的classpath下

2)将字典文件安装(也就是拷贝)到某个目录下，比如/data/paoding/dic下

3)把配置文件paoding-analysis.properties放到自己的classpath下

4)打开paoding-analysis.properties，把paoding.dic.home属性设置为字
典的安装目录，比如paoding.dic.home=/data/paoding/dic，特别的，如
果字典是安装在classpath下的dic目录下，则可以简单这样配置该属性：
paoding.dic.home=classpath:dic

2、建立索引
1)将庖丁封装成符合Lucene要求的Analyzer规范,获取writer mode的lucene
分析器，writer mode意味要同时支持最大和最小切词。
Paoding paoding = PaodingMaker.make();
Analyzer writerAnalyzer = PaodingAnalyzer.writerMode(paoding);

Paoding应保存为一个系统单例为好，以重复利用，它是线程安全的.

2)使用Lucene标准API对文件建立索引。
IndexWriter writer = new IndexWriter(dirctory, writerAnalyzer);
...

3、检索查找
1)使用Lucene标准API对文件进行检索，使用和建立索引时相同种的lucene分析器。
QueryParser parser = new QueryParser("content", writerAnalyzer );
...

更具体的使用方式参见
examples/net.paoding.analysis.examples.gettingstarted中的示例代码

------------------------------------------------------------------
"庖丁解牛"google 论坛：
http://groups.google.com/group/paoding

"中文分词" Javaeye 论坛：
http://analysis.group.iteye.com/

svn地址:
http://paoding.googlecode.com/svn/trunk/paoding-analysis/

旧版本地址：
http://paoding.googlecode.com/svn/trunk/paoding-analysis-1/
不建议下载旧版本

分享到：

在Lucene中删除一条指定URL的文档 | JDBC连接各种数据库经验技巧集萃

2008-05-29 14:41
浏览 2300
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论