`
- 浏览:
206753 次
- 性别:
- 来自:
北京
-
(转载自 javaeye 会员Qieqie )
庖丁解牛 最新版本2.0.0
主要变更:
1)调整了package命名 改为net.paoding.analysis开头;调整了一些类的命名,主要是XAnalyzer改为
PaodingAnalyzer之类的。
2)并调整了部分代码的相对位置:代码集中在三个包中:
net.paoding.analysis.dictionary 字典抽象--这是核心代码之一
net.paoding.analysis.knife "刀"抽象-分词算法-这是核心代码之二
net.paoding.analysis.analyzer 封装adapter到lucene接口
关键代码没有任何改变,特别是CJKKnife没有发现错误。
3)同时,将字典改为英文命名,避免操作系统中文命名带来不必要影响
4)增加了配置文件;使knife可以在配置文件配置增减,同时字典的安装路径可以随意指定。
5)BUGFIX : highlight位置错误
下载地址:http://code.google.com/p/paoding/downloads/list
SVN地址:http://paoding.googlecode.com/svn/trunk/paoding-analysis/
-------------------------------------------------------------------
选择"庖丁解牛"作为Lucene中文分词可能有以下理由:
@设计优美-使用庖丁隐喻,容易理解代码设计
@效率极高-极高效率的字典查找算法;尽量避免无谓试探查找
@算法简练-简单易理解的算法,但效率却是非常高效的
@轻松支持最大/最小切词
@字典灵活-
字典文件个数不限;
名称不限,只要符合以dic作为扩展名的均视为字典
目录层级不限(所以可以任意加减字典目录以及目录下的字典)
字典格式简单:不需要特别排序,人工可编辑
@源代码是开放的,遵守http://www.apache.org/licenses/LICENSE-2.0协议
@作者能力:Java基础知识、设计能力扎实、持续关注改进
-------------------------------------------------------------------
"庖丁解牛" 使用指南
1、准备
1)将二进制包paoding-analyis.jar放到自己的classpath下
2)将字典文件安装(也就是拷贝)到某个目录下,比如/data/paoding/dic下
3)把配置文件paoding-analysis.properties放到自己的classpath下
4)打开paoding-analysis.properties,把paoding.dic.home属性设置为字
典的安装目录,比如paoding.dic.home=/data/paoding/dic,特别的,如
果字典是安装在classpath下的dic目录下,则可以简单这样配置该属性:
paoding.dic.home=classpath:dic
2、建立索引
1)将庖丁封装成符合Lucene要求的Analyzer规范,获取writer mode的lucene
分析器,writer mode意味要同时支持最大和最小切词。
Paoding paoding = PaodingMaker.make();
Analyzer writerAnalyzer = PaodingAnalyzer.writerMode(paoding);
Paoding应保存为一个系统单例为好,以重复利用,它是线程安全的.
2)使用Lucene标准API对文件建立索引。
IndexWriter writer = new IndexWriter(dirctory, writerAnalyzer);
...
3、检索查找
1)使用Lucene标准API对文件进行检索,使用和建立索引时相同种的lucene分析器。
QueryParser parser = new QueryParser("content", writerAnalyzer );
...
更具体的使用方式参见
examples/net.paoding.analysis.examples.gettingstarted中的示例代码
------------------------------------------------------------------
"庖丁解牛"google 论坛:
http://groups.google.com/group/paoding
"中文分词" Javaeye 论坛:
http://analysis.group.iteye.com/
svn地址:
http://paoding.googlecode.com/svn/trunk/paoding-analysis/
旧版本地址:
http://paoding.googlecode.com/svn/trunk/paoding-analysis-1/
不建议下载旧版本
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
《Lucene中文分词:庖丁解牛》 在信息技术高速发展的今天,全文搜索引擎已经成为网站内容检索不可或缺的一部分。其中,Apache Lucene作为一个开源的全文检索库,被广泛应用于各种项目中,尤其对于处理中文文本,...
【庖丁解牛 2_0_0版本】是一个专门针对中文分词的软件工具,其在企业应用中扮演着重要角色。中文分词是自然语言处理中的基础步骤,对于文本分析、信息检索、机器翻译等领域至关重要。在这个2_0_0版本的更新中,我们...
"庖丁解牛"是一款专为中文处理设计的分词工具,其版本2.0.4-alpha2提供了更稳定和高效的分词体验。这个工具的核心功能是将中文文本拆分成有意义的词语,这对于中文信息处理、自然语言理解和搜索引擎优化等场景至关...
《Lucene中文分词——庖丁解牛》 在自然语言处理领域,中文分词是基础且关键的一环。在Java开发中,Apache Lucene是一个强大的全文搜索引擎库,但默认并不支持中文,这就需要借助第三方分词工具。本文将深入探讨...
"庖丁解牛分词器"是一款著名的中文分词工具,源自开源社区,因其高效的性能和灵活的应用场景而广受欢迎。在深入理解其源码的过程中,我们可以了解到许多关于自然语言处理(NLP)和Java编程的知识点。 1. **中文分词...
分词是将连续的汉字序列切分成有意义的词语单位,如“庖丁解牛”、“分词”等。在处理特定领域或专业术语时,系统内置的词库可能无法满足需求,这就需要自定义词库。自定义词库允许用户添加自己的专业词汇或者短语,...
《深入剖析:Lucene3与庖丁解牛中文分词器》 在信息技术飞速发展的今天,全文检索和搜索引擎已经成为日常开发中不可或缺的部分。Lucene作为一款强大的全文检索库,被广泛应用于各种信息检索系统中。然而,对于中文...
"庖丁解牛工具"是一款基于Java开发的文本分析工具,尤其在中文分词领域有着广泛的应用。这个工具的名字来源于中国古代寓言故事“庖丁解牛”,寓意对文本的精细处理和深入理解,就像庖丁对牛肉的熟练切割一样。在IT...
"庖丁解牛分词" 是一款针对中文文本处理的分词工具,主要适用于Java环境。这个工具包的名称形象地借用中国古代故事“庖丁解牛”,寓意对文本的精细处理,如同庖丁对牛肉的熟练分解。在Java开发中,分词是自然语言...
庖丁解牛中文分词器通过高效的算法和精心构建的字典,能够准确、快速地将连续的汉字序列分割成有意义的词语。在信息检索、文本分析、情感分析等众多领域,分词效果的好坏直接影响到后续处理的精度。 庖丁解牛的特点...
标题 "sorlr + tomcat+ 庖丁解牛中文分词 配置文档" 提到的是一个关于在Apache Solr中集成Tomcat服务器,并利用庖丁解牛中文分词工具进行中文处理的配置教程。这个配置过程对于搭建支持中文搜索的Solr环境至关重要。...
"庖丁解牛"是一款专为处理中文文本的分词工具,它的设计目的是为了帮助开发者更高效、准确地对中文文本进行分词处理。在自然语言处理(NLP)领域,分词是基础且关键的一环,它将连续的文本序列切分成具有独立意义的...
然而,由于中文的复杂性,简单的英文分词策略无法满足需求,于是有了针对中文的分词方法——"庖丁解牛分词法"。该方法是专门为了解决Lucene在处理中文文本时的分词难题而设计的。在本文中,我们将深入探讨这一分词法...
《庖丁解牛 源码 for Lucene 2.4》是一份针对开源全文搜索引擎Lucene 2.4版本的深度解析资料。这个压缩包包含的文件名为"paoding-for-lucene-2.4",很可能是针对中文处理的Paoding Lucene库的源代码分析或扩展。...
Paoding's Knives 中文分词具有极 高效率 和 高扩展性 。引入隐喻,采用完全的面向对象设计,构思先进。 高效率:在PIII 1G内存个人机器上,1秒 可准确分词 100万 汉字。 采用基于 不限制个数 的词典文件对文章...
在这里,"庖丁解牛"被用来形容一种精细的分词方法,它可能是指在进行全文检索时,对文本进行深入细致的分析,就像庖丁解剖牛一样,精确地识别和拆分出每个词语。 分词是全文检索的重要步骤,它将连续的文本序列分割...
《庖丁解牛算法代码解读》 ...总的来说,庖丁解牛算法通过综合运用各种策略和技巧,实现了高效、准确的中文分词,为后续的自然语言处理任务提供了坚实的基础。理解并掌握这一算法,对于提升文本分析能力具有重要意义。
《Lucene Analyzer剖析:中文分词的奥秘》 在信息检索领域,Lucene作为一款强大的全文搜索引擎库,被广泛应用于各种系统中。其核心功能之一就是对输入文本进行高效精准的分词处理,以便进行后续的索引和查询操作。...
《使用Lucene最新版与庖丁解牛方法构建搜索引擎》 在信息技术日新月异的今天,搜索引擎已经成为了我们获取信息的重要工具。Apache Lucene是一个高性能、全文本搜索库,被广泛应用于各种搜索引擎的开发中。本文将...