转自 博客http://www.cnblogs.com/tjsquall/archive/2009/06/30/1514077.html
1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。
2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。
3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:
Xml代码
#values are "system-env" or "this";
#if value is "this" , using the paoding.dic.home as dicHome if configed!
#paoding.dic.home.config-fisrt=system-env
paoding.dic.home.config-fisrt=this
#dictionary home (directory)
#"classpath:xxx" means dictionary home is in classpath.
#e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory
#paoding.dic.home=dic
paoding.dic.home=classpath:dic
#seconds for dic modification detection
#paoding.dic.detector.interval=60
修改paoding .dic .home .config-fisrt=this ,使得程序知道该配置文件
修改paoding .dic .home =classpath:dic ,指定字典的所在路径。绝对路径也可以,但是不好。
paoding下载地址:
http://code.google.com/p/paoding/downloads/list
相关推荐
标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...
**中文分词技术详解——以paoding为例** 中文分词是自然语言处理中的基础步骤,对于中文文本的理解和分析至关重要。在Java领域中,paoding(又称“庖丁”)是一个高效、灵活的中文分词库,专为处理大规模中文文本而...
Paoding中文分词是一款高效的开源分词工具,主要由Java编写,具备良好的性能和准确性。Paoding的设计目标是提供快速、准确且易用的分词服务,适用于各种应用场景,包括搜索引擎、推荐系统和大数据分析等。它采用了...
Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...
中文分词是中文信息处理的基础,它将连续的汉字序列切分成具有独立语义的词语。对于搜索引擎而言,准确的分词能够提高搜索结果的相关性。Lucene自身的分词能力对于中文来说相对较弱,因此引入了第三方分词工具,如...
"Paoding 中文分词"是一款专为处理中文文本而设计的开源分词工具,它在中文信息处理领域具有较高的知名度。"庖丁"是它的别名,来源于中国古代庖丁解牛的故事,寓意其在处理复杂中文文本时,能够如庖丁解牛般游刃有余...
很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。
Lucene和Paoding是两个广泛使用的开源工具,它们专门用于实现高效、准确的中文分词。 Lucene是一个强大的全文检索库,由Apache软件基金会开发。它提供了索引和搜索文本的能力,使得开发者能够快速构建自己的搜索...
分词是自然语言处理中的基础步骤,对于中文而言,由于没有明显的空格来区分单词,因此需要通过特定算法将连续的汉字序列切分成有意义的词汇单元,这一过程就称为分词。PaoDing因其高效、灵活的特点,被广泛应用于...
Paoding分词器是一款高效的中文分词工具,它为Java开发者提供了方便的接口,用于实现对中文文本的智能分析,特别适合于海量文本的分词任务。下面将详细阐述这一过程中的关键知识点。 首先,我们要了解Paoding分词器...
在中文信息检索领域,分词是至关重要的一环,它能够将连续的汉字序列切割成具有独立意义的词语,为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库,其本身并不包含专门针对中文的分词模块。然而,...
最近由于在做的电子商务网站,前台要频繁的进行搜索商品,列出符合条件的商品,由于商品数量之大,考虑到要用lucene来显示搜索功能,本文将通过一个简单的例子来告诉你lucene的实现和使用Paoding进行中文分词,当然...
Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...
修改了paoding-analysis6的部分源码,使之支持lucene6.2.1
Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词...
- `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...
本文将深入探讨基于Lucene的四种中文分词器:Paoding、IK、Imdict和Mmseg4j,它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding(庖丁)分词器: Paoding是一款高性能的中文分词器,设计目标是提供...
Paoding中文分词参考手册.htm paoding-analysis.jar
整合Lucene 3.0与Paoding的主要目的是利用Paoding的优秀分词能力,提高Lucene的中文处理性能。具体步骤如下: 1. **配置Paoding**: 首先需要下载Paoding的jar包,并将其添加到项目的类路径中。同时,我们需要配置...
Paoding Analysis(也称为“庖丁分析”)是一款由李明开发的高性能Java分词系统,它旨在解决中文文本处理中的分词问题。Paoding Analysis的特点在于其高效率和自适应性,能够根据不同的应用场景进行定制化配置,满足...