`

安装Paoding中文分词

 
阅读更多

 

 

安装Paoding中文分词
 

 

转自 博客http://www.cnblogs.com/tjsquall/archive/2009/06/30/1514077.html

 

1,把paoding-analysis-2.0.4-beta解压缩,给项目中加入paoding-analysis.jar。

2,把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。

3,配置paoding的词库:把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下:
Xml代码
#values are "system-env" or "this";  
#if value is "this" , using the paoding.dic.home as dicHome if configed!  
#paoding.dic.home.config-fisrt=system-env  
paoding.dic.home.config-fisrt=this
#dictionary home (directory)  
#"classpath:xxx" means dictionary home is in classpath.  
#e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory  
#paoding.dic.home=dic  
paoding.dic.home=classpath:dic  
#seconds for dic modification detection  
#paoding.dic.detector.interval=60

修改paoding .dic .home .config-fisrt=this ,使得程序知道该配置文件
修改paoding .dic .home =classpath:dic ,指定字典的所在路径。绝对路径也可以,但是不好。

 

paoding下载地址:

http://code.google.com/p/paoding/downloads/list

分享到:
评论

相关推荐

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    paoding 分词

    **中文分词技术详解——以paoding为例** 中文分词是自然语言处理中的基础步骤,对于中文文本的理解和分析至关重要。在Java领域中,paoding(又称“庖丁”)是一个高效、灵活的中文分词库,专为处理大规模中文文本而...

    paoding中文分词

    Paoding中文分词是一款高效的开源分词工具,主要由Java编写,具备良好的性能和准确性。Paoding的设计目标是提供快速、准确且易用的分词服务,适用于各种应用场景,包括搜索引擎、推荐系统和大数据分析等。它采用了...

    Solr3.2 + Paoding中文分词的搜索引擎

    Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案,结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而...

    Lucene建立索引jar包和Paoding分词jar包

    中文分词是中文信息处理的基础,它将连续的汉字序列切分成具有独立语义的词语。对于搜索引擎而言,准确的分词能够提高搜索结果的相关性。Lucene自身的分词能力对于中文来说相对较弱,因此引入了第三方分词工具,如...

    paoding 中文分词

    "Paoding 中文分词"是一款专为处理中文文本而设计的开源分词工具,它在中文信息处理领域具有较高的知名度。"庖丁"是它的别名,来源于中国古代庖丁解牛的故事,寓意其在处理复杂中文文本时,能够如庖丁解牛般游刃有余...

    中文分词器Paoding(庖丁)

    很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。

    中文搜索分词lucene包+paoding包

    Lucene和Paoding是两个广泛使用的开源工具,它们专门用于实现高效、准确的中文分词。 Lucene是一个强大的全文检索库,由Apache软件基金会开发。它提供了索引和搜索文本的能力,使得开发者能够快速构建自己的搜索...

    PaoDing.zip_java paoding_java 分词_paoding_中文文本分词_文本 检索

    分词是自然语言处理中的基础步骤,对于中文而言,由于没有明显的空格来区分单词,因此需要通过特定算法将连续的汉字序列切分成有意义的词汇单元,这一过程就称为分词。PaoDing因其高效、灵活的特点,被广泛应用于...

    Java调用paoding分词器对抓取的xml里面的新闻按照出现的词频进行分类

    Paoding分词器是一款高效的中文分词工具,它为Java开发者提供了方便的接口,用于实现对中文文本的智能分析,特别适合于海量文本的分词任务。下面将详细阐述这一过程中的关键知识点。 首先,我们要了解Paoding分词器...

    lucene中文分词器(paoding解牛)

    在中文信息检索领域,分词是至关重要的一环,它能够将连续的汉字序列切割成具有独立意义的词语,为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库,其本身并不包含专门针对中文的分词模块。然而,...

    基于Lucene的搜索系统 同时使用Paoding进行中文分词

    最近由于在做的电子商务网站,前台要频繁的进行搜索商品,列出符合条件的商品,由于商品数量之大,考虑到要用lucene来显示搜索功能,本文将通过一个简单的例子来告诉你lucene的实现和使用Paoding进行中文分词,当然...

    zhzhenqin-paoding-analysis-master.zip_WEK_lucene_分词词库

    Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...

    paoding-analysis6.2.1.jar

    修改了paoding-analysis6的部分源码,使之支持lucene6.2.1

    paoding-analysis-2.0.4.zip_ Paoding Analysis

    Paoding中文分词是一个使用Java开发的,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为互联网网站首选的中文分词...

    庖丁分词jar包和dic目录

    - `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...

    基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j

    本文将深入探讨基于Lucene的四种中文分词器:Paoding、IK、Imdict和Mmseg4j,它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding(庖丁)分词器: Paoding是一款高性能的中文分词器,设计目标是提供...

    Paoding-analysis

    Paoding中文分词参考手册.htm paoding-analysis.jar

    lucene3.0学习笔记(三)与paoding整合

    整合Lucene 3.0与Paoding的主要目的是利用Paoding的优秀分词能力,提高Lucene的中文处理性能。具体步骤如下: 1. **配置Paoding**: 首先需要下载Paoding的jar包,并将其添加到项目的类路径中。同时,我们需要配置...

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    Paoding Analysis(也称为“庖丁分析”)是一款由李明开发的高性能Java分词系统,它旨在解决中文文本处理中的分词问题。Paoding Analysis的特点在于其高效率和自适应性,能够根据不同的应用场景进行定制化配置,满足...

Global site tag (gtag.js) - Google Analytics