`
fantaxy025025
  • 浏览: 1313212 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

Paoding分词_庖丁分词_以及使用于_lucene_solr

阅读更多

在几个中文分词中,决定用paoding庖丁分词。

记录使用的一些问题和思路,慢慢更新。

 

与Lucene和Solr的结合及版本

待续

 

 

paoding分词的辞典定制

我的环境ubuntu,win下没有测试.

辞典路径配置:

#1 paoding分词会优先找系统变量export PAODING_DIC_HOME作为辞典目录

#2 如果没有,则找类目录下的文件paoding-dic-home.properties

       这个文件里配置了辞典目录和目录配置方式,看注释就行

自己添加辞典:

在辞典目录下,有很多目录,比如local/division等,可以改动并添加自己的词;

自己可以添加文件夹和文件,文件命名为xxx.dic;xxx.dic里可以添加自己应用的辞典;

辞典不起作用?

Paoding会预编译辞典,生成.compiled文件夹;

自己添加的辞典,如果想立即生效,需要删除此文件夹;[其实这还不是本质,但先说到这里;可以去看源码]

 

另外注意:
   1.每次词典修改后,要删掉dic下面的“.compiled ”文件夹,重起solr所在服务器
   2.字典必须是UTF-8编码
   3.win下不要用记事本打开

   4.自己添加的字典中的词语不要太长(我忘记多少长度了),否则会报错:ArrayOutOfBounds

       paoding 报错 Array Out Of Bounds

 

paoding分词的优缺点评述

待续

 

 

 

paoding分词团队及社区开源软件的评述(仅仅为个人之见 --作者别砸我哈

#1 文档不太好

其实是基本没有文档,这一点跟国外的或者说标准的开源项目有很大的差别;

看看Apache上的项目,连tutorial都很详细;

#2 测试做的不太好

基本没有完整的unit测试,这样造成的问题是不能持续集成,一个人修改了一个bug,结果引入了另外几个bug;

#3 社区不太好

应该说结构和团队组织不太好,造成想加入没能加入,问题没人回答,成了一个冷清的社区;

-->>当然,原因嘛,国内普遍的现象;谁有时间和精力免费花在这个开源上面呢~

-->>作者别砸我哈~

 

 

O

O

O

 

O

O

O

 

分享到:
评论
2 楼 qq845005703 2011-10-13  
java.io.FileNotFoundException: /www/wwwjob/paoding/dic/.compiled/most-words-mode/vocabulary.dic.compiled (No such file or directory),在ubuntu环境中报异常
1 楼 qq845005703 2011-10-13  
楼主加我qq,845005703!交流!谢谢!

相关推荐

    PaoDing.zip_java paoding_java 分词_paoding_中文文本分词_文本 检索

    庖丁(PaoDing)是一款专为Java平台设计的中文文本分词工具,它在中文文本处理领域具有较高的性能和准确性。分词是自然语言处理中的基础步骤,对于中文而言,由于没有明显的空格来区分单词,因此需要通过特定算法将...

    Lucene建立索引jar包和Paoding分词jar包

    Lucene,作为一款开源的全文检索库,被广泛应用于各种信息检索系统中,而Paoding分词则是针对中文进行高效精准分词的工具,两者结合能显著提升中文文本检索的效率和准确性。下面将详细介绍Lucene和Paoding分词在构建...

    paoding_analysis.rar_PaodingAnalysis_lucene paoding_paodi

    在实际应用中,"paoding_analysis.rar"这个压缩包很可能包含了实现这一功能所需的全部资源和配置文件,例如分词词典、样例代码以及相关的文档说明。文件名中的"lucene paoding paodi"标签,暗示了这是关于Lucene使用...

    paoding analysis 3.0.1 jar (庖丁解牛分词器)

    由于庖丁官方目前提供可下载尚不支持Lucene 3.0以上版本。因此作者对paoding进行重新编译,使其与最新Lucene 3.0.1版本适用。 Latest paoding 3.0.1 for lucene 3.0.1 使用说明: 先下载2.0.4的版本(h t t p : / ...

    paoding 分词

    paoding可方便地与Lucene、Solr等全文检索引擎集成,提供高性能的中文分词服务。 总结来说,paoding分词是一个强大的中文分词工具,其高效、灵活的特性使得它在众多分词库中脱颖而出。通过理解其工作原理和熟练...

    中文搜索分词lucene包+paoding包

    Lucene和Paoding是两个广泛使用的开源工具,它们专门用于实现高效、准确的中文分词。 Lucene是一个强大的全文检索库,由Apache软件基金会开发。它提供了索引和搜索文本的能力,使得开发者能够快速构建自己的搜索...

    支持lucene4.0的paoding分词

    支持lucene4.0的paoding分词

    Solr3.2 + Paoding中文分词的搜索引擎

    Apache Solr是基于Lucene的开源搜索服务器,提供了更高级别的API和配置选项,而Paoding则是一款专门针对中文的高性能分词工具,能准确地对中文文本进行切词,提升搜索的精确度。 首先,Apache Solr 3.2是Solr的一个...

    zhzhenqin-paoding-analysis-master.zip_WEK_lucene_分词词库

    Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器,可结合到Lucene应用中的,为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白,致力于此并希翼成为...

    庖丁分词jar包和dic目录

    - `Paoding中文分词参考手册.htm`:这可能是庖丁分词的用户手册或开发者指南,包含了详细的操作步骤、使用示例以及API文档,帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`:这是Apache Lucene的核心库,一...

    lucene中文分词器(paoding解牛)

    然而,为了适应中文处理的需求,许多开发者和团队开发了适用于Lucene的中文分词器,其中Paoding(又称“解牛”)以其卓越的分词效果在众多中文分词器中脱颖而出。 Paoding分词器是一款专为Lucene设计的高性能、高...

    Java调用paoding分词器对抓取的xml里面的新闻按照出现的词频进行分类

    总结来说,这个项目涉及到的主要知识点包括:Java编程、XML解析、Paoding分词器的使用、文本分词与词频统计、新闻分类算法、以及可能的分布式计算技术。通过这些技术,我们可以有效地对抓取的XML新闻数据进行分析和...

    paoding分词与gate使用

    paoding分词与gate使用,给公司做报告时准备的ppt

    中文分词器Paoding(庖丁)

    很好用的中文分词器,能很好的与搜索引擎框架整合,此jar兼容支持Lucene3.0以上版本。

    paoding.rar_paoding_paoding analyzer.

    【标签】"paoding" 和 "paoding_analyzer" 是这个项目的标识符,"paoding" 指代整个项目,而 "paoding_analyzer" 更具体地指向其分词分析器部分,这是项目的核心功能模块。 【压缩包子文件的文件名称列表】 1. ...

    lucene3庖丁解牛中文分词器

    1. **引入库**:首先,我们需要将`paoding_lucene3_0530.jar`文件添加到项目的类路径中,这个库包含了庖丁解牛分词器的实现。 2. **配置字典**:利用`dic`目录下的字典文件,可以定制化分词器的词典,以适应特定...

    Paoding中文分词

    标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具,名为“庖丁解牛中文分词”。在自然语言处理领域,分词是预处理的重要步骤,它将连续的汉字序列切分成有意义的词汇单元,便于后续的文本分析和...

    paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding

    Paoding Analysis(也称为“庖丁分析”)是一款由李明开发的高性能Java分词系统,它旨在解决中文文本处理中的分词问题。Paoding Analysis的特点在于其高效率和自适应性,能够根据不同的应用场景进行定制化配置,满足...

    paoding-webx3-solr-lucene

    当用户发起搜索请求时,Webx3会将请求发送到Solr,Solr接收到请求后,使用Paoding分词库对查询进行处理,然后在索引中查找匹配的文档,最后将结果返回给Webx3,由Webx3将结果显示给用户。 压缩包中的"webx3-paoding...

Global site tag (gtag.js) - Google Analytics