安装Paoding中文分词 - 梦想的飞翔 - ITeye博客

`

fuanyu

浏览: 511155 次
性别:
来自: 广州

最近访客更多访客>>

u012321412

scotttom020

bxmingche

JevonZhang8

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

skykufo：坑爹啊，我也因为写多了一个div，在ie8浪费了一天
jQuery加载（load、get、post）页面显示空白原因
yeyinzhu3211：帅哥,我想问下,是怎么去除呀?能详细说明下吗?
IntelliJ IDEA 10.5.1 无法断点或停止不动
sshitaime：怎么下载不了啊，能给我一个安装包吗
oracle 10g透明网关组件下载地址(新)
fuanyu： xiaohuafyle 写道被你的头像吓尿了哥们有这么可怕呀 ...
netstat -aon
wanlt_software：谢谢。。。。。
oracle 10g透明网关组件下载地址(新)

安装Paoding中文分词

博客分类：

lucene

阅读更多

安装Paoding中文分词

转自博客http://www.cnblogs.com/tjsquall/archive/2009/06/30/1514077.html

1，把paoding-analysis-2.0.4-beta解压缩，给项目中加入paoding-analysis.jar。

2，把dic文件夹放到项目的根目录中。dic文件夹里是paoding的词库。

3，配置paoding的词库：把paoding-analysis-2.0.4-beta\src里面的paoding-dic-home.properties拷贝到项目的根目录下。编辑如下：
Xml代码
#values are "system-env" or "this";
#if value is "this" , using the paoding.dic.home as dicHome if configed!
#paoding.dic.home.config-fisrt=system-env
paoding.dic.home.config-fisrt=this
#dictionary home (directory)
#"classpath:xxx" means dictionary home is in classpath.
#e.g "classpath:dic" means dictionaries are in "classes/dic" directory or any other classpath directory
#paoding.dic.home=dic
paoding.dic.home=classpath:dic
#seconds for dic modification detection
#paoding.dic.detector.interval=60

修改paoding .dic .home .config-fisrt=this ,使得程序知道该配置文件
修改paoding .dic .home =classpath:dic ，指定字典的所在路径。绝对路径也可以，但是不好。

paoding下载地址:

http://code.google.com/p/paoding/downloads/list

分享到：

Lucene3.0 初窥总结 | (原)mssql数据迁移到oracle

2012-02-21 15:13
浏览 1042
评论(0)
分类:行业应用
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

paoding 分词: **中文分词技术详解——以paoding为例** 中文分词是自然语言处理中的基础步骤，对于中文文本的理解和分析至关重要。在Java领域中，paoding（又称“庖丁”）是一个高效、灵活的中文分词库，专为处理大规模中文文本而...

Paoding中文分词: 标题“Paoding中文分词”指的是一个专门用于处理中文文本的分词工具，名为“庖丁解牛中文分词”。在自然语言处理领域，分词是预处理的重要步骤，它将连续的汉字序列切分成有意义的词汇单元，便于后续的文本分析和...

paoding中文分词: Paoding中文分词是一款高效的开源分词工具，主要由Java编写，具备良好的性能和准确性。Paoding的设计目标是提供快速、准确且易用的分词服务，适用于各种应用场景，包括搜索引擎、推荐系统和大数据分析等。它采用了...

Solr3.2 + Paoding中文分词的搜索引擎: Solr3.2 + Paoding中文分词的搜索引擎是一个针对中文文档进行高效检索的解决方案，结合了Apache Solr 3.2版本与Paoding分词器的优势。Apache Solr是基于Lucene的开源搜索服务器，提供了更高级别的API和配置选项，而...

Lucene建立索引jar包和Paoding分词jar包: 中文分词是中文信息处理的基础，它将连续的汉字序列切分成具有独立语义的词语。对于搜索引擎而言，准确的分词能够提高搜索结果的相关性。Lucene自身的分词能力对于中文来说相对较弱，因此引入了第三方分词工具，如...

paoding 中文分词: "Paoding 中文分词"是一款专为处理中文文本而设计的开源分词工具，它在中文信息处理领域具有较高的知名度。"庖丁"是它的别名，来源于中国古代庖丁解牛的故事，寓意其在处理复杂中文文本时，能够如庖丁解牛般游刃有余...

中文分词器Paoding(庖丁): 很好用的中文分词器，能很好的与搜索引擎框架整合，此jar兼容支持Lucene3.0以上版本。

中文搜索分词lucene包+paoding包: Lucene和Paoding是两个广泛使用的开源工具，它们专门用于实现高效、准确的中文分词。 Lucene是一个强大的全文检索库，由Apache软件基金会开发。它提供了索引和搜索文本的能力，使得开发者能够快速构建自己的搜索...

PaoDing.zip_java paoding_java 分词_paoding_中文文本分词_文本检索: 分词是自然语言处理中的基础步骤，对于中文而言，由于没有明显的空格来区分单词，因此需要通过特定算法将连续的汉字序列切分成有意义的词汇单元，这一过程就称为分词。PaoDing因其高效、灵活的特点，被广泛应用于...

Java调用paoding分词器对抓取的xml里面的新闻按照出现的词频进行分类: Paoding分词器是一款高效的中文分词工具，它为Java开发者提供了方便的接口，用于实现对中文文本的智能分析，特别适合于海量文本的分词任务。下面将详细阐述这一过程中的关键知识点。首先，我们要了解Paoding分词器...

lucene中文分词器（paoding解牛）: 在中文信息检索领域，分词是至关重要的一环，它能够将连续的汉字序列切割成具有独立意义的词语，为后续的索引和查询提供基础。Lucene作为Java最著名的全文搜索引擎库，其本身并不包含专门针对中文的分词模块。然而，...

基于Lucene的搜索系统同时使用Paoding进行中文分词: 最近由于在做的电子商务网站，前台要频繁的进行搜索商品，列出符合条件的商品，由于商品数量之大，考虑到要用lucene来显示搜索功能，本文将通过一个简单的例子来告诉你lucene的实现和使用Paoding进行中文分词，当然...

zhzhenqin-paoding-analysis-master.zip_WEK_lucene_分词词库: Paoding中文分词库是一个使用Java开发的基于Lucene4.x的分词器，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为...

paoding-analysis-2.0.4.zip_ Paoding Analysis: Paoding中文分词是一个使用Java开发的，可结合到Lucene应用中的，为互联网、企业内部网使用的中文搜索引擎分词组件。 Paoding填补了国内中文分词方面开源组件的空白，致力于此并希翼成为互联网网站首选的中文分词...

庖丁分词jar包和dic目录: - `Paoding中文分词参考手册.htm`：这可能是庖丁分词的用户手册或开发者指南，包含了详细的操作步骤、使用示例以及API文档，帮助用户理解和使用该工具。 - `lucene-core-3.1.0.jar`：这是Apache Lucene的核心库，一...

基于Lucene的中文分词器代码paoding,IK,imdict,mmseg4j: 本文将深入探讨基于Lucene的四种中文分词器：Paoding、IK、Imdict和Mmseg4j，它们都是针对Java开发的高效、开源的中文分词工具。 1. Paoding（庖丁）分词器： Paoding是一款高性能的中文分词器，设计目标是提供...

Paoding-analysis: Paoding中文分词参考手册.htm paoding-analysis.jar

lucene3.0学习笔记(三)与paoding整合: 整合Lucene 3.0与Paoding的主要目的是利用Paoding的优秀分词能力，提高Lucene的中文处理性能。具体步骤如下： 1. **配置Paoding**: 首先需要下载Paoding的jar包，并将其添加到项目的类路径中。同时，我们需要配置...

paoding-analysis-2.0.4-alpha2.zip_java 分词_paoding: Paoding Analysis（也称为“庖丁分析”）是一款由李明开发的高性能Java分词系统，它旨在解决中文文本处理中的分词问题。Paoding Analysis的特点在于其高效率和自适应性，能够根据不同的应用场景进行定制化配置，满足...

lucene简单教程poading中文分词.pdf: ### Paoding中文分词 Paoding 是一个面向中文的分词器，它支持中文分词、自动识别词性、支持多种自定义词典和扩展字典等特性。在 Lucene 中集成 Paoding 分词器可以使得中文搜索更加准确和高效。Paoding 提供了易于...

Global site tag (gtag.js) - Google Analytics