Nutch开源搜索引擎与Paoding中文分词用plugin方式集成[转]

mr_lonely_hp

浏览: 91820 次
性别:
来自: 湖南

最近访客更多访客>>

gy1347700

xanthe521

Tech_he

sunnoonnoon

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

搜索引擎 Ant lucene XML Apache

本文是我在集成中文分词paoding时积累的经验，单独成一篇文章来重点介绍，重点需要了解的有下面几个文件，a)插件目录及插件文件 build.xml,plugin.xml b)nutch-0.9\src\plugin\build.xml c)WEB-INF/classes/nutch-site.xml
然后通过按照下面的方式来配置，执行ant package就可以搞定了，这里用ant的方式来处理整个编译发布过程。

1)在src/plugin下面加入，analysis-zh和lib-paoding-analyzers目录。具体参见
E:\workspace\searchengine\nutch-0.9\src\plugin\analysis-zh
E:\workspace\searchengine\nutch-0.9\src\plugin\lib-paoding-analyzers

下面是analysis-zh中的源码，是对paoding的封装，代码超级easy,主要是把配置文件和ant脚本调对就可以了
/**
* Paoding chinese analyzer
*/

package org.apache.nutch.analysis.zh;

// JDK imp

orts
import java.io.Reader;

// Lucene imports
import org.apache.lucene.analysis.Analyzer;
import org.apache.lucene.analysis.TokenStream;

// Nutch imports
import org.apache.nutch.analysis.NutchAnalyzer;

/**
* A simple Chinese Analyzer that wraps the Lucene one.
* @author kevin tu
*/
public class ChineseAnalyzer extends NutchAnalyzer {

private final static Analyzer ANALYZER =
new net.paoding.analysis.analyzer.PaodingAnalyzer();

/** Creates a new instance of ChineseAnalyzer */
public ChineseAnalyzer() { }

public TokenStream tokenStream(String fieldName, Reader reader) {
return ANALYZER.tokenStream(fieldName, reader);
}

}

2)修改src\plugin的build.xml
<target name="deploy">
<ant dir="analysis-zh" target="deploy"/>
<ant dir="lib-paoding-analyzers" target="deploy"/>
...
</target>

<target name="clean">
<ant dir="analysis-zh" target="clean"/>
<ant dir="lib-paoding-analyzers" target="clean"/>
...
</target>

3)修改nutch-site.xml,加入|analysis-(zh)| ，这个很重重要，否则nutch只会加载默认插件，不会加载paoding的jar包，和自己写的analysis-(zh) jar包
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(text|html|js)|analysis-(zh)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>
</description>
</property>

4)重新打包 ant package

5)配置tomcat,修改webapps/cse/WEB-INF/classes/nutch-site.xml
<configuration>
<property>
<name>fs.default.name</name>
<value>local</value>
</property>

<property>
<name>searcher.dir</name>
<value>/nutch/local/crawled</value>
</property>
<property>
<name>plugin.includes</name>
<value>protocol-http|urlfilter-regex|parse-(text|html|js)|analysis-(zh)|index-basic|query-(basic|site|url)|summary-basic|scoring-opic|urlnormalizer-(pass|regex|basic)</value>
<description>
</description>
</property>
</configuration>

6)配置paoding运行参数,加入paoding-analysis.properties
paoding.imports=\
ifexists:classpath:paoding-analysis-default.properties;\
ifexists:classpath:paoding-analysis-user.properties;\
ifexists:classpath:paoding-knives-user.properties

配置export PAODING_DIC_HOME=/nutch/dic

分享到：

开发基于 Nutch 的集群式搜索引擎 | spring2.0常见异常

2011-02-21 23:38
浏览 838
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

mozillazg_python-pinyin_1741402107.zip: python学习资源

jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目: jfinal-undertow 用于开发、部署由 jfinal 开发的 web 项目

基于Andorid的音乐播放器项目设计（国外开源）.zip: 基于Andorid的音乐播放器项目设计（国外开源）实现源码，主要针对计算机相关专业的正在做毕设的学生和需要项目实战练习的学习者，也可作为课程设计、期末大作业。

编程语言_Python_魔法方法_实用指南_1741403704.zip: python学习资源

egrcc_zhihu-python_1741402151.zip: python学习资源

Python开发_机器学习_自动化处理_项目演示_1741398786.zip: python学习一些项目和资源

【毕业设计】java-springboot+vue家具销售平台实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot+vue家具销售平台实现源码（完整前后端+mysql+说明文档+LunW）.zip

淘立方销售网站（HTML开发）: HTML+CSS+JavaScarip开发的前端网页源代码

NET集成Python引擎技术_PythonNet_多语言开_1741400058.zip: python学习资源

【毕业设计】java-springboot-vue健身房信息管理系统源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue健身房信息管理系统源码（完整前后端+mysql+说明文档+LunW）.zip

成绩管理系统C/Go 大学生期末小作业，指针实现，C语言版本(ANSI C)和Go语言版本: 成绩管理系统C/Go。大学生期末小作业，指针实现，C语言版本(ANSI C)和Go语言版本

1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx: 1_基于大数据的智能菜品个性化推荐与点餐系统的设计与实现.docx

【毕业设计】java-springboot-vue交流互动平台实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue交流互动平台实现源码（完整前后端+mysql+说明文档+LunW）.zip

高并发秒杀抢购系统选型与库存管理机制分析: 内容概要：本文主要探讨了在高并发情况下如何设计并优化火车票秒杀系统，确保系统的高性能与稳定性。通过对比分析三种库存管理模式（下单减库存、支付减库存、预扣库存），强调了预扣库存结合本地缓存及远程Redis统一库存的优势，同时介绍了如何利用Nginx的加权轮询策略、MQ消息队列异步处理等方式降低系统压力，保障交易完整性和数据一致性，防止超卖现象。适用人群：具有一定互联网应用开发经验的研发人员和技术管理人员。使用场景及目标：适用于电商、票务等行业需要处理大量瞬时并发请求的业务场景。其目标在于通过合理的架构规划，实现在高峰期保持平台的稳定运行，保证用户体验的同时最大化销售额。其他说明：文中提及的技术细节如Epoll I/O多路复用模型以及分布式系统中的容错措施等内容，对于深入理解大规模并发系统的构建有着重要指导意义。

基于 OpenCV 和 PyTorch 的深度车牌识别: 基于 OpenCV 和 PyTorch 的深度车牌识别

【毕业设计-java】springboot-vue教学资料管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计-java】springboot-vue教学资料管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip

出租车行程详细信息的数据集（1048K+记录，5特征）CSV: 此数据集包含有关出租车行程的详细信息，包括乘客人数、行程距离、付款类型、车费金额和行程时长。它可用于各种数据分析和机器学习应用程序，例如票价预测和乘车模式分析。

调用DeepSeek的VBA代码: 把代码放到Word中，通过开发工具——Visual Basic——插入模块，粘贴在里在，把在硅基流动中申请的API放到VBA代码中。在Word中，选择一个问题，运行这个DeepSeekV3的宏就可以实现在线问答

【毕业设计】java-springboot+vue机动车号牌管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot+vue机动车号牌管理系统实现源码（完整前后端+mysql+说明文档+LunW）.zip

【毕业设计】java-springboot-vue交通管理在线服务系统的开发源码（完整前后端+mysql+说明文档+LunW）.zip: 【毕业设计】java-springboot-vue交通管理在线服务系统的开发源码（完整前后端+mysql+说明文档+LunW）.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论