`
- 浏览:
2182542 次
- 性别:
- 来自:
北京
-
Nutch的架构,采用了非常灵活的插件模式,大部分的核心功能,都可以通过组装插件的方式的来完成。如果想熟悉具体的nutch插件运行的机制,可以参考下nutch的官方wiki,今天散仙,主要来介绍下,怎么在nutch里,添加我们自己的插件。
1,下载nutch编码,进行编译。
2,进入到nutch的根目录的src/plugin/下,新建一个index-self的文件夹,这个文件夹名字,可以随便起,散仙在这里,只是一个例子。
3,进入index-self文件夹下,新建\src\java\org\apache\nutch\myplugin\文件夹,存放自己的源码类
4,回到index-self根目录下,新建build.xml,ivy.xml,plugin.xml,这个是仿照其他的插件结构格式写的,如果不理解可以看下其他插件的结构
5,然后到src/plugin/的根目录下,修改build.xml注意路径
6,接下来,我需要修改nutch的根目录下的build.xml
7,当上面的所有都完成了,我们就可以进入到nutch的根目录下进行ant编译了,编译后我们可以在build/plugin/index-self目录下,找到编译后jar包和类文件。
8,最后一步,我们需要在nutch-default.xml里面,配置我们的插件生效.
9,上面的所有步骤,执行完,就完成了,我们在local或deploy模式运行,测试自己的插件是否被激活。
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
nutch1.8最新版2014.6.10part2
nutch1.8最新版2014.6.10part1
Nutch插件的开发涉及到以下几个关键步骤: 1. **创建插件目录结构**:插件源代码通常位于`src/plugin`目录下,目录名称通常与插件ID一致。例如,如果插件ID为`index-field`,则目录结构可能如下所示: ``` index-...
每个插件都有一个`plugin.xml`文件,用于描述插件信息,以及一个`build.xml`文件,指导Ant构建工具如何编译插件。 举例来说,如果我们想要创建一个插件,用于根据搜索词推荐相关网页,我们需要定义一个新的扩展点,...
#### 四、Nutch插件开发步骤 1. **定义插件**:首先需要定义插件的基本信息,包括名称、版本号等。这些信息通常存储在`plugin.xml`文件中。 2. **编写插件代码**:针对需要实现的功能,编写具体的插件代码。这可能...
Nutch 1.8, you can try it on other Nutch version or refactor the source codes as your design. 主要特性 常规的HTML页面抓取: 对于常规的例如新闻类没有AJAX特性的页面可以直接用Nutch自带的...
导入项目后,可能会遇到30处编译错误,这主要是因为Nutch中两个必要的插件未随源码一同打包,即解析mp3和rtf文档的插件。这些插件由于license问题被独立出来,需从特定链接下载对应的jar包(jid3lib-0.5.1.jar和rtf-...
### 基于Nutch的插件系统的原理分析 #### 一、引言 随着互联网技术的迅猛发展,搜索引擎作为信息检索的重要工具,在日常生活及工作中扮演着越来越重要的角色。然而,传统的搜索引擎架构往往存在难以扩展和升级的...
### Nutch插件开发知识点详解 #### 一、Nutch插件系统概述 Nutch是一款开源的网络爬虫工具,其强大的灵活性...通过以上步骤,我们可以成功地开发出一个新的Nutch插件,并将其集成到Nutch系统中,以实现定制化的需求。
**步骤六:编译与安装Nutch** 在Nutch根目录下运行Maven命令来编译和安装Nutch: ```bash mvn clean install -DskipTests ``` 这将编译Nutch源代码,并将其安装到你的本地Maven仓库。 **步骤七:创建Nutch数据库** ...
### Eclipse中编译Nutch-0.9:详解与步骤 #### 核心知识点概览 在本篇文章中,我们将深入探讨如何在Eclipse环境中编译Nutch-0.9,一个开源的网络爬虫项目,用于抓取互联网上的网页信息。文章涵盖的关键知识点包括...
Nutch中文分词插件的编写与配置,由于Internet的迅猛发展,使得用户查找信息犹如大海捞针,而搜索引擎则能帮用户很好的解决这个问题。 Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行...
1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 2. apache-nutch-2.2.1-src.tar.gz:这是 Nutch 2.2.1 的源代码包。 3. apache-tomcat-8.5.39.tar.gz...
### Nutch插件开发与服务器发布流程详解 ...综上所述,从开发到发布Nutch插件的过程涉及多个步骤,包括环境搭建、插件编写、服务器配置和数据清理等。每个步骤都至关重要,需要仔细操作以确保插件能够正常工作。
Anthelion 是 Nutch 插件,专注于爬取语义数据。注意:此项目包括完整的 Nutch 1.6 版本,此插件放置在 /src/plugin/parse-anthAnthelion 使用在线学习方法来基于页面上下文预测富数据 Web 页面,从之前查看的页面...
资源中urls.txt是我nutch单步执行过程的种子文件,里面的ppt主要讲解nutch单步执行流程,并获取每次单步执行的结果文件,对文件进行分析,同时ppt还讲解了nutch的插件的基础知识,不是很详细,但是可以作为参考。...
在开始Nutch配置之前,确保你已安装了Java运行环境(JRE)和Java开发工具(JDK),版本至少为1.8。同时,你需要一个支持Hadoop的环境,如Hadoop单机模式或伪分布式模式。如果你打算使用Solr或Elasticsearch作为检索...