`
peigang
  • 浏览: 170529 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch1.4插件开发

 
阅读更多

参考了不少nutch插件开发的文章都不完整,经过多次调试研究才成功,下面将注意要点列出希望能对nutch应用开发爱好者提供帮助。

 

nutch开发环境搭建请参考 http://peigang.iteye.com/blog/1464854。本文提到的各项内容都是依据以上环境测试的。

 

一、插件程序结构以nutch中的parse-html解析html的插件为例介绍。

parse-html跟目录中包含3个xml分别是build.xml、 ivy.xml、 plugin.xml,一个源程序目录src。

实现了接口的类为java.org.apache.nutch.parse.html.HtmlParser.java ,所有的可实现接口都包含在src\plugin\nutch-extensionpoints\plugin.xml中

 

接口示例如下所示:

 

public class HtmlParser implements Parser {
     .....
     public ParseResult getParse(Content content) {
     .....  
    }
     .....
}

 依据实现类分别修改 build.xml、 ivy.xml、 plugin.xml文件。

从代码中可以看到实现了Parser接口, getParse()为接口中定义的方法。

  二、实现接口编写代码完毕后修改配置步骤如下:

1、src/plugin/build.xml在<target name="deploy">;<target name="test">;<target name="clean">分别增加相应配置。

 2、修改nutch/build.xml文件在<target name="release" depends="compile-core" description="generate the release distribution">中增加配置如:<packageset dir="${plugins.dir}/parse-js/src/java"/>

 3、 修改${plugins.dir}/parse-js/src/build.xml ,修改project标签 name值为"parse-js"

运行ant编译,nutch/build中编译生成相应的文件夹即成功。

 

三、将插件配置到 nutch中:

 

 修改nutch/conf/nutch-default.xml文件中的<name>plugin.includes</name><value></value>将新的插件包添加到value中,语法请参考已配置插件的语法规则。

 

 

分享到:
评论
1 楼 shinide1989 2013-09-26  
  楼主你好,我正需要修改html的解析,并想把结果存为其他格式,不知道怎么弄,求指导。邮箱544533525@qq.com,希望得到你的帮助

相关推荐

    nutch1.4帮助文档

    nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!

    nutch_1.4配置

    1. **Java JDK 1.7**:Nutch基于Java开发,因此需要安装JDK,并设置相应的环境变量。 2. **Cygwin**:由于Nutch的脚本采用Linux Shell编写,故在Windows环境中需使用Cygwin作为Shell解释器,模拟Linux系统环境。 3. ...

    apache-nutch-1.4

    Nutch 1.4是该项目的一个稳定版本,发布于2012年,尽管后续有更新的版本,但1.4版本因其稳定性及广泛的应用而备受青睐。在深入探讨Nutch 1.4的知识点之前,我们先来了解一下什么是Apache Nutch。 Apache Nutch是一...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    apache-nutch-1.4-bin.tar.gz.part2

    apache-nutch-1.4-bin.tar.gz.part2

    Nutch1.4_windows下eclipse配置图文详解.docx

    ### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...

    apache-nutch-1.4-bin.tar.gz

    在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...

    Nutch插件开发文档

    这些库包含了Nutch的核心功能和API,是开发插件所必需的基础。 3. **实现扩展点接口**:创建一个类来实现所需的扩展点接口。例如,可以创建一个名为`URLMetaIndexingFilter`的类来实现`IndexingFilter`接口。该类中...

    Nutch_插件深入研究

    通过深入了解和掌握Nutch插件开发流程,结合Mysql数据存储方案,开发者可以轻松定制和扩展Nutch的功能,满足各种复杂的需求。无论是对于个人开发者还是企业级应用,Nutch都提供了丰富的可能性和无限的潜力。

    nutch的插件机制

    - **灵活性**:丰富的插件库使得用户可以根据自身需求选择或开发适合的插件。 - **可维护性**:每个插件专注于独立的功能,使得代码更易于管理和更新。 要使用Nutch插件,开发者需要在`conf/nutch-site.xml`配置...

    Nutch插件机制

    本文将详细介绍Nutch插件机制的核心概念、工作原理以及如何开发和使用插件。 #### 二、Nutch插件机制的重要性 Nutch之所以采用插件机制,主要有以下三个原因: 1. **可扩展性**:通过插件,Nutch允许用户根据自己...

    apache-nutch-1.4-src.tar.gz_nutch_搜索引擎

    在“apache-nutch-1.4-src.tar.gz”这个压缩包中,包含了Nutch 1.4版本的源代码,用户可以根据自己的需求对代码进行定制和扩展。 Nutch 的主要组件包括以下几个方面: 1. **网络爬虫(Crawler)**:Nutch 的网络...

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part2

    apache-nutch-1.4-bin.part1

    apache-nutch-1.4-bin.part1

    apache-nutch-1.4-bin.tar.gz.part1

    apache-nutch-1.4-bin.tar.gz.part1

    Nutch插件开发和服务器发布流程

    ### Nutch插件开发与服务器发布流程详解 #### 一、Nutch插件开发流程 **1. Nutch开发客户端环境搭建** 为了开始Nutch插件的开发工作,首先需要搭建一个适合的开发环境。这通常包括安装Java开发工具包(JDK)、...

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    基于Nutch 的插件系统的原理分析

    ### 基于Nutch的插件系统的原理分析 #### 一、引言 随着互联网技术的迅猛发展,搜索引擎作为信息检索的重要工具,在日常生活及工作中扮演着越来越重要的角色。然而,传统的搜索引擎架构往往存在难以扩展和升级的...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

Global site tag (gtag.js) - Google Analytics