`

今天终于跑通了nutch插件开发的例子

阅读更多

今天终于跑通了nutch插件开发的例子.哎.网上的例子有时真是挺让人闹心的.因为我是一个一个地复制的,所以老是通不过.就是原文作者的失误让我花了不少时间.说审实话,网上关于nutch的例子还真是少.想找一个开发插件的完整像样例子根本就没有.搜索来搜索去也就是一个Nutch插件机制和Nutch一个插件实例

在文章中,recommended与reccomended的笔误让我调试了老半天,终于一个一个地跟踪比对,才发现是这里错了.以后看别人的博文还真是认真小心了.


最近终于把nutch的搜索这块弄得差不多了.现在自己的难点就是怎么来分析搜索来的网页.根据自己的要求,来建立有用户信息的索引了.所以我从开发插件入手.看有没有什么收获.今天就写到这儿.

分享到:
评论
2 楼 ximinjie 2010-03-04  
我用的是nutch1.0版本的.这个例子好像是基于0.7的.有一些方法都没有了.我替换了也不行.能把你调试好的3个类发给我吗?
ximinjie@gmail.com
1 楼 ximinjie 2010-03-03  
能指教一下是哪里的问题吗?我也调不通这个插件,另外你有其他联系方式吗?有问题请教

相关推荐

    Nutch插件开发文档

    这些库包含了Nutch的核心功能和API,是开发插件所必需的基础。 3. **实现扩展点接口**:创建一个类来实现所需的扩展点接口。例如,可以创建一个名为`URLMetaIndexingFilter`的类来实现`IndexingFilter`接口。该类中...

    Nutch插件机制

    本文将详细介绍Nutch插件机制的核心概念、工作原理以及如何开发和使用插件。 #### 二、Nutch插件机制的重要性 Nutch之所以采用插件机制,主要有以下三个原因: 1. **可扩展性**:通过插件,Nutch允许用户根据自己...

    Nutch_插件深入研究

    通过深入了解和掌握Nutch插件开发流程,结合Mysql数据存储方案,开发者可以轻松定制和扩展Nutch的功能,满足各种复杂的需求。无论是对于个人开发者还是企业级应用,Nutch都提供了丰富的可能性和无限的潜力。

    Nutch插件开发和服务器发布流程

    ### Nutch插件开发与服务器发布流程详解 #### 一、Nutch插件开发流程 **1. Nutch开发客户端环境搭建** 为了开始Nutch插件的开发工作,首先需要搭建一个适合的开发环境。这通常包括安装Java开发工具包(JDK)、...

    nutch的插件机制

    Nutch 插件机制是其核心功能之一,它允许开发者轻松地扩展Nutch的功能,以适应不同的数据处理需求。Nutch 是一个开源的网络爬虫项目,主要用于收集、索引和搜索互联网上的信息。通过插件机制,Nutch可以处理各种不同...

    nutch开发资料 搜索引擎

    插件开发可以极大地扩展Nutch的功能。 9. **索引存储**:Nutch通常使用Apache Lucene作为其底层的全文检索库,用于存储和检索索引数据。Lucene提供了高效的索引和搜索功能,支持复杂查询语法。 10. **部署与运行**...

    分布式搜索引擎nutch开发

    - **插件开发**:Nutch的灵活性体现在其插件体系上,用户可以根据需求编写自定义插件,如自定义解析器、索引器或搜索器。插件目录下的`src/plugin`是存放插件源代码的地方,编译后插件会被自动加载。 - **修改配置...

    基于Nutch 的插件系统的原理分析

    为了更好地理解Nutch插件系统的实际应用,我们可以考虑一个具体的例子——添加一个新的文档解析器。 假设我们需要为Nutch添加一个用于解析PDF文档的插件。首先,我们定义一个扩展点`PdfParser`,然后创建一个实现了...

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    搭建nutch web开发环境

    本教程将详细介绍如何搭建Nutch 1.2的Web开发环境,因为从Nutch 1.3版本开始,Web界面部分已被移除。 首先,我们需要理解Nutch的工作流程,它主要包括五个主要步骤:抓取、解析、索引、查询和排名。Nutch提供了强大...

    Nutch中文分词插件的编写与配置

    Nutch是用java语言开发的,基于Lucene的完整的网络搜索引擎,并采用插件机制进行设计,通过对扩展点的扩展, 用户可以开发自己的各类插件。由于Nutch的分词器对中文只进行单字切分,若要实现较好的对中文信息的搜索查 询,...

    Nutch执行单步执行、中间结果文件分析和插件开发基础

    资源中urls.txt是我nutch单步执行过程的种子文件,里面的ppt主要讲解nutch单步执行流程,并获取每次单步执行的结果文件,对文件进行分析,同时ppt还讲解了nutch的插件的基础知识,不是很详细,但是可以作为参考。...

    搭建nutch开发环境步骤

    下面,我们将详细讲解如何搭建Nutch的开发环境。 **步骤一:系统准备** 在开始搭建Nutch开发环境之前,你需要确保你的计算机满足以下基本要求: 1. 操作系统:Nutch可以在Linux、Mac OS X或Windows上运行,但推荐...

    Nutch1.7二次开发培训讲义

    ### Nutch 1.7 二次开发培训讲义知识点概览 #### 一、环境搭建与准备工作 **1. 开发环境的选择与配置** - **操作系统:** 二次开发Nutch 1.7时,开发阶段的操作系统选择相对灵活,只要确保安装了JDK和Eclipse即可。...

    Lucene.Nutch搜索引擎开发

    学习Lucene和Nutch的入门书籍,学习搜索引擎开发值得一看的书籍

    Lucene+nutch搜索引擎开发.part1.rar

    Lucene nutch 搜索引擎开发 Part1

    Lucene+Nutch搜索引擎开发.王学松源代码

    《Lucene+Nutch搜索引擎开发:王学松源代码解析》 在信息技术日新月异的今天,搜索引擎已经成为了人们获取信息的重要工具。Lucene和Nutch是两个在开源社区广泛使用的搜索引擎技术,它们为开发者提供了构建高效、可...

    Lucene+nutch搜索引擎开发

    完整的《Lucene+nutch搜索引擎开发》PDF版一共83.6M,无奈我上传的最高限是80M,所以切成两个。这一个是主文件,还需要下载一个副文件Lucene+nutch搜索引擎开发.z01。解压时直接放到一起,解压这个主文件就行了。

    nutch二次开发学习笔记

    我们需要去抓取网页数据的时候我们就用nutch来爬取,我们对它进行二次开发使其更加符合我们的需求

Global site tag (gtag.js) - Google Analytics