`
Dustin
  • 浏览: 314852 次
  • 性别: Icon_minigender_1
  • 来自: 广州/成都
社区版块
存档分类
最新评论

在 Eclipse3.3 下运行 Nutch 0.9(解决Generator: 0 问题)

阅读更多

Platform: Ubuntu 7.04, JDK 1.6.3, Nutch 0.9, Eclipse 3.3

 

1、 Nutch 0.9 with Eclipse 3.3 in Ubuntu
     参看Nutch的官方文档 ,里面说得很详细了,这里不在赘述。


2、导入hadoop的源代码和,可方便在Eclipse中调试代码和查看API文档。具体方法如下:
     Project properties--> Java Build Path-->Libraries-->hadoop-0.12.2-core.jar,点击前面三角符号,展开编辑 Source attachment , 选择hadoop相应版本的src

 

3、 配置Native-hadoop Library,可以提高运行效率,但是调试环境下关系不大,不配置也可。

      Project properties--> Java Build Path-->Libraries-->hadoop-0.12.2-core.jar,点击前面三角符号,展开 编辑 Native library location,加入nutch-0.9/lib/native/Linux-i386-32 即可。

 

4、解决 “Generator: 0 records selected for fetching, exiting ...”问题

    经过上面的配置,已经可以在Eclipse环境中启动Nutch了,但是程序却不能正常运行,而出现一个 "Generator: 0 records selected for fetching, exiting ..."报告,程序终止。

   经过调试, 发现运行到 Generator.java:424 :

if (readers == null || readers.length == 0 || !readers[0].next(
     new FloatWritable())) {


   LOG.warn("Generator: 0 records selected for fetching, exiting ...");

   由于 readers[0].next( new FloatWritable() )为false而导致该错误的出现。网上相关文章提出适用NUTCH-503解决该问题,但是该补丁针对的是分布式部署时出现的问题,在这里并不适用,而且经测试也不能解决问题。

解决方法

     将tmp_build,也就是项目的默认输出目录(default output folder)下的 nutch-site.xml 文件删掉 或者将该文件中下列属性注释掉。
<property>
  <name>plugin.includes</name>
  <value>.*</value>
  <description>Enable all plugins during unit testing.</description>
</property>



====================================

  由于接触Nutch时间不长,问题的前因后果并不明了,希望知道的sdjm可以告知。

1
0
分享到:
评论

相关推荐

    Eclipse中编译Nutch-0.9

    本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...

    nutch 0.9 版(包含war,bin,src可直接部署使用)

    总结,Nutch 0.9 版本为用户提供了完整的网络爬虫解决方案,包括Web界面、命令行工具和源代码,使得用户能够快速搭建和运行一个搜索引擎,同时也为开发者提供了深入学习和定制的机会。对于研究和实践搜索引擎技术的...

    eclipse配置nutch,eclipse配置nutch

    为了使Nutch在Eclipse中正常运行,你需要修改Nutch的默认配置文件`nutch-default.xml`。具体而言,将`plugin.folders`参数改为`"./src/plugin"`,以确保Nutch能够识别到项目的插件目录。 #### 步骤5:设置URL文件 ...

    nutch09版本亲测好用

    总之,Nutch 0.9 是一个功能强大且灵活的搜索引擎解决方案,它在网页抓取和数据分析领域有着广泛的应用。虽然现在有更新的版本如 Nutch 2.x,但 Nutch 0.9 对于学习搜索引擎原理和早期的 Hadoop 应用仍具有很高的...

    nutch-0.9 环境搭建所需最小cygwin

    本篇文章将详细讲解如何在Windows环境下,使用Cygwin搭建Nutch-0.9的运行环境。 首先,我们需要理解Cygwin是什么。Cygwin是一个在Windows上模拟Linux环境的开源软件,它提供了许多在Linux环境下才能运行的命令行...

    nutch 0.9分页代码(粘贴可用)

    ### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目,它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展,数据量日益增大,如何高效地处理这些数据成为了一个重要的...

    nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling

    《Nutch入门经典翻译1:Introduction to Nutch, Part 1: Crawling》一文深入介绍了Nutch这一开源网络爬虫框架的基本概念、体系结构及其关键组件,为初学者提供了全面的理解视角。以下是对该文章核心知识点的详细解读...

    lucene2.4+nutch学习笔记三:lucene 在多个文本文档里找出包含一些关键字的文档

    《Lucene 2.4与Nutch学习笔记:在多文档中搜索关键词》 Lucene是一个高性能、全文检索库,而Nutch则是一个开源的网络爬虫项目,两者结合使用,能够实现对大量文本文档的高效搜索和索引。这篇学习笔记主要探讨如何...

    Eclipse中编译Nutch-1.0

    随后,在Eclipse中创建一个新的Java项目,命名可自定义,如“Nutch”,并在创建过程中选择“从现有源代码创建项目”选项,指向已解压的`nutch-1.0`目录。在项目的Library配置中,需添加`conf`文件夹,并将其置于...

    apache-nutch-2.2.1(Eclipse直接运行版)001

    apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    windows下nutch的安装.pdf

    在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...

    nutch爬虫+java+eclipse

    3.3 配置Nutch:在conf目录下,你需要编辑nutch-site.xml文件,配置爬虫的参数,如抓取间隔、抓取范围、URL过滤规则等。 3.4 运行Nutch:在Eclipse中,可以直接运行Nutch的main方法,如org.apache.nutch.crawl....

    在eclipse中部署nutch所缺的包

    本教程将详细解释如何解决在Eclipse环境中部署Nutch时遇到的关于MP3和RTF文件解析的缺失包问题。 首先,我们来看MP3解析。在Nutch中处理网页内容时,有时会遇到包含音频链接的情况,特别是当抓取的网站涉及到音乐...

    Windows下配置nutch

    【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够...不过需要注意,由于 Nutch 主要设计在 Linux 环境下,Windows 上可能遇到兼容性问题,需要仔细调试和解决。

Global site tag (gtag.js) - Google Analytics