官方安装方法:http://wiki.apache.org/nutch/RunNutchInEclipse
本文参考:http://zettadata.blogspot.com/2011/12/eclipsenutch.html
1、在Eclipse中安装subclipse 1.6,如果安装subclipse 1.8,则需要安装javahl 1.7,否则会报不兼容错误。
安装完subclilpse,重启eclipse,会报如下错误:(我用的centos5.6 64位)
Failed to load JavaHL Library.
These are the errors that were encountered:
no libsvnjavahl-1 in java.library.path
no svnjavahl-1 in java.library.path
原因请查看http://subclipse.tigris.org/wiki/JavaHL#head-5ccce53a67ca6c3965de863ae91e2642eab537de
yum install subversion-javahl.x86_64 (1.6)
若不是64位系统,可用命令查询yum search subversion-javahl
安装后查看subversion-javahl.x86_64安装路径
rpm -ql subversion-javahl
/usr/lib64/libsvnjavahl-1.la
/usr/lib64/libsvnjavahl-1.so
/usr/lib64/libsvnjavahl-1.so.0
/usr/lib64/libsvnjavahl-1.so.0.0.0
/usr/lib64/svn-javahl
/usr/lib64/svn-javahl/include
/usr/lib64/svn-javahl/svn-javahl.jar
修改eclipse.ini,在-vmargs下面添加如下行:
-Djava.library.path=/usr/lib64
重启eclipse,会出现以下错误:
Subversion 1.6contains a bug that causes Eclipse to crash when Subversion tries to interact with the GNOME keyring via the Subversion JavaHL API. We recommend that you disable this feature so that you can use Subversion from Eclipse.
这时需要修改文件~/.subversion/config,添加如下行:
password-stores =
2、在Eclipse中安装IvyDE
3、在Eclipse中安装m2e
http://eclipse.org/m2e/download/
http://download.eclipse.org/technology/m2e/releases
4、安装Nutch,在Eclipse中选中File->New->Project->SVN
5、建立新的档案库位置:https://svn.apache.org/repos/asf/nutch/trunk
在Eclipse中设置Nutch环境
1、在项目中选择Nutch-->Properties,选择Java Build Path。
2、在Source中Remove Nutch/src,然后Add Folder Nutch/src/bin Nutch/src/java Nutch/src/test Nutch/src/testresources
3、展开Nutch/src/plugin,并将每个子目录中的src/java src/test勾选上
4、切换到Libraries分页,选择Add Class Folder,添加Nutch/conf
5、同样是Libraries分页,选择Add JARs,添加src/plugin/urlfilter-automaton/lib/automaton.jar 及 src/plugin/parse-swf/lib/javaswf.jar
6、同样是Libraries分页,选择Add Library,选择IvyDE Managed Dependencies,选择Nutch/ivy/ivy.xml文件,并在下一步骤中将所有的设定值(Configuration)都勾选。
7、切换至Order and Export分页,找出Nutch/conf目录,并将其移到最上方(Top)
设置Nutch
请参考Nutch官方网站Wiki中的指南 http://wiki.apache.org/nutch/NutchTutorial
在conf/nutch-site.xml中配置
<property>
<name>http.agent.name</name>
<value>My Nutch Spider</value>
</property>
<property>
<name>plugin.folders</name>
<value>./src/plugin</value>
</property>
注意:plugin.folders的值是./src/plugin,不是../src/plugin。否则在运行crawl类时会报以下错误:
Exception in thread "main" java.io.IOException: Job failed!
新建目录urls,在目录中新建文件seed.txt,内容为http://nutch.apache.org/
修改conf/regex-urlfilter.txt,把
# accept anything else
+.
改成
+^http://([a-z0-9]*\.)*nutch.apache.org/
请确认在$NUTCH_HOME/conf/nutch-site.xml设置"plugin.folders"属性值为"../src/plugin"
为项目添加ivy依赖:
右键 属性->Java Build Path->Libraries->Add Library...->IvyIDE Managed Dependencies
使用Ant编译Nutch
分享到:
相关推荐
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高版本。这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对...
Nutch 1.4是该项目的一个稳定版本,发布于2012年,尽管后续有更新的版本,但1.4版本因其稳定性及广泛的应用而备受青睐。在深入探讨Nutch 1.4的知识点之前,我们先来了解一下什么是Apache Nutch。 Apache Nutch是一...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...
### Eclipse中编译Nutch-0.9:详解与步骤 #### 核心知识点概览 在本篇文章中,我们将深入探讨如何在Eclipse环境中编译Nutch-0.9,一个开源的网络爬虫项目,用于抓取互联网上的网页信息。文章涵盖的关键知识点包括...
apache-nutch-1.4-bin.tar.gz.part2
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
在“apache-nutch-1.4-src.tar.gz”这个压缩包中,包含了Nutch 1.4版本的源代码,用户可以根据自己的需求对代码进行定制和扩展。 Nutch 的主要组件包括以下几个方面: 1. **网络爬虫(Crawler)**:Nutch 的网络...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
apache-nutch-1.4-bin.tar.gz.part1
在Eclipse中部署Apache Nutch时,可能会遇到缺少特定库文件的问题,这通常是由于Nutch的依赖管理没有完全覆盖所有必需的组件。本教程将详细解释如何解决在Eclipse环境中部署Nutch时遇到的关于MP3和RTF文件解析的缺失...
在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse 编译 Apache Nutch 1.0。Apache Nutch 是一个开源的网络爬虫框架,主要用于抓取和索引网页内容。Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种...
在Eclipse中编译和运行Hadoop-0.20.1源码是开发者调试和理解Hadoop工作原理的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大量数据。0.20.1版本是Hadoop的一个较早版本,尽管现在有更新的版本,...