本文参考了:http://www.douban.com/note/193721760/ 博文(在此感谢博主),该文中提到的参考文章地址:http://zettadata.blogspot.com/2011/12/eclipsenutch.html或http://peigang.iteye.com/blog/1682107无法打开(原因你懂的)我想办法打开了,参考个文章后将自己的配置过程记录下来,以供大家使用。
一、软件环境:
1、操作系统WindowsSp3
2、http://www.eclipse.org/downloads/ (MyEclipse安装Ivy存在问题,具体情况不明,建议使用eclipse官方版本)
3、JDK1.6*
4、SVN1.6*
5、IvyDE (安装参考:http://peigang.iteye.com/blog/1465410
)
二、安装:
安装MyEclipse,国内的大都喜欢用这个还是D版的,自己百度一下然后破解。
安装SVN插件参考http://peigang.iteye.com/blog/1461786
。
三、安装NUTCH:
1、 MyEclipse中选择File > New > Project > SVN > Checkout Projects from SVN


2、Create new repository location > https://svn.apache.org/repos/asf/nutch/trunk




3、选择根节点并选择Finish


4、从弹出窗口中选择Java > Java Project > next


5、设置项目名称为nutch,并确认选择参数 create separate folders for sources and class files ,点击NEXT


6、设置Default output folder 选项为 nutch/bin 点击 Finish.


7、svn checkout nutch


8、checkout完毕后不要编译,确认
四、配置nutch环境
工程nutch上点击右键选择如下目录:

2、在弹出的窗口中选择Source选项卡,删除nutch/src目录,然后点击Add Folder新增目录。

3、
Add Folder
窗口中选择src/bin, src/java, src/test , src/testresources.


4、展开nutch/src/plugin目录并将每个子目录中src/java、src/test选中


选择完毕后点击ok,返回下图:


5、 选择Libraries选项,点击Add JARs按钮,新增src/plugin/urlfilter-automaton/lib/automaton.jar 及
src/plugin/parse-swf/lib/javaswf.jar


6、Libraries中选择Add Library
To be continue;
分享到:
相关推荐
而Eclipse作为一款流行的集成开发环境(IDE),被广泛应用于Java开发中。本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于...
在本文中,我们将深入探讨如何搭建Nutch2.3.1的运行环境,以便进行网页抓取和分析。 **一、系统需求** 首先,确保你的系统满足以下基本要求: 1. 操作系统:Nutch可以在Linux、Unix或Mac OS X等类Unix系统上运行,...
本文将详细介绍如何在Windows环境下使用Eclipse集成开发环境(IDE)配置并运行最新的Nutch 2版本。这不仅适用于初学者快速入门,也为进阶用户提供了一种高效的学习方式。 #### 二、准备工作 ##### 1. Eclipse 安装...
本教程将详细介绍如何搭建Nutch 1.2的Web开发环境,因为从Nutch 1.3版本开始,Web界面部分已被移除。 首先,我们需要理解Nutch的工作流程,它主要包括五个主要步骤:抓取、解析、索引、查询和排名。Nutch提供了强大...
Nutch是一个开源的Java搜索引擎,它的主要功能包括Web爬虫和全文搜索。...通过理解Nutch的工作原理和环境搭建,可以深入了解Web爬虫和搜索引擎的运作机制,为开发自己的搜索引擎应用打下坚实基础。
下面,我们将详细讲解如何搭建Nutch的开发环境。 **步骤一:系统准备** 在开始搭建Nutch开发环境之前,你需要确保你的计算机满足以下基本要求: 1. 操作系统:Nutch可以在Linux、Mac OS X或Windows上运行,但推荐...
在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高版本。这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...
1.1 环境准备 1.1.1 本期引言 1.1.2 环境介绍 1.1.3 JDK 安装配置 1.1.4 ANT 安装配置 1.1.5 IvyDE 安装配置 1.1.5 Tomcat 安装配置 ...1.2 Eclipse 开发 1.2.1 Solr 部署 1.2.2 Nutch 导入 1.2.3 Solr 与Nutch 结合
自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方
总结,搭建Nutch-0.9环境在Windows上的关键在于正确安装和配置Cygwin,确保所有必要的开发工具和Java环境就绪。尽管这需要一定的技术背景,但只要遵循上述步骤并耐心处理可能出现的问题,你就能成功构建起自己的...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
在本文中,我们将详细介绍如何在Eclipse环境中设置和运行Apache Nutch 0.9版本。Apache Nutch是一款开源的网络爬虫项目,用于抓取、分析网页内容,并为搜索引擎提供索引数据。Eclipse作为流行的Java开发工具,是调试...
1. **使用Eclipse创建Maven项目**:首先,需要在Eclipse环境中创建一个新的Maven项目。Maven是一个项目管理和综合工具,可以帮助管理项目的构建过程。 2. **引入依赖库**:将Nutch运行环境下的lib目录中的JAR包...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
本教程将详细解释如何解决在Eclipse环境中部署Nutch时遇到的关于MP3和RTF文件解析的缺失包问题。 首先,我们来看MP3解析。在Nutch中处理网页内容时,有时会遇到包含音频链接的情况,特别是当抓取的网站涉及到音乐...
### nutch平台的搭建过程详解 #### 一、Nutch平台概述 Nutch是一个高度可扩展且开放源代码的Web抓取与搜索平台,它基于Hadoop构建,能够处理大量网页数据。Nutch的设计旨在抓取网页并将这些网页转换成可供搜索引擎...
- **操作系统:** 二次开发Nutch 1.7时,开发阶段的操作系统选择相对灵活,只要确保安装了JDK和Eclipse即可。 - **JDK:** 需要安装Java Development Kit,这是进行Java开发的基础环境。 - **Eclipse:** 作为主要的...
这个开发资料压缩包包含了与Nutch相关的源代码和可能的配置文件,可以帮助开发者深入了解和学习Nutch的工作原理以及如何进行定制化开发。以下是对Nutch及其相关知识点的详细介绍: 1. **Nutch介绍**:Nutch是一个...
Eclipse 是一个广泛使用的 Java 开发集成环境,它支持多种编程语言和项目类型,包括 Nutch。 首先,你需要确保你的开发环境已经安装了 Eclipse,并且配置了 JDK 和 JRE,版本至少是 1.6 或以上。这是因为在 Nutch ...