引用
就在刚刚,终于把Nutch 0.9在Eclipse中配置成功了,苦恼了我一个星期的问题终于解决了!现在真的是心情舒畅哦!哈哈,当然,我首先还是要感谢一下笨笨的,在网上搜到了他的博客文章,给了我很大的帮助哦。呵呵,还有我的同学,虽然和我隔着远了点,不过还是给我帮了很大的忙哦!哈哈,真的要好好感谢一下他呢!我又在毕业设计成功的道路上迈进了一大步呢!怎么也要纪念一下么!哈哈!
笨笨的原文地址是:http://blog.sina.com.cn/s/blog_4c98b960010092h2.html,感兴趣的朋友可以去看看他的原文哦,或许能得到意外的惊喜呢!也说不定哦!而Nutch官网上也有介绍在Eclipse中配置Nutch的方法,地址是:http://wiki.apache.org/nutch/RunNutchInEclipse0.9。
下面是我在Eclipse中配置Nutch 0.9的过程与心得,或许对你也会有点点帮助哦!
具体步骤是:
1. 下载Nutch并解压到某个目录下,建议在根目录下。具体的解压过程如果有不知道的朋友可以去看看我的另一篇日志:在Windows环境下安装和配置Nutch 0.9
2. 修改Nutch\conf目录下的nutch-site.xml和crawl-urlfilter.txt两个文件,具体的修改方法也在在Windows环境下安装和配置Nutch 0.9中有详细的介绍。(为了后面的方便,建议在修改完成后将conf文件夹复制一下,并保存在硬盘的其他的地方。)
3. 到下面两个页面去下载两个jar文件,他们分别是:
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-mp3/lib/
http://nutch.cvs.sourceforge.net/nutch/nutch/src/plugin/parse-rtf/lib/
下载其中的jid3lib-0.5.1.jar和rtf-parser.jar两个文件,并分别把他们拷贝到Nutch\src\plugin\parse-mp3\lib和Nutch\src\plugin\parse-rtf\lib两个文件夹下。
4. 准备工作做好以后就可以在Eclipse中配置Nutch了。打开Eclipse后,我们开始建立Java project。具体的做法是:
File > New > Project > Java project创建Eclipse项目,给我们的项目命名,然后选择Create project from existing source,并指向你的Nutch目录。
5. 点击Next后我们就能看到用于定义Java build的设置环境。在第一个选项卡source下面我们可以看到三个连接,我们需要选择第三个:Add project ‘Nutch’ to build path,点击之后我们就选择conf,完成以上步骤之后我们就将conf加入到了classpath中。注意:这里不是指上面的第三个选项卡。
6. 现在需要我们选择Default output folder,在这里我们必须选择Nutch/conf作为它的Default output folder,否则就会找不到crawl-urlfilter.txt,从而不能完成网站的爬行,就会出现我之前一只没有解决的问题,会出现以下提示:
Generator: 0 records selected for fetching, exiting ...
Stopping at depth=0 - no more URLs to fetch.
No URLs to fetch - check your seed list and URL filters.
7. 点击Finish,这时我们就完成了前续的配置工作,这时我们就可点击运行,选择Java Application点击OK,开始让Eclipse自己寻找项目的主类。我们选择Crawl-org.apache.nutch.crawl,点击OK。
8. 这时我们可以回到Nutch\conf目录下看下,我们可以看到里面的内容发生了改变,这时就需要我们还原原来conf下的内容,这时我们在第2步中另外保存的conf文件夹就起到了作用。(当然,新生成的东西并不影响我们的后续爬行工作,我们可以只考虑将原来conf下的内容复制回来,但是我个人觉得为了文件夹的管理和查找方便,我建议将新生成的内容全部删除后在将原来conf下的内容复制回来。还有一点需要我们注意,conf里面不可以有org文件夹,如果有的话delete,否则的话会影响index。)当然,拷回来以后得记得刷新一下哦!
9. 点击菜单中的Run > Open run dialog,选择Java Application分支,选中Arguments选项卡。
在Program arguments中填写爬行命令,如:myUrl -dir myDir -depth 2 -topN 50
在VM arguments中填写:-Dhadoop.log.dir=logs -Dhadoop.log.file=hadoop.log
填写完成后,点击apply完成提交。由于我们到目前为止还没有建立需要我们爬行的url地址,所以我们在提交完成后,点击close,然后我们就可以建立需要Nutch爬行的url地址,建好之后,只要我们在点击工具栏上的运行按钮,我们就可以在Console的透视图中看到Nutch爬行的结果了。当然如果我们之前已经建立好了我们需要爬行的url地址,我们就可以直接点击run,这时我们也可以在Console的透视图中看到Nutch爬行的结果。
至此,我们的工作全部完成了,当然我建议在Eclipse里面配置Nutch之前,我们最好能够熟悉在Shell的环境下运行Nutch。如果有什么不对的地方,欢迎大家指正,我也很希望能和大家一起学习有关Nutch的相关内容。
The original website please visit: http://hi.baidu.com/conquer84/blog/item/5bdefafee43b2a375c600834.html/cmtid/c49ccaa24f7799a5cbefd0d3
分享到:
相关推荐
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...
在Nutch 0.9 中,这个WAR文件包含了运行Nutch Web界面所需的全部组件,包括Web UI和相关服务,用户可以通过浏览器访问这些服务来监控和管理爬虫任务。 3. **BIN 文件**: BIN目录通常包含Nutch的可执行脚本和...
通过上述步骤,你可以在Eclipse中成功配置并运行Nutch,从而利用其强大的网络爬取和数据处理能力。这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何...
总之,Nutch 0.9 是一个功能强大且灵活的搜索引擎解决方案,它在网页抓取和数据分析领域有着广泛的应用。虽然现在有更新的版本如 Nutch 2.x,但 Nutch 0.9 对于学习搜索引擎原理和早期的 Hadoop 应用仍具有很高的...
在Linux环境中使用Eclipse编译Nutch-1.0,首要任务是确保开发环境满足项目需求。这包括确认Eclipse的JDK、JRE版本至少为1.6或更高版本。这是因为Nutch作为Apache旗下的开源Web爬虫项目,其运行依赖于Java平台,并对...
### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目,它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展,数据量日益增大,如何高效地处理这些数据成为了一个重要的...
在Eclipse中编译和运行Hadoop-0.20.1源码是开发者调试和理解Hadoop工作原理的重要步骤。Hadoop是一个开源的分布式计算框架,主要用于处理和存储大量数据。0.20.1版本是Hadoop的一个较早版本,尽管现在有更新的版本,...
本篇文章将详细讲解如何在Windows环境下,使用Cygwin搭建Nutch-0.9的运行环境。 首先,我们需要理解Cygwin是什么。Cygwin是一个在Windows上模拟Linux环境的开源软件,它提供了许多在Linux环境下才能运行的命令行...
下面将详细介绍Nutch爬虫、Java语言在爬虫开发中的应用以及如何在Eclipse中配置和运行Nutch。 一、Nutch爬虫 Nutch 是Apache软件基金会的一个项目,它的设计目标是成为一个可扩展、高性能的网络爬虫。Nutch的核心...
在本文中,我们将深入探讨如何在 Linux 环境下使用 Eclipse ...通过正确配置 Eclipse、解决授权问题以及修复源代码中的错误,你可以顺利地在本地环境中编译和运行 Nutch,从而进一步理解和定制这个强大的网络爬虫系统。
Nutch 1.16是该项目的一个稳定版本,已经预先编译完成,方便开发者直接在Eclipse或IntelliJ IDEA这样的集成开发环境中导入使用,无需自行配置和编译源代码。 **Nutch的组成部分** 1. **Web爬虫**:Nutch的爬虫负责...
文档中提到的Nutch 0.9版本需要特别注意,因为后续版本的Nutch可能在配置和运行机制上有所变化。而Nutch在不同版本的Windows操作系统上的兼容性,以及是否需要特别的依赖库,都需要在安装前仔细阅读Nutch的官方文档...
本教程将详细解释如何解决在Eclipse环境中部署Nutch时遇到的关于MP3和RTF文件解析的缺失包问题。 首先,我们来看MP3解析。在Nutch中处理网页内容时,有时会遇到包含音频链接的情况,特别是当抓取的网站涉及到音乐...
apache-nutch-2.2.1(Eclipse直接运行版)今天刚做的,发现有很多坑,分享给大家实验,JDK1.7 Win10。我分享的两个压缩卷一起下载才可以用,资源限制太小了 002地址:...
通过执行bin/nutch crawl命令,可以开始网页抓取,并在nutch-0.9目录下生成crawl文件夹存储结果。 然后,测试Nutch自带的搜索引擎。将nutch-0.9-war部署到Tomcat服务器上,并对nutch-site.xml进行配置。在运行过程...
在编译`Nutch`项目时,可能需要依赖各种`jar`库,包括`rtf-parse.jar`和`jid3lib-0.5.4.jar`,因为`Nutch`可能需要处理包含RTF格式的网页或者抓取的MP3等音频文件。 `rtf-parse.jar`和`jid3lib-0.5.4.jar`在`Nutch`...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...