资料准备:setup.exe 这个是在windows上模拟liunx用的一个终端,下载地址:http://www.cygwin.com/(安装后注意设置环境变量CYGWIN_HOME,然后把它的bin加到path目录)
nutch 1.4 下载地址:http://www.apache.org/dyn/closer.cgi/lucene/nutch/
ant 1.8 下载地址:http://ant.apache.org/
下载好nutch 后,将它存在E:/根目录下,其它目录也可以的,然后执行setup.exe安装cygwin,具体安装流程,就不多说了,那个网上挺多的。
下来,cmd->到nutch的根目录,执行ant,对整个工程进行编译,大概需要20分钟时间,去喝杯茶,放松一下吧。
编译完以后,要开eclipse,新建java project,使用nutch作为工程内容,然后next-> add libary 选择add class folder选中conf文件,完成就OK。
你在网上会发现很多解答提到crawl-urlfilter.txt,而在1.4是没有这个文件的,不过多了regex-urlfilter.txt,在这个里面加入+^http://([a-z0-9]*\.)*163\.com 这个代表只抓取www.163.com的内容,然后在nutch-site.xml
<property>
<name>http.agent.name</name>
<value>haininghacker</value>
</property>
<property>
<name>http.agent.url</name>
<value>www.163.com</value>
</property>
加入下面这段,现在还差最后一步,打开Run configurations.. 打开arguments选择,在program arguments里面输入urls -dir crawl -depth 5 -threads 4 -topN 10 然后在VM arguments输入-Xms64m -Xmx512m OK了,来享受抓取网页的成就感吧,running......
遇到问题:
nutch eclipse 下跑出现 IOException: Cannot run program "chmod": CreateProcess error=2, ?t?问题 :
问题原因:没有安装cygwin 或 没有配置环境变量
解决办法:安装并配置环境变量 bin到 path下 重启 eclipse 问题解决
来源:http://hi.baidu.com/haininghacker/blog/item/dd91173c08e882d89f3d6285.html
分享到:
相关推荐
本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
nutch1.4帮助文档,学习nutch1.4必备,最新nutch1.4核心类解读!
- **分布式存储**:Nutch 1.4使用Hadoop的HDFS(Hadoop Distributed File System)存储抓取的网页和索引数据。 - **MapReduce**:Nutch的大部分处理任务都是通过Hadoop的MapReduce模型执行的,实现了并行处理和...
apache-nutch-1.4-bin.tar.gz.part2
在这个"apache-nutch-1.4-bin.tar.gz"压缩包中,包含了运行 Nutch 的所有必要组件和配置文件,适合初学者和开发者快速部署和实验。 **Nutch 的核心组成部分:** 1. **爬虫(Spider)**:Nutch 的爬虫负责在网络中...
Apache Nutch 是一个开源的网络爬虫框架,用于...通过以上步骤,你将在Windows环境下成功配置并运行Nutch 1.4。这个过程可能需要一些时间和耐心,但完成后,你将能够自定义Nutch的爬虫行为,抓取并处理你需要的数据。
本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...
通过以上步骤,可以在 Windows XP SP2 环境下成功安装并配置 Nutch。这不仅能够帮助用户了解搜索引擎的工作原理和技术细节,还可以为开发自己的搜索引擎项目打下坚实的基础。随着对 Nutch 的深入学习和实践,相信会...
在“apache-nutch-1.4-src.tar.gz”这个压缩包中,包含了Nutch 1.4版本的源代码,用户可以根据自己的需求对代码进行定制和扩展。 Nutch 的主要组件包括以下几个方面: 1. **网络爬虫(Crawler)**:Nutch 的网络...
【Nutch 知识点详解】 ...通过以上步骤,你可以在 Windows 上成功配置并运行 Nutch,进行网页抓取和搜索。不过需要注意,由于 Nutch 主要设计在 Linux 环境下,Windows 上可能遇到兼容性问题,需要仔细调试和解决。
本文将详细介绍如何在Windows环境下使用Eclipse集成开发环境(IDE)配置并运行最新的Nutch 2版本。这不仅适用于初学者快速入门,也为进阶用户提供了一种高效的学习方式。 #### 二、准备工作 ##### 1. Eclipse 安装...
通过上述步骤,你可以在Eclipse中成功配置并运行Nutch,从而利用其强大的网络爬取和数据处理能力。这不仅为学习和研究Nutch提供了便利,也为实际应用中的数据采集和分析打下了坚实的基础。记住,配置过程中遇到任何...
apache-nutch-1.4-bin.part2
apache-nutch-1.4-bin.part1
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
### Nutch 和 Cygwin 在 Windows 系统上的配置指南 ...通过以上步骤,你可以成功地在 Windows 系统上配置好 Nutch 和 Cygwin,实现基本的网页爬取功能。此外,还可以根据实际需求调整配置参数来优化爬取效率和质量。
apache-nutch-1.4-bin.tar.gz.part1