通常来说nutch应该部署在多台机器上,做并行抓取,那么配置nutch在单机windows下有什么意义呢?就是方便debug。
下面分步骤详述。
1.安装JDK 6,eclipse3.2以上版本
2.为eclise安装IBM mapreduce tools插件
http://www.alphaworks.ibm.com/tech/mapreducetools
3.安装cygwin,并设置环境变量
4.下载nutch源代码,我使用的是最新的1.0版本
5.在eclipse中创建MapReduce Project工程。将nutch下的src/java下的所有代码复制到工程的src目录下,a并将其依赖的jar导入工程路径。
6.将nutch/conf 下的配置文件复制到classloder可以找到的路径,我是复制在bin下
7.修改org.apache.nutch.crawl.Crawl,在main()里加入一句
conf.set("hadoop.job.ugi", "你的帐号名,你的系统密码");
或者在nutch-site.xml加入
<property>
<name>hadoop.job.ugi</name>
<value>你的帐号名,你的系统密码</value>
<description></description>
</property>
8.运行org.apache.nutch.crawl.Crawl类,命令行参数可以如下:
D:\test-nutch\urls -dir D:\test-nutch -depth 3 -topN 100 -threads 5
,head溢出的话,请调整内存参数
如果运行成功的话,你就可以使用luke来查看索引文件了。
分享到:
相关推荐
本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...
因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...
本篇文章将详细介绍在 Windows XP SP2 环境下安装与配置 Nutch 的全过程,以便更好地理解和掌握搜索引擎技术。 #### 二、环境准备 为了确保 Nutch 能够正常运行,需要准备以下环境: 1. **JDK (Java Development ...
在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
Nutch在windows下的安装.pdf
总的来说,配置Windows下的Nutch涉及多个环节,包括环境搭建、项目构建、配置调整、数据库连接以及爬虫的运行与监控。通过细心配置和实践,你可以成功构建一个强大的网络爬虫系统。提供的文档资料将作为配置过程中...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...
本次测试旨在评估Nutch在单机环境下运行的性能表现,包括抓取效率、资源占用以及系统稳定性等方面,以便为后续的大规模部署和优化提供参考依据。 **测试环境:** - **测试机器:** 主机host223和host225。 - **测试...
Nutch程序运行环境配置是Java开发中的一个重要环节,特别是在Windows操作系统上进行Nutch相关的开发工作。Nutch是一个开源的Web爬虫项目,用于抓取互联网上的网页并建立索引,通常与Hadoop等大数据处理框架结合使用...