一、环境:
1.操作系统:windowsXp,windows2000+
2.java1.6,设置JAVA_HOME到环境变量
3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
4.nutch版本:0.9
5.tomcat:6.0
二、nutch的安装和配置:
1,安装Cygwin<chsdate year="1899" month="12" day="30" islunardate="False" isrocdate="False" w:st="on">1.5.5</chsdate>(我这里装到F:/cygSys),将nutch解压缩后放置到cygSys /home/用户名的一个目录下(我放在F:/cygSys/home/dyk/nutch下),如图:
2,在Cygwin环境下进入nutch-0.9目录下,使用命令 bin/nutch进行测试,正常的情况下出现的结果是:
3,进行抓取网站的测试,以抓取http://www.163.com/为例
1) 新建一个文件myurl,在文件中输入http://www.163.com/保存,这个文件可以放在任何地方(我这个文件放在F:/cygSys/home/dyk/nutch/myurl),另外再建立一个爬虫日志目录logs(我放在F:/cygSys/home/dyk/nutch/logs)
2)
打开nutch-0.9/conf/nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
<!--<br><br>Code highlighting produced by Actipro CodeHighlighter (freeware)<br>http://www.CodeHighlighter.com/<br><br>--><property>
<name>http.agent.name</name>
<value></value>
<description>HTTP'User-Agent'requestheader.MUSTNOTbeempty-
pleasesetthistoasingleworduniquelyrelatedtoyourorganization.
NOTE:Youshouldalsocheckotherrelatedproperties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
andsettheirvaluesappropriately.
</description>
</property>
<property>
<name>http.agent.description</name>
<value></value>
<description>Furtherdescriptionofourbot-thistextisusedin
theUser-Agentheader.Itappearsinparenthesisaftertheagentname.
</description>
</property>
<property>
<name>http.agent.url</name>
<value></value>
<description>AURLtoadvertiseintheUser-Agentheader.Thiswill
appearinparenthesisaftertheagentname.Customdictatesthatthis
shouldbeaURLofapageexplainingthepurposeandbehaviorofthis
crawler.
</description>
</property>
<property>
<name>http.agent.email</name>
<value></value>
<description>AnemailaddresstoadvertiseintheHTTP'From'request
headerandUser-Agentheader.Agoodpracticeistomanglethis
address(e.g.'infoatexampledotcom')toavoidspamming.
</description>
</property>
可以把<name>XXX</name>之间的内容替换为其他字符,当然就算是不替换也无所谓,这里的设置,是因为nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。
3)
打开nutch-0.9/conf/crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*/.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*/.)*这几个字就可以了,表示所有http的网站都同意爬行)。
<!--[endif]-->
4)
运行爬虫,在Cygwin输入以下命令:
<!--<br><br>Code highlighting produced by Actipro CodeHighlighter (freeware)<br>http://www.CodeHighlighter.com/<br><br>-->bin/nutchcrawl../myurl–dir../mydir–depth2>&../logs/crawl1.log
这里dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件
运行结束后,你可以打开日志文件查看爬虫运行的详细过程。
5,在tomcat上运行Nutch
把nutch-0.9.war拷贝到Tomcat/webapps/下面
在浏览器中输入http://localhost:8080/nutch-0.9/这步是为了使tomcat展开nutch-0.9.war,然后修改webapps/ nutch-0.9/WEB-INF/classes/nutch-site.xml文件如下:
<!--<br><br>Code highlighting produced by Actipro CodeHighlighter (freeware)<br>http://www.CodeHighlighter.com/<br><br>--><configuration>
<property>
<name>searcher.dir</name>
<value>F://cygSys//home//dyk//nutch//mydir4</value>
</property>
</configuration>
为了支持中文的搜索,修改Tomcat/conf/server.xml。找到对应的地方修改成
<!--<br><br>Code highlighting produced by Actipro CodeHighlighter (freeware)<br>http://www.CodeHighlighter.com/<br><br>--><Connectorport="8080"protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443"URIEncoding="UTF-8"useBodyEncodingForURI="true"/>
在浏览器中输入http://localhost:8080/nutch-0.9,
搜索“nba”,结果是
分享到:
相关推荐
在Nutch 0.9 中,这个WAR文件包含了运行Nutch Web界面所需的全部组件,包括Web UI和相关服务,用户可以通过浏览器访问这些服务来监控和管理爬虫任务。 3. **BIN 文件**: BIN目录通常包含Nutch的可执行脚本和...
在 Nutch 0.9 中,Hadoop 被用来处理并行计算,提高了数据处理速度和系统可扩展性。这使得 Nutch 能够处理大规模的网页抓取任务。 8. **插件系统**: Nutch 的核心设计之一是其插件系统,允许用户通过编写插件来...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...
### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目,它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展,数据量日益增大,如何高效地处理这些数据成为了一个重要的...
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
在安装 Apache Nutch 1.7 之前,需要进行一些准备工作。首先,需要安装 Cygwin,这是一个 Unix 风格的命令行工具,可以在 Windows 平台上运行 Unix 命令。其次,需要安装 JDK,因为 Nutch 1.7 需要 Java 运行环境来...
在安装过程中,确保选择了开发工具(如gcc、make等)和相关的Java开发工具,因为Nutch是用Java编写的,并且需要编译。 接下来,我们将按照以下步骤进行Nutch-0.9的环境搭建: 1. **下载Nutch源码**:首先,从...
Nutch在windows下的安装.pdf
在Windows环境下安装Nutch涉及到多个步骤和组件,包括系统配置、软件依赖以及Nutch本身的安装和测试。以下是对这些知识点的详细说明: 1. **操作系统**:Nutch可以在Windows XP或Windows 2000+上运行,但需要注意的...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...
总结起来,Nutch在Windows下的安装涉及JDK、Tomcat、Cygwin的安装,以及Nutch的配置。每个组件的安装都需要设置相应的环境变量,Nutch的配置主要是修改URL过滤规则和HTTP代理信息。通过这个过程,用户可以在本地环境...
【Nutch在Windows中安装详解】 Nutch是一个由Apache基金会维护的开源搜索引擎项目,它允许用户构建内部网络或全局互联网的搜索引擎。在Windows系统中安装Nutch并不像在Linux那样直接,因为Nutch的一些脚本依赖于...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...
### Nutch 1.4 在 Windows 下 Eclipse 配置图文详解 #### 一、环境准备与配置 **1.1 JDK 安装** - **版本选择**:文档中提到使用了 JDK1.6,官方下载地址为:[JDK6]...
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...