一、运行环境:
1.
操作系统:Windows XP
2.
Java 1.6
,设置JAVA_HOME
等环境变量
鼠标右键单击我的电脑→属性→高级→环境变量,如下图示:
1)
单击系统变量列表框下面的新建按钮,新建java_home
环境变量。
2)
单击系统变量列表框下面的新建按钮,新建classpath
环境变量。
3)
在系统变量中找到path
变量,并在原有path
值的基础上添加环境变量。
例如:
1)
java_home=E:\Java\Jdk
2)
classpath=.\;E:\Java\JDK\lib\dt.jar;E:\Java\JDK\lib\tools.jar;E:\Java\JDK\jre\lib
(注意:“.\;
”不能少)
3)
path=
……;E:\Java\Jdk\bin
(注意:是添加,不是更改)
3.
Cygwin
,由于Nutch
提供的脚本只能在Linux
环境下使用,所以使用Cygwin
来虚拟Linux
命令。
下载地址:http://www.cygwin.cn/
4.
Nutch 0.9
5.
Tomcat 6.0
二、Nutch
的安装和配置:
1.
安装Cygwin
(我这里装到E:\Cygwin
)。
2.
将Nutch
解压缩后放置到Cygwin
的根目录(或者:\home\
用户名\
)的目录下。
解压的方法是:
1)
为了便于操作,建议将Nutch 0.9
的安装包拷贝到Cygwin\home\
用户名\
目录下,这是由于使用Cygwin
进入操作界面是的默认目录是:\home\
用户名。我们可以使用pwd
命令来查看当前的目录。当然也可以拷贝到Cygwin
的根目录下,这样就需要我们使用cd
命令来退到Cygwin
的根目录。启动Cygwin
,我们就可以看到以下界面,具体操作如下:
2)
使用dir
命令可以查看当前目录下含有的文件,我们就可以看到Nutch 0.9
的安装包,这时我们就可以将Nutch 0.9
解压出来。
输入命令:
tar xvf nutch-0.9.tar.gz
3)
在Cygwin
环境下进入Nutch-0.9
目录下,使用cd
命令可以跳转到指定的目录。
为方便目录管理,我采用的目录结构为:E:\Cygwin\Nutch\nutch-0.9
使用命令bin/Nutch
进行测试,正常的情况下出现的结果是:
3.
进行抓取网站的测试,以抓取http://www.163.com
为例
1)
新建一个文件夹myUrl
,在文件夹中新建一个文本文件,在该文本文件中输入http://www.163.com
保存。另外再建立一个文件夹myLog
,该文件夹是用来存放使用Nutch
抓取的网页信息。这个两个文件夹都可以放在任何地方。我的目录结构如下图示:
2)
下面还需要修改几个文件,建议使用文本编辑器,例如我用的就是UltrEdit
。打开nutch-0.9\conf\nutch-site.xml
文件。
在<configuration></configuration>
中间插入以下内容:
<property>
<name>http.agent.name</name>
<value>Jennifer</value>
<description>HTTP 'User-Agent' request header. MUST NOT be empty -
please set this to a single word uniquely related to your organization.
NOTE: You should also check other related properties:
http.robots.agents
http.agent.description
http.agent.url
http.agent.email
http.agent.version
and set their values appropriately.
</description>
</property>
<property>
<name>http.agent.description</name>
<value>Jennifer</value>
<description>Further description of our bot- this text is used in
the User-Agent header.
It appears in parenthesis after the agent name.
</description>
</property>
<property>
<name>http.agent.url</name>
<value>Jennifer</value>
<description>A URL to advertise in the User-Agent header.
This will
appear in parenthesis after the agent name. Custom dictates that this
should be a URL of a page explaining the purpose and behavior of this
crawler.
</description>
</property>
<property>
<name>http.agent.email</name>
<value>Jennifer</value>
<description>An email address to advertise in the HTTP 'From' request
header and User-Agent header. A good practice is to mangle this
address (e.g. 'info at example dot com') to avoid spamming.
</description>
</property>
并修改<value></value>
中间的值,这里的设置是因为Nutch
遵守了robots
协议,在获取response
时,把自己的相关信息提交给被爬行的网站,以供识别。所以设置成任何你喜欢的值都可以的。
3)
打开Nutch-0.9\conf\crawl-urlfilter.txt
文件
找到"+^http://([a-z0-9]*\.)*
MY.DOMAIN.NAME/”
,将其中的'
MY.DOMAIN.NAME/'
直接删除。
4)
运行爬虫,在Cygwin
输入以下命令,如下图示:
其中:crawl
后面跟的是用于存储你想要爬行的网站的网址的目录和文件。-dir
后面跟的是用于存储nutch
抓取的网站的内容的目录。注意:该目录当前必须不存在,它用于指出存放爬行后结果的目录。-depth
表示爬行的深度。最后一个参数是指明日志文件存放的目录和文件。
运行结束后,你可以打开日志文件查看爬虫运行的详细过程。
4.
在tomcat
上运行Nutch
1)
把nutch-0.9.war
拷贝到Tomcat\webapps\
下面
2)
在浏览器中输入http://localhost:8080/nutch-0.9/
3)
修改Tomcat\webapps\nutch-0.9\WEB-INF\classes\nutch-site.xml
文件,并
在<configuration></configuration>
中添加以下内容:
<property>
<name>searcher.dir</name>
<value>E:\Cygwin\nutch\mydir</value>
</property>
其中<value></value>
中间的值一定是前面爬行网站是用于存放结果的目录。
4)
为了支持中文的搜索,修改Tomcat\conf\server.xml。
找到对应的地方修改成以下内容:
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
5.
在浏览器中输入http://localhost:8080/nutch-0.9
文章链接转自:http://apps.hi.baidu.com/share/mine
分享到:
相关推荐
在Nutch 0.9 中,这个WAR文件包含了运行Nutch Web界面所需的全部组件,包括Web UI和相关服务,用户可以通过浏览器访问这些服务来监控和管理爬虫任务。 3. **BIN 文件**: BIN目录通常包含Nutch的可执行脚本和...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...
总之,Nutch 0.9 是一个功能强大且灵活的搜索引擎解决方案,它在网页抓取和数据分析领域有着广泛的应用。虽然现在有更新的版本如 Nutch 2.x,但 Nutch 0.9 对于学习搜索引擎原理和早期的 Hadoop 应用仍具有很高的...
总结,搭建Nutch-0.9环境在Windows上的关键在于正确安装和配置Cygwin,确保所有必要的开发工具和Java环境就绪。尽管这需要一定的技术背景,但只要遵循上述步骤并耐心处理可能出现的问题,你就能成功构建起自己的...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
在Windows环境下安装Nutch涉及到多个步骤和组件,包括系统配置、软件依赖以及Nutch本身的安装和测试。以下是对这些知识点的详细说明: 1. **操作系统**:Nutch可以在Windows XP或Windows 2000+上运行,但需要注意的...
### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目,它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展,数据量日益增大,如何高效地处理这些数据成为了一个重要的...
在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...
本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...
因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...
Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
本篇文章将详细介绍在 Windows XP SP2 环境下安装与配置 Nutch 的全过程,以便更好地理解和掌握搜索引擎技术。 #### 二、环境准备 为了确保 Nutch 能够正常运行,需要准备以下环境: 1. **JDK (Java Development ...
以上步骤详细介绍了在Windows环境下安装、配置Nutch以及进行局域网抓取的基本操作。在实际使用中,根据具体需求可能还需要对Nutch的其他配置文件进行调整,如`conf/nutch-default.xml`和`conf/nutch-site.xml`,以便...
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等