上学期跟同学一起做了个校园搜索引擎,虽然最后是用lucene做的,但开始的时候还是安装了nutch,安装的经验不能浪费了,所以也发布出来。
准备软件:
jdk1.5.4
apache-tomcat-6.0.29
nutch-0.9
Cygwin
1:首先安装JAVA(E:/Lycos/jdk1.5.0_04)
安装完成后
设置环境变量JAVA_HOME=E:/Lycos/jdk1.5.0_04
CLASSPATH=.;E:/Lycos/jdk1.5.0_04/lib/tools.jar;E:/Lycos/jdk1.5.0_04/lib/dt.jar;E:/Lycos/jdk1.5.0_04/bin;
2:安装Cygwin(E:/Lycos/cygwin)
在第一次安装时:需要先从镜像点上下载相关文件。
再次运行程序即可安装成功。
3解压tomcat-6.0.29(E:/Lycos/tomcat-6.0.29)
4:解压nutch-0.9(E:/Lycos/cygwin/nutch-0.9)
设置环境变量NUTCH_JAVA_HOME="E:/Lycos/jdk1.5.0_04"
<1>创建目录
在nutch/bin目录下创建一个urls目录,然后在目录里面新建一个文件,文件名为“url.txt”,内容为你要爬行的网站如:http://www.sina.com.cn
<2>修改nutch/conf/crawl-urlfilter.txt文件
打开nutch/conf/crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为url.txt内的url的域名,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*/.)*这几个字就可以了,表示所有http的网站都同意爬行。
或者:+^http://([a-z0-9]*/.)*sina.com.cn/
注意如果直接删除MY.DOMAIN.NAME。不要保留删除后的/
<3>修改nutch/conf/conf/nutch-site.xml文件
打开nutch/conf/conf/nutch-site.xml文件,在<configuration></configuration>内插入一下内容:注:如果是sina.com.cn则value的值修改为:http://www.sina.com.cn
<property>
<name>http.robots.agents</name>
<value>http://www.sina.com.cn/klms</value>
</property>
<property>
<name>http.agent.name</name>
<value>http://www.sina.com.cn/klms</value>
</property>
<property>
<name>http.agent.url</name>
<value>http://www.sina.com.cn/klms</value>
</property>
把<name>XXX</name>之间的内容替换为其他字符,当然就算是不替换也无所谓,这里的设置,是因为nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。
<4>修改nutch/conf/nutch-default.xml
打开nutch/conf/nutch-default.xml文件,找到<name>http.agent.name</name>,然后把Value值随便设计一个。
<name>http.agent.name</name>
<value>sina</value>
以上配置,是爬取intranet的配置方式。
<6>执行nutch
由于配置nutch采用的是单独网站的配置方式,所以执行上我们也采用的是单网查询
先看一看nutch给出的命令:nutchcrawlurls-dircrawl-depth3-topN50
crawl:通知nutch.jar,执行crawl的main方法。
urls:存放需要爬行的url.txt文件的目录,注意,这个名字需要和你的文件夹目录相同,如果你的文件夹为search,那这里也应该改成search。
-dircrawl:爬行后文件保存的位置,可以在nutch/bin目录下找到。
-depth3:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
-topN50:一个网站保存的最大页面数。
执行命令的步骤:
1.进入cygwin界面。
2.使用cd命令,进入nutch/bin路径下。
3.执行:shnutchcrawlurls-dircrawl-depth3-topN50
4.具体的爬行日志可以在nutch/logs目录下看到,注意查找“INFOfetcher.Fetcher-fetchinghttp://XXXXXXX”这样的内容,这里是抓去过程日志。
<7>配置tomcat
在nutch压缩包下找到nutch-0.9.war文件,放到tomcat/webapps目录下,启动tomcat在webapps/nutch/WEB-INF/classes/nutch-site.xml文件中的<configuration></configuration>内插入一下内容
<property>
<name>searcher.dir</name><value>E:/Lycos/cygwin/nutch-0.9/bin/crawl</value>
</property>
<value/>的内容是刚才爬行后的crawl目录位置,提供给客户端来查询。
<8>解决中文乱码
打开tomcat目录下的conf/server.xml,解决中文问题。(在0.9中好像没出现乱码)
<Connectorport="8880"
maxThreads="150"minSpareThreads="25"maxSpareThreads="75"
enableLookups="false"redirectPort="8443"acceptCount="100"
debug="0"connectionTimeout="20000"
disableUploadTimeout="true"URIEncoding="UTF-8"useBodyEncodingForURI="true"/>
<9>配置完成后,关闭启动tomcat再启动tomcat。访问http://localhost:8080/nutch-0.9即可。
这里提醒一下:当第一次启动的时候,可能会出现如下错误:
org.apache.jasper.JasperException:/search.jsp(151,22)Attributevaluelanguage+"/include/header.html"isquoted
解决办法:
搜索search.jsp文件
找到151行:
<jsp:includepage="<%=language+"/include/header.html"%>"/>
改成这样:
<jsp:includepage='<%=language+"/include/header.html"%>'/>
相关推荐
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...
Apache Nutch 1.7 在 Windows 和 Linux 下的安装 Apache Nutch 1.7 是一个开源的网络爬虫和搜索引擎项目,它可以对互联网上的网页进行爬取、索引和搜索。本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的...
本文详细介绍了如何在 Windows 环境下安装配置 Nutch 1.4,包括所需工具和软件的下载、安装步骤以及验证方法。通过这些步骤,用户可以成功部署 Nutch 并进行简单的网页爬取任务。同时,文中还提供了常见的错误排查...
Windows 下安装使用nutch.doc
Nutch在windows下的安装.pdf
在Windows环境下配置Apache Nutch是一项复杂但至关重要的任务,它涉及到搜索引擎的基础构建,特别是对于那些需要自建数据抓取和索引系统的项目。Nutch是一个开源的网络爬虫项目,它能够高效地抓取互联网上的网页,并...
### Windows系统下Nutch检索工具的搭建步骤 #### 一、引言 随着互联网的快速发展,数据量呈爆炸性增长,对于数据的抓取、分析和处理能力的需求日益增加。Nutch作为一个开源的信息检索框架,提供了强大的网页爬取与...
【Nutch在Windows中安装详解】 Nutch是一个由Apache基金会维护的开源搜索引擎项目,它允许用户构建内部网络或全局互联网的搜索引擎。在Windows系统中安装Nutch并不像在Linux那样直接,因为Nutch的一些脚本依赖于...
本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者能够轻松上手。 #### 二、准备工作 在安装Nutch之前,需要准备以下软件: 1. **Cygwin**:为Windows提供一个类Unix环境。 2. **JDK**:Java ...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
本篇文章将详细介绍在 Windows XP SP2 环境下安装与配置 Nutch 的全过程,以便更好地理解和掌握搜索引擎技术。 #### 二、环境准备 为了确保 Nutch 能够正常运行,需要准备以下环境: 1. **JDK (Java Development ...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...
### Windows下Nutch的安装配置与Tomcat集成详解 #### Nutch概述 Nutch是一款开源的搜索引擎框架,基于Java开发,旨在提供一个完整的搜索引擎解决方案。它由两大部分组成:抓取部分(Crawler),负责抓取网页数据并...
在Windows环境下,你需要设置环境变量`NUTCH_JAVA_HOME`指向JDK的安装路径,例如:`NUTCH_JAVA_HOME=c:\jdk1.5`。 - **操作系统**:推荐使用Linux,如Sun或IBM的Linux发行版。若在Windows环境下,需安装Cygwin以获得...