转自:
http://www.itshehui.com/forum.php?mod=viewthread&tid=320&extra=page%3D1要的运行环境:
1、Tomcat(Web服务器),可以下载最新的Tomcat6
2、Jdk(java sdk),下载java6
3、cygwin(在windows下运行unix shell command需要),下载最新版本2.578
4、Nutch,下载0.9版本
把上面的软件下载安装好,还需要设置些环境变量:
JAVA_HOME,设置成你安装的Jdk的路径,比如D:\soft\jdk6
NUTCH_JAVA_HOME,设置成和JAVA_HOME一样
TOMCAT_HOME,设置Tomcat的安装目录,比如D:\Soft\Tomcat60
把这些添加到Path中,%JAVA_HOME%\bin;TOMCAT_HOME%\bin\
CLASSPATH,添加 .;%JAVA_HOME%\lib\dt.jar;%JAVA_HOME%\lib\tools.jar
接下来还要做下面一些修改:
以下假定Nutch的安装目录是D:\soft\nutch09,Tomcat安装目录D:\Soft\Tomcat60
1、修改nutch下的conf/crawl-urlfilter.txt文件,将# accept hosts in MY.DOMAIN.NAME这行下的
MY.DOMAIN.NAME修改成你想抓取的域名,比如修改成下面这样的:
+^http://([a-z0-9]*\.)*sina.com/,表示要抓取新浪的网页
2、打开Cygwin
cd d:nutch
在此目录下执行
bin/nutch crawl urls -dir crawled -depth 3 -topN 50 >& crawl.log
对刚才设置的网站网页进行抓取,结果保存在D:\soft\nutch09\crawled文件夹下。
3、在nutch安装目录下新建一个urls目录,在urls目录下新建一个urls.txt文件,在此文件中添加如下这样一行数据:http://www.sina.com/,注意此处添加的url地址必须是在crawl-urlfilter.txt文件指定的域名下的。
4、将D:\soft\nutch09\nutch-0.9.war改名为nutch.war,并复制到D:\Soft\Tomcat60 \webapps目录下
5、进入在Tomcat安装,在conf目录下新建一个nutch.xml文件,并输入以下内容:
<Context path="" debug="5" privileged="true" docBase="nutch"/>
6、启动Tomcat,待nutch.war解压后,打开D:\Soft\Tomcat60\webapps\nutch\WEB-INF \classes\nutch-site.xml文件,将nutch-default.xml文件中的内容粘贴到nutch-site.xml文件中,找到nutch-site文件中的searcher.dir项,将它的value值改成 D:\soft\nutch09\crawled\ ,即刚才抓取结果存放的位置;找到http.agent.name属性,value值改成Nutch;找到http.robots.agents属性,value值改成Nutch,*;找到 http.agent.description属性,value值改成Nutch Search Engineer;找到http.agent.url属性,value值改成http://lucene.apache.org/nutch/bot.html;找到http.agent.email属性,value值改成nutch-agent@lucene.apache.org;找到http.agent.version属性,value值改成Nutch-0.9
7、在D:\Soft\Tomcat60\webapps\nutch\zh\include下面新建header.jsp,把header.html文件中的内容粘贴过来,并在header.jsp最顶端添加以下内容:<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>,打开D:\Soft\Tomcat60\webapps\nutch\search.jsp文件,将<jsp:include page="<%= language + "/include/header.html"%>"/>此行中的header.html改成header.jsp,并将函数
queryfocus()中的代码注释掉
8、修改D:\Soft\Tomcat60\conf\server.xml文件,找到以下段并修改成
<Connector port="8088" protocol="HTTP/1.1" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />
9、重启Tomcat,浏览器中输入:http://localhost:8088/nutch/,输入你要搜索的内容,就可以看到搜索结果了。
补记:对于要抓取多个网站的页面,以前版本需要分多个步骤才能完成,0.9版本可以不需要那么繁琐了,可以在conf/crawl- urlfilter.txt文件里添加多条网站域名Filter,然后再在urls.txt里添加上对应的域名。命令行就和抓取一个网站的一样就行了;而且要启用hadoop多个Node进行分布式抓取,只需要在相关的配置文件里配置好各个Node的相关信息,Nutch就会自动分布运行了。
分享到:
相关推荐
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
然而,Nutch的安装和配置可能对初学者来说有些复杂,尤其是在不同的操作系统和开发环境中。因此,利用Eclipse作为开发工具,可以简化Nutch的配置流程,提供一个友好的图形界面来管理项目和代码,同时利用其强大的...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
在Windows环境下安装Nutch涉及到多个步骤和组件,包括系统配置、软件依赖以及Nutch本身的安装和测试。以下是对这些知识点的详细说明: 1. **操作系统**:Nutch可以在Windows XP或Windows 2000+上运行,但需要注意的...
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...
### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...
在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。下载地址:...
在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...
本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者能够轻松上手。 #### 二、准备工作 在安装Nutch之前,需要准备以下软件: 1. **Cygwin**:为Windows提供一个类Unix环境。 2. **JDK**:Java ...
### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...
【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...
### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ...
本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...
整个Nutch安装和运行过程涉及很多命令和参数,文档中还提到一些配置文件和参数的详细配置,包括但不限于: - nutch-site.xml:包含Nutch站点级别的配置; - nutch-default.xml:包含Nutch默认配置; - crawl-...
总之,Nutch的安装和使用涉及多个步骤,包括环境配置、源代码获取、配置参数、执行爬行任务等。理解并熟练掌握这些步骤,将有助于构建自己的搜索引擎系统。在实际操作过程中,可能会遇到各种问题,需要根据错误提示...