nutch 0.9在Windows下的安装
转载自:http://www.cnblogs.com/phinecos/archive/2007/11/20/965835.html
一、环境:
1.操作系统:windowsXp,windows2000+
2.java1.6,设置JAVA_HOME到环境变量
3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
4.nutch版本:0.9
5.tomcat:6.0
二、nutch的安装和配置:
1,安装Cygwin1.5.5(我这里装到d:\cygSys),将nutch解压缩后放置到一个目录下(我放在d:\nutch下)
2,在Cygwin环境下进入nutch-0.9目录下,使用命令 bin/nutch进行测试,正常的情况下出现的结果是类似于执行java命令一样,让你指定一些参数。
3,进行抓取网站的测试,以抓取http://www.163.com/为例
1) 新建一个文件myurl,在文件中输入http://www.163.com/保存,这个文件可以放在任何地方(我这个文件放在D:\nutch\home\myurl),另外再建立一个爬虫日志目录logs(我放在D:\nutch\home\logs文件夹下,真正抓取的时候在命令行里面需要指定这个目录还有具体文件名。)
2) 打开nutch-0.9\conf\nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
<property>
<name>http.agent.name</name>
<value>HD nutch agent</value>
</property>
<property>
<name>http.agent.version</name>
<value>1.0</value>
</property>
3) 打开nutch-0.9\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*\.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行)。
4) 切换到 nutch 命令所在的bin目录,然后运行爬虫,在Cygwin输入以下命令:
./nutch crawl ../home/myurl -dir ../getContent -depth 4 -threads 5 -topN 1000 >&../home/logs/crawl1.log
../home/myurl 上面指定的爬取得URL
-dir ../getContent 爬取并分析后的索引存放目录
-depth 4 深度
-threads 5 线程数
需要注意点是在1000后面要跟一个空格,要不然会出现错误。
&../home/logs/crawl1.log 最后就是log的名字
运行结束后,你可以打开日志文件查看爬虫运行的详细过程。
5,在tomcat上运行Nutch
把nutch-0.9.war拷贝到Tomcat\webapps\下面
在浏览器中输入http://localhost:8080/nutch-0.9/这步是为了使tomcat展开nutch-0.9.war,然后修改webapps/ nutch-0.9/WEB-INF/classes/nutch-site.xml文件如下:
<configuration>
<property>
<name>searcher.dir</name>
<value>D:\\nutch\\getContent</value>
</property>
</configuration>
拷贝的时候 <configuration>标记 可不要和元配置文件里的重复啊。
为了支持中文的搜索,修改Tomcat\conf\server.xml。找到对应的地方修改成
<Connector port="8080" protocol="HTTP/1.1"
connectionTimeout="20000"
redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
在浏览器中输入http://localhost:8080/nutch-0.9,然后就可以从爬取结果里面检索了。

- 大小: 86.3 KB
分享到:
相关推荐
在安装过程中,确保选择了开发工具(如gcc、make等)和相关的Java开发工具,因为Nutch是用Java编写的,并且需要编译。 接下来,我们将按照以下步骤进行Nutch-0.9的环境搭建: 1. **下载Nutch源码**:首先,从...
在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...
在 Windows 平台上安装 Nutch 首先需要安装 Cygwin。Cygwin 提供了一个类似于 Unix 的环境,使得用户可以在 Windows 上使用许多原本只能在 Unix 或 Linux 上使用的工具和程序。下载 Cygwin 可以通过官方网站 ...
### Nutch配置与安装知识点详解 ...通过以上步骤,用户可以在Windows平台上顺利安装并配置Nutch,实现对局域网内资源的有效抓取。这对于需要定期收集特定网站数据的场景非常有用,例如网站监控、内容分析等。
在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于Unix的命令。 1. **安装Cygwin** - 访问Cygwin官方网站`http://www.cygwin.com`下载安装...
【AnyFo – Nutch 冰破银针】是关于如何在Windows环境下搭建并使用Apache Nutch搜索引擎的一个指南。Apache Nutch是一个开源的网络爬虫项目,用于抓取互联网上的网页并建立索引,以便进行搜索。 **环境搭建** 1. *...