Nutch在Windows中安装之细解
近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前,当然是需要先对其进行安装了。用搜索引擎查找了一下相关内容,发现大部分关于Nutch如何安装的文章都是基于Linux的,而基于Windows安装的文章虽有,但非常简略。由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境,而Cygwin本身的安装与使用也不是一件简单的事。下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧!
1、安装Cygwin
首先,我们去 http://www.cygwin.com/ 下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。
点击“下一步”后,安装向导要求选择Cygwin的安装方式,如图2所示:
图示中共有三种安装方式:
(1)Install from Internet:从Internet上下载并安装软件;
(2)Download Without Installing:从Internet上下载安装的文件,但暂时不安装;
(3)Install from Local Directory:从本地含有安装文件的目录进行安装。
我们选择第三项“Install from Local Directory”后,点击“下一步”,如图3所示:
安装向导要求选择Cygwin的安装路径,我们可以在“Root Directory”文本框中更改安装路径,点击“下一步”,如图4所示:
安装向导要求选择Cygwin安装文件所在的本地存储路径,可以在“Local Package Directory”中设置,点击“下一步”,如图5所示:
安装向导显示出所要安装的内容列表,用户可以根据自己的实际需要来决定安装哪些程序。点击循环箭头图标后面的文字,可以更改安装的方式,常用的方式有 Default(表示只安装缺省的安装项)、Install(表示安装全部程序,空间要求较大)、Reinstall(表示重新安装程序)。推荐选择 “Install”方式,一步到位,以免后扰,不过用户应保证至少有2G以上的空间可供使用。点击“下一步”后,就开始正式的安装了(如图6所示)。
最后出现如图7所示的窗口,点击“完成”后,Cygwin安装完毕。
至此,笔者还要对Cygwin再多说几句。Cygwin是一个在Windows平台上模拟运行Unix的环境,用户可以通过它来熟悉与学习Unix系统的操作。对于Unix系统还不甚熟悉的读者可以参阅笔者之前写作的《Unix操作系统的入门与基础 》、《Unix的轻巧“约取而实得” 》系列文章,下文中对涉及使用到的Unix命令将不再给予详细解释。
2、安装Nutch
去 http://apache.etoak.com/lucene/nutch/ 下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到F:\nutch-1.0中。
3、测试Nutch命令
在运行Nutch的脚本命令前,需要设置一些环境变量。Cygwin提供了一个名为cygwin.bat的文件,通过它可以自动完成必需环境变量的设置。该文件可在cygwin所在的根目录下找到,感兴趣的读者还可通过UltraEdit等编辑器打开该文件一查究竟。其实Cygwin安装完成之后,会在Windows系统桌面生成一图标,如图8所示:
此图标就是cygwin根目录下cygwin.bat文件的快捷方式,双击此图标将打开一类似DOS窗口。由于先前笔者将Nutch的压缩包解压至 I:\nutch-0.7.1中,故在此命令窗口中输入命令“cd /cygdrive/i/nutch-0.7.1”,读者可根据自己的安装路径进行相应的修改,然后使用命令“ls -l”可查看nutch-0.7.1中的所有子目录及文件信息。执行命令“bin/nutch”,如果读者能看到如图9所示的提示,那恭喜你,Nutch 在Windows系统中的安装已经大功告成了!
4、抓取网站内容前的准备工作
1)把下载后的nutch-0.7.2.tar.gz解压缩到你的指定目录下,我是放在D:\jsp\sousuo\nutch目录。建立一个文本文件,内容是你要抓取的网站地址,我的内容是http://www.angao.com,然后保存到nutch的安装目录下。文件名取为urls.txt。
2)打开Nutch安装目录下,修改conf子目录下的crawl-urlfilter.txt文件,在最下面部分改为
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://www.angao.com/ ##这里改为你要抓取的网站地址,其实这里是设置一个##
##取过滤器,用来设置网站的哪部分内容是你想要抓取的##
# skip everything else
修改好后,保存。
3),在你的nutch安装目录下建立一个crawled子目录,用来存放网站抓取后的内容及索引,目录名是能任意的。
5、运行Crawl命令抓取网站内容
双击桌面cygwin图标,打开命令窗口。输入
cd /cygdriver/d/jsp/sousuo/nutch 回车,
此时目录转到d:\jsp\sousuo\nutch下,这也是我的nutch安装目录,如果你的nutch安装在其他目录,则命令cd /cygdriver/d/jsp/sousuo/nutch中的d/jsp/sousuo/nutch部分改为你的nutch安装路径即可。
然后再输入
bin/nutch crawl urls.txt -dir crawled -depth 3 -threads 4 >& crawl.log
稍等几分钟,程式抓取过程结束,在你的crawled子目录下,将会看到抓取的内容。
下面解释下该命令:
crawl 命令有几个参数,他们是:
-dir 指定抓取后内容及索引的存放目录
-depth 指定网站抓取的层数
-delay 指定连接目标网站延迟时间
-threads 指定程式运行的线程数,以提高抓取速度。
在命令bin/nutch crawl urls.txt ?dir crawled ?depth 3 ?threads 4 >& crawl.log中
urls.txt是开头建立好的,内容是目录网址,>&crawl.log是指定记录文件,在抓取过程中的错误及其他内容都会记在此文件中。bin/nutch crawl部分是运行nutch安装目录下的bin子目录下的nutch脚本 crawl是命令名。
6、使用Tomcat进行搜索测试
把nutch安装目录下的nutch-0.7.2.war文件拷到Tomcat的webapps目录下。当war展开后,改名为nutch。修改webapps\nutch\WEB-INF\classes目录下的nutch-site.xml文件,改成如下内容
searcher.dir
D:\jsp\sousuo\nutch\crawled
在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。D:\jsp\sousuo\nutch\crawled部分,你能自由修改。
接下来 修改tomcat\conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
最后能启动tomcat,在IE地址栏中输入
http://localhost/nutch
, 即可,出现nutch的搜索界面,你目前马上就能开始搜索了
- 大小: 49.7 KB
- 大小: 34.4 KB
- 大小: 62.9 KB
- 大小: 32 KB
- 大小: 44.3 KB
- 大小: 27.6 KB
- 大小: 29.9 KB
- 大小: 1.9 KB
- 大小: 96.5 KB
分享到:
相关推荐
Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装
Nutch在windows下的安装.pdf
在安装过程中,可以选择从本地目录安装,自定义安装路径和本地包目录,并根据需要选择安装所有程序,以避免后续问题。 4. **Nutch版本**:在例子中使用的是Nutch 0.8版本,但你应该从Apache Nutch的官方网站下载...
在安装 Apache Nutch 1.7 之前,需要进行一些准备工作。首先,需要安装 Cygwin,这是一个 Unix 风格的命令行工具,可以在 Windows 平台上运行 Unix 命令。其次,需要安装 JDK,因为 Nutch 1.7 需要 Java 运行环境来...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
而Nutch在不同版本的Windows操作系统上的兼容性,以及是否需要特别的依赖库,都需要在安装前仔细阅读Nutch的官方文档。注意,由于OCR扫描可能会产生错误,理解和应用过程中需要根据实际情况进行调整和修正。
详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等
- 在 Cygwin 中设置环境变量,指向 Nutch 的安装目录。 - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常...
安装时避免使用包含中文字符的路径,并且在安装完成后,你需要设置系统环境变量,包括JAVA_HOME、PATH和CLASSPATH。JAVA_HOME指向JDK的安装目录,PATH中添加%JAVA_HOME%\bin,CLASSPATH则需要包含当前目录(".")...
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...
### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...
在安装Nutch之前,需要准备以下软件: 1. **Cygwin**:为Windows提供一个类Unix环境。 2. **JDK**:Java Development Kit,用于支持Nutch运行。 3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**...
在Windows环境下,你需要设置环境变量`NUTCH_JAVA_HOME`指向JDK的安装路径,例如:`NUTCH_JAVA_HOME=c:\jdk1.5`。 - **操作系统**:推荐使用Linux,如Sun或IBM的Linux发行版。若在Windows环境下,需安装Cygwin以获得...
该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行
在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ant 官网:[http://archive.apache.org/dist/ant/binaries/]...
本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...
Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。