`
dragon0929
  • 浏览: 77664 次
  • 性别: Icon_minigender_1
  • 来自: 北京
文章分类
社区版块
存档分类
最新评论

Nutch在Windows中安装之细解

阅读更多

   Nutch在Windows中安装之细解
   
   近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建 立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前,当然 是需要先对其进行安装了。用搜索引擎查找了一下相关内容,发现大部分关于Nutch如何安装的文章都是基于Linux的,而基于Windows安装的文章 虽有,但非常简略。由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境,而Cygwin本身的安装与使 用也不是一件简单的事。下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧!
   
  1、安装Cygwin
   
  首先,我们去
http://www.cygwin.com/ 下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。
     
    
  点击“下一步”后,安装向导要求选择Cygwin的安装方式,如图2所示:
   
    
  图示中共有三种安装方式:
  (1)Install from Internet:从Internet上下载并安装软件;
  (2)Download Without Installing:从Internet上下载安装的文件,但暂时不安装;
  (3)Install from Local Directory:从本地含有安装文件的目录进行安装。
  我们选择第三项“Install from Local Directory”后,点击“下一步”,如图3所示:
   
    
  安装向导要求选择Cygwin的安装路径,我们可以在“Root Directory”文本框中更改安装路径,点击“下一步”,如图4所示:
   
            
  安装向导要求选择Cygwin安装文件所在的本地存储路径,可以在“Local Package Directory”中设置,点击“下一步”,如图5所示:
   
    
   安装向导显示出所要安装的内容列表,用户可以根据自己的实际需要来决定安装哪些程序。点击循环箭头图标后面的文字,可以更改安装的方式,常用的方式有 Default(表示只安装缺省的安装项)、Install(表示安装全部程序,空间要求较大)、Reinstall(表示重新安装程序)。推荐选择 “Install”方式,一步到位,以免后扰,不过用户应保证至少有2G以上的空间可供使用。点击“下一步”后,就开始正式的安装了(如图6所示)。
   
    
  最后出现如图7所示的窗口,点击“完成”后,Cygwin安装完毕。
   
    
  至此,笔者还要对Cygwin再多说几句。Cygwin是一个在Windows平台上模拟运行Unix的环境,用户可以通过它来熟悉与学习Unix系统的操作。对于Unix系统还不甚熟悉的读者可以参阅笔者之前写作的《Unix操作系统的入门与基础 》、《Unix的轻巧“约取而实得” 》系列文章,下文中对涉及使用到的Unix命令将不再给予详细解释。
   
  2、安装Nutch
   
  去
http://apache.etoak.com/lucene/nutch/ 下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到F:\nutch-1.0中。
   
  3、测试Nutch命令
   
   在运行Nutch的脚本命令前,需要设置一些环境变量。Cygwin提供了一个名为cygwin.bat的文件,通过它可以自动完成必需环境变量的设 置。该文件可在cygwin所在的根目录下找到,感兴趣的读者还可通过UltraEdit等编辑器打开该文件一查究竟。其实Cygwin安装完成之后,会 在Windows系统桌面生成一图标,如图8所示:
   
    
   此图标就是cygwin根目录下cygwin.bat文件的快捷方式,双击此图标将打开一类似DOS窗口。由于先前笔者将Nutch的压缩包解压至 I:\nutch-0.7.1中,故在此命令窗口中输入命令“cd /cygdrive/i/nutch-0.7.1”,读者可根据自己的安装路径进行相应的修改,然后使用命令“ls -l”可查看nutch-0.7.1中的所有子目录及文件信息。执行命令“bin/nutch”,如果读者能看到如图9所示的提示,那恭喜你,Nutch 在Windows系统中的安装已经大功告成了!
   

 

4、抓取网站内容前的准备工作

1)把下载后的nutch-0.7.2.tar.gz解压缩到你的指定目录下,我是放在D:\jsp\sousuo\nutch目录。建立一个文本文件, 内容是你要抓取的网站地址,我的内容是http://www.angao.com,然后保存到nutch的安装目录下。文件名取为urls.txt。
2)打开Nutch安装目录下,修改conf子目录下的crawl-urlfilter.txt文件,在最下面部分改为
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
+^http://www.angao.com/   ##这里改为你要抓取的网站地址,其实这里是设置一个##
##取过滤器,用来设置网站的哪部分内容是你想要抓取的##
# skip everything else
修改好后,保存。
3),在你的nutch安装目录下建立一个crawled子目录,用来存放网站抓取后的内容及索引,目录名是能任意的。

5、运行Crawl命令抓取网站内容
双击桌面cygwin图标,打开命令窗口。输入
cd /cygdriver/d/jsp/sousuo/nutch 回车,
此时目录转到d:\jsp\sousuo\nutch下,这也是我的nutch安装目录,如果你的nutch安装在其他目录,则命令cd /cygdriver/d/jsp/sousuo/nutch中的d/jsp/sousuo/nutch部分改为你的nutch安装路径即可。
然后再输入
bin/nutch crawl urls.txt -dir crawled -depth 3 -threads 4 >& crawl.log
稍等几分钟,程式抓取过程结束,在你的crawled子目录下,将会看到抓取的内容。
下面解释下该命令:
crawl 命令有几个参数,他们是:
-dir     指定抓取后内容及索引的存放目录
-depth   指定网站抓取的层数
-delay    指定连接目标网站延迟时间
-threads 指定程式运行的线程数,以提高抓取速度。
在命令bin/nutch crawl urls.txt ?dir crawled ?depth 3 ?threads 4 >& crawl.log中
urls.txt是开头建立好的,内容是目录网址,>&crawl.log是指定记录文件,在抓取过程中的错误及其他内容都会记在此 文件中。bin/nutch crawl部分是运行nutch安装目录下的bin子目录下的nutch脚本 crawl是命令名。


6、使用Tomcat进行搜索测试
把nutch安装目录下的nutch-0.7.2.war文件拷到Tomcat的webapps目录下。当war展开后,改名为nutch。修改webapps\nutch\WEB-INF\classes目录下的nutch-site.xml文件,改成如下内容

   
     searcher.dir
     D:\jsp\sousuo\nutch\crawled
   
   
  

在这里value标签就是指定你搜索的目录,这个目录,也就是开头你抓取后存放抓取内容及索引的目录。D:\jsp\sousuo\nutch\crawled部分,你能自由修改。
接下来 修改tomcat\conf下的server.xml文件,将其中的Connector部分改成如下形式即可:
  
这里添加了URIEncoding="UTF-8" useBodyEncodingForURI="true"语句,目的是为了解决汉字编码问题,以免在进行中文搜索时,出现乱码。
最后能启动tomcat,在IE地址栏中输入
http://localhost/nutch
, 即可,出现nutch的搜索界面,你目前马上就能开始搜索了

分享到:
评论

相关推荐

    Nutch在windows下的安装

    Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装

    Nutch在windows下的安装.pdf

    Nutch在windows下的安装.pdf

    Apache Nutch 1.7 在windows和Linux下的安装

    在安装 Apache Nutch 1.7 之前,需要进行一些准备工作。首先,需要安装 Cygwin,这是一个 Unix 风格的命令行工具,可以在 Windows 平台上运行 Unix 命令。其次,需要安装 JDK,因为 Nutch 1.7 需要 Java 运行环境来...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    windows下nutch的安装.pdf

    而Nutch在不同版本的Windows操作系统上的兼容性,以及是否需要特别的依赖库,都需要在安装前仔细阅读Nutch的官方文档。注意,由于OCR扫描可能会产生错误,理解和应用过程中需要根据实际情况进行调整和修正。

    nutch在windows下myeclipse中安装配置并且运行教程

    详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等

    Windows下配置nutch

    - 在 Cygwin 中设置环境变量,指向 Nutch 的安装目录。 - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常...

    Nutch在windows下的安装[归纳].pdf

    安装时避免使用包含中文字符的路径,并且在安装完成后,你需要设置系统环境变量,包括JAVA_HOME、PATH和CLASSPATH。JAVA_HOME指向JDK的安装目录,PATH中添加%JAVA_HOME%\bin,CLASSPATH则需要包含当前目录(".")...

    nutch2.2.1安装步骤.docx

    下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...

    nutch安装在windows下配置

    ### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...

    nutch的安装方法,好用

    在安装Nutch之前,需要准备以下软件: 1. **Cygwin**:为Windows提供一个类Unix环境。 2. **JDK**:Java Development Kit,用于支持Nutch运行。 3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**...

    关于Nutch的安装

    在Windows环境下,你需要设置环境变量`NUTCH_JAVA_HOME`指向JDK的安装路径,例如:`NUTCH_JAVA_HOME=c:\jdk1.5`。 - **操作系统**:推荐使用Linux,如Sun或IBM的Linux发行版。若在Windows环境下,需安装Cygwin以获得...

    nutch Windows版脚本

    该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行

    nutch2.3.1安装文档教程

    在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ant 官网:[http://archive.apache.org/dist/ant/binaries/]...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    Nutch 1.7 Windows 批处理脚本

    Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。

Global site tag (gtag.js) - Google Analytics