`
ywy041102
  • 浏览: 8295 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

Nutch在Windows中安装之细解[组图]

阅读更多
Nutch在Windows中安装之细解
     
  近来Nutch一词在网络中时有所见,但囿于平常工作繁忙而未能潜心细读与研究,只知道Nutch是Apache组织的一个开源项目,利用它用户可以建立自己内部网的搜索引擎,也可以建立针对整个网络的搜索引擎。好在春节假日期间,终于得空可以从容对其进行一番解读与测试了。在使用Nutch之前,当然是需要先对其进行安装了。用搜索引擎查找了一下相关内容,发现大部分关于Nutch如何安装的文章都是基于Linux的,而基于Windows安装的文章虽有,但非常简略。由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境,而Cygwin本身的安装与使用也不是一件简单的事。下面,就让笔者对Nutch在Windows系统中的安装进行一番细解吧!
     
  1、安装Cygwin
     
  首先,我们去http://www-inst.eecs.berkeley.edu/~instcd/iso/下载到Cygwin软件的ISO文件,用Daemon软件将其设为虚拟光驱后,双击其中的Setup文件,出现程序安装的向导界面(如图1所示)。
     
     
  点击“下一步”后,安装向导要求选择Cygwin的安装方式,如图2所示:
     
     
  图示中共有三种安装方式:
  (1)Install from Internet:从Internet上下载并安装软件;
  (2)Download Without Installing:从Internet上下载安装的文件,但暂时不安装;
  (3)Install from Local Directory:从本地含有安装文件的目录进行安装。
  我们选择第三项“Install from Local Directory”后,点击“下一步”,如图3所示:
     
     
  安装向导要求选择Cygwin的安装路径,我们可以在“Root Directory”文本框中更改安装路径,点击“下一步”,如图4所示:
     
             
  安装向导要求选择Cygwin安装文件所在的本地存储路径,可以在“Local Package Directory”中设置,点击“下一步”,如图5所示:
     
     
  安装向导显示出所要安装的内容列表,用户可以根据自己的实际需要来决定安装哪些程序。点击循环箭头图标后面的文字,可以更改安装的方式,常用的方式有Default(表示只安装缺省的安装项)、Install(表示安装全部程序,空间要求较大)、Reinstall(表示重新安装程序)。推荐选择“Install”方式,一步到位,以免后扰,不过用户应保证至少有2G以上的空间可供使用。点击“下一步”后,就开始正式的安装了(如图6所示)。
     
     
  最后出现如图7所示的窗口,点击“完成”后,Cygwin安装完毕。
     
     
  至此,笔者还要对Cygwin再多说几句。Cygwin是一个在Windows平台上模拟运行Unix的环境,用户可以通过它来熟悉与学习Unix系统的操作。对于Unix系统还不甚熟悉的读者可以参阅笔者之前写作的《Unix操作系统的入门与基础》、《Unix的轻便“约取而实得”》系列文章,下文中对涉及使用到的Unix命令将不再给予具体解释。
     
  2、安装Nutch
     
  去http://mirror.vmmatrix.net/apache/lUCene/nutch/下载到Nutch的最新版本,将其解压到指定目录中,如笔者是将其解压到I: utch-0.7.1中。
     
  3、测试Nutch命令
     
  在运行Nutch的脚本命令前,需要设置一些环境变量。Cygwin提供了一个名为cygwin.bat的文件,通过它可以自动完成必需环境变量的设置。该文件可在cygwin所在的根目录下找到,感爱好的读者还可通过UltraEdit等编辑器打开该文件一查究竟。其实Cygwin安装完成之后,会在Windows系统桌面生成一图标,如图8所示:
     
     
  此图标就是cygwin根目录下cygwin.bat文件的快捷方式,双击此图标将打开一类似DOS窗口。由于先前笔者将Nutch的压缩包解压至I: utch-0.7.1中,故在此命令窗口中输入命令“cd /cygdrive/i/nutch-0.7.1”,读者可根据自己的安装路径进行相应的修改,然后使用命令“ls -l”可查看nutch-0.7.1中的所有子目录及文件信息。执行命令“bin/nutch”,假如读者能看到如图9所示的提示,那恭喜你,Nutch在Windows系统中的安装已经大功告成了!
     
     
  至于Nutch的使用,且待后续分解:)
http://school.cnd8.com/java/jiaocheng/14083.htm
分享到:
评论

相关推荐

    Nutch在Windows中安装之细解

    【Nutch在Windows中安装详解】 Nutch是一个由Apache基金会维护的开源搜索引擎项目,它允许用户构建内部网络或全局互联网的搜索引擎。在Windows系统中安装Nutch并不像在Linux那样直接,因为Nutch的一些脚本依赖于...

    Nutch在windows下的安装

    Nutch在windows下的安装 JDK安装 Tomcat安装 Cygwin安装

    Nutch在windows下的安装.pdf

    Nutch在windows下的安装.pdf

    windows下安装nutch

    在安装过程中,可以选择从本地目录安装,自定义安装路径和本地包目录,并根据需要选择安装所有程序,以避免后续问题。 4. **Nutch版本**:在例子中使用的是Nutch 0.8版本,但你应该从Apache Nutch的官方网站下载...

    Apache Nutch 1.7 在windows和Linux下的安装

    在安装 Apache Nutch 1.7 之前,需要进行一些准备工作。首先,需要安装 Cygwin,这是一个 Unix 风格的命令行工具,可以在 Windows 平台上运行 Unix 命令。其次,需要安装 JDK,因为 Nutch 1.7 需要 Java 运行环境来...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    windows下nutch的安装.pdf

    而Nutch在不同版本的Windows操作系统上的兼容性,以及是否需要特别的依赖库,都需要在安装前仔细阅读Nutch的官方文档。注意,由于OCR扫描可能会产生错误,理解和应用过程中需要根据实际情况进行调整和修正。

    nutch在windows下myeclipse中安装配置并且运行教程

    详细介绍nutch在windows下myeclipse中的配置以及执行,本人空间还有nutch1.2包,nwgwin安装包等

    Windows下配置nutch

    - 在 Cygwin 中设置环境变量,指向 Nutch 的安装目录。 - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常...

    Nutch在windows下的安装[归纳].pdf

    安装时避免使用包含中文字符的路径,并且在安装完成后,你需要设置系统环境变量,包括JAVA_HOME、PATH和CLASSPATH。JAVA_HOME指向JDK的安装目录,PATH中添加%JAVA_HOME%\bin,CLASSPATH则需要包含当前目录(".")...

    nutch2.2.1安装步骤.docx

    下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...

    nutch安装在windows下配置

    ### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...

    nutch的安装方法,好用

    在安装Nutch之前,需要准备以下软件: 1. **Cygwin**:为Windows提供一个类Unix环境。 2. **JDK**:Java Development Kit,用于支持Nutch运行。 3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**...

    关于Nutch的安装

    在Windows环境下,你需要设置环境变量`NUTCH_JAVA_HOME`指向JDK的安装路径,例如:`NUTCH_JAVA_HOME=c:\jdk1.5`。 - **操作系统**:推荐使用Linux,如Sun或IBM的Linux发行版。若在Windows环境下,需安装Cygwin以获得...

    nutch Windows版脚本

    该批处理文件是bin\nutch的Windows版本 ...即可解决nutch不借助cgywin直接在Windows平台下运行。 该批处理基于 nutch 1.7 改写。 使用方法: 直接把此批处理放于bin目录下,用bin\nutch.bat 即可执行

    nutch2.3.1安装文档教程

    在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ant 官网:[http://archive.apache.org/dist/ant/binaries/]...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    Nutch 1.7 Windows 批处理脚本

    Nutch 脱离Cygwin直接在Windows下运行。 修正批处理最大只能直接传9个参数的问题。

Global site tag (gtag.js) - Google Analytics