`
ljl_xyf
  • 浏览: 634560 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

nutch环境配置在windows系统上(借助Cygwin)

    博客分类:
  • java
阅读更多

nutch环境配置在windows系统上必须要安装【Cygwin】。cygwin是一个在windows平台上运行的unix模拟环境。

一、安装jdk

Jdk版本为1.6, 下载地址:

http://www.sun.com/download/

安装路径 :C:\Program Files\Java\jdk1.6.0_23\(安装路径不做硬性要求,可能由于版本不同路径有所区别,请注意该处 )

配置PATH环境变量  ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin

配置JAVA_HOME环境变量   C:\Program Files\Java\jdk1.6.0_23

配置JAVA_BIN环境变量   C:\Program Files\Java\jdk1.6.0_23\bin

配置CLASSPATH环境变量 %JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar

 

二、安装Tomcat

版本为5.0 (一定要用Tomcat5.0,如果注意下载了Tomcat6.0,会导致运行时的一些不知名的异常:例如 “Attribute value details.getValue("url") is quoted with " which must be escaped when used within the value)
下载地址:

http://tomcat.apache.org/

设置TOMCAT_HOME环境变量  c:\tomcat

3.安装Cygwin.(在windows模拟linux环境)

下载Cygwin

三、准备windows下的Linux虚拟环境,即"Cygwin"

       这里我要对Cygwin 多做点文章,因为我感觉我在配置Nutch个环境时,大部分时间还是花在Cygwin上了。首先他不同于一般的软件,不能直接下载到。只能他的一个类似于 下载器的程序去访问Cygwin在网上的镜像,我想不通为什么非要通过这样方式,也许是因为老更新吧,这样维护方便。

        第一步 下载 http://www.cygwin.com/setup.exe    只有几K.但是这才开始下载     

他有三种下载方式:

  1.  从Internet上直接安装,这个据说很费时间。
  2. 下载但不安装。 (推荐这样方法)
  3.   从本地安装。

下载完成后在运行 setup.exe

选择 【从本地安装】,点击下一步


不用改变直接点击下一步就可以(这个是cygwin要安装到哪里)


 

选择你在上面下载是制定的cygwin目录点击下一步开始安装。

安装完成后可以单击桌面上的【Cygwin】快捷方程式进行启动,启动后界面如下:


 

经过上面的过程,Cygwin就安装完成了,待用。

Nutch下载及配置

Nutch下载地址:

http://apache.etoak.com//nutch/

http://apache.etoak.com//nutch/apache-nutch-1.2-bin.zip(这里配置使用的是1.2,最新的是1.3)

Nutch配置:

  1. 解压Nutch到d:\nutch\nutch-1.2
  2. 在d:\nutch\nutch-1.2 目录下新建文件夹urls 并在其下面建立文件 urls\nutch.txt,并在nutch.txt中写入要抽取的站点地址如: 将要抓取的网站地址输入,比如http://www.my400800.cn /(注意最后的/一定要有 )
  3. 打开conf\crawl-urlfilter.txt文件,将
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

    改为
    # accept hosts in MY.DOMAIN.NAME
    +^http://([a-z0-9]*\.)*my400800.cn/(这里也要有/呦
  4. 打开nutch/conf/nutch-site.xml文件,修改<configuration></configuration>为:
    <configuration>
    <property>
    <name>http.agent.name</name>
    <value>HD nutch agent</value>
    </property>
    <property>
    <name>http.agent.version</name>
    <value>1.2</value>
    </property>
    </configuration>
  5. 开始爬(从上面启动的【Cygwin dos窗口输入如下命令】)
    /cygdrive/d/nutch/nutch-1.2/bin/nutch crawl  -dir localdownweb -depth 1 -threads 1 topN 10 urls >&/crygdrive/d/nutch/nutch-1.2/ logs/log1.log
    crawl:通知nutch.jar,执行crawl的main方法。
    urls:存放需要爬行的url.txt文件的目录
    -dir sina 爬行后文件保存的位置
    -depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
    -threads 指定并发的进程 这是设定为 4
    -topN :一个网站保存的最大页面数。
    会出现如下错误


    在上面的目录建立[urls]目录,在目录里面建立 【nutch.txt】,内容为:想抓取的url地址,格式为:http://www.my400800.cn/(后面的反斜杠不要忘记呀)

 

 再次运行上面的命令出现如下窗口,启动成功。


 

  • 大小: 26.2 KB
  • 大小: 36 KB
  • 大小: 23.9 KB
  • 大小: 31.9 KB
  • 大小: 36.5 KB
  • 大小: 32.5 KB
分享到:
评论

相关推荐

    nutch和cygwin在Windows系统上的配置.pdf

    ### Nutch 和 Cygwin 在 Windows 系统上的配置指南 #### 一、JDK 安装及环境配置 为了确保 Nutch 能够在 Windows 上正常运行,首先需要安装 Java 开发工具包 (JDK)。以下是安装 JDK 的详细步骤: 1. **下载 JDK**...

    nutch_1.4在windows下安装配置.pdf

    - **用途**: 由于 Nutch 的脚本采用 Linux Shell 编写,因此在 Windows 平台上需要 Cygwin 来模拟 Linux 系统环境。 3. **Nutch 1.4** - **下载地址**: [http://nutch.apache.org/](http://nutch.apache.org/) - ...

    nutch-0.9 环境搭建所需最小cygwin

    Cygwin是一个在Windows上模拟Linux环境的开源软件,它提供了许多在Linux环境下才能运行的命令行工具,使得我们能够在Windows系统上执行类似Linux的操作,这对于需要在Windows系统中运行Nutch这样的基于Unix/Linux的...

    Apache Nutch 1.7 在windows和Linux下的安装

    * 在安装完成后,需要配置 Cygwin 的环境变量,将 Cygwin 的 bin 目录添加到系统的 PATH 变量中。 * 之后,需要安装 Cygwin 的一些必要的包,例如 openssh、openssl、curl 等。 3. 安装 Nutch 1.7 安装 Nutch 1.7 ...

    Windows下配置nutch

    因为 Nutch 原生设计在 Linux 环境下运行,所以在 Windows 上配置 Nutch 需要一些额外的步骤。主要有两种方法: - **在 Eclipse 中使用 Nutch**: - 创建一个新的 Java 项目。 - 导入 Nutch 源码,将 `src\java`...

    Nutch在Windows中安装之细解

    Cygwin是一个在Windows上运行的类Unix环境,使得用户能够在Windows系统中执行Linux命令。首先,你需要从官方网址下载Cygwin的ISO镜像文件,并使用虚拟光驱软件加载。双击ISO中的Setup文件启动安装向导。在向导中,...

    windows7环境下配置nutch

    在Windows 7环境下配置Apache Nutch是一个相对复杂的过程,因为它主要设计用于Linux操作系统。Nutch是一个开源的网络爬虫框架,常用于构建搜索引擎。以下是在Windows 7中配置Nutch的详细步骤: 首先,我们需要安装...

    windows下nutch的安装.pdf

    安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在环境变量中设置NUTCH_JAVA_HOME。在Cygwin的终端中,通过设置环境变量来实现: ``` export NUTCH_JAVA_HOME=/path/to/...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    Nutch2.3.1 环境搭建

    1. 操作系统:Nutch可以在Linux、Unix或Mac OS X等类Unix系统上运行,Windows系统也可以通过Cygwin模拟。 2. Java环境:Nutch需要Java Development Kit (JDK) 1.8 或更高版本,确保`JAVA_HOME`环境变量指向正确的JDK...

    Nutch程序运行环境配置

    - 解决方案可能包括修改Nutch或Hadoop的配置文件,例如`core-site.xml`,以适应Windows环境,或者在Windows上安装支持这些Unix命令的工具,如Cygwin。 4. **Nutch配置文件**: - Nutch运行还需要配置一系列的配置...

    nutch10配置(解决代理问题)

    - 如果在Windows环境下使用Nutch,文档中提到的安装Cygwin并将`F:\cygwin\bin`添加到系统环境变量中,是为了确保Nutch能够在Windows平台上正常运行。Cygwin提供了一系列类似于Linux的工具,这对于Nutch在Windows...

    Windows下cygwin+MyEclipse 8.5+Nutch1.2+Tomcat 6.0

    Cygwin是一款用于Windows系统的Linux模拟环境,它能够让我们在Windows上使用许多原本只在Linux环境下才可用的工具和命令。对于Nutch这样的开源爬虫框架来说,其默认支持的是Linux环境,因此我们需要通过安装Cygwin来...

    nutch安装在windows下配置

    3. **Cygwin**:用于模拟 Linux 环境,在 Windows 上提供 shell 和工具集。 4. **Nutch**:选择版本为 0.7.2。 #### 三、软件下载地址 - **JDK**: [http://java.sun.com/javase/downloads/index.html]...

    nutch_1.4配置

    综上所述,Nutch 1.4在Windows下的安装配置涉及多个环节,包括Java环境搭建、Cygwin的安装、Nutch与Solr的下载与配置等,每一步都需仔细操作以确保系统正常运行。通过以上步骤,用户不仅能够实现对目标网站的自动化...

    Nutch安装配置

    【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...

Global site tag (gtag.js) - Google Analytics