`
kongshanxuelin
  • 浏览: 922369 次
  • 性别: Icon_minigender_1
  • 来自: 宁波
社区版块
存档分类
最新评论

Nutch的安装与部署

阅读更多

今天试用了下Nutch,感觉还不错,先把安装和试用的东东记录一下:)

  1. 环境介绍:JDK 1.6+Win XP+Tomcat 5.5
  2. 安装下cygwin,因为Nutch目前的爬虫部分只适应于Linux操作系统,这个东东用来Linux仿真,执行相关的爬取动作,主要的命令为(下文要用到,切换到nutch目录):
    Linux命令 写道
    $ sh ./bin/nutch crawl urls -dir sohu.com -depth 4 -threads 5 -topN 1000
    参数介绍 写道
    crawl:通知nutch.jar,执行crawl的main方法。
    urls:存放需要爬行的url.txt文件的目录
    -dir mydir 爬行后文件保存的位置
    -depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1。
    -threads 指定并发的进程 这是设定为 4
    -topN 50:一个网站保存的最大页面数。
     
  3. 下载nutch,直接从官网上拿,然后用Linux的tar命令解压
  4. 在nutch目录下将nutch.war拷贝到tomcat的webapps目录下
  5. 将tomcat的相关编码设置成UTF-8,防止中文乱码
  6. 在nutch目录下找到search.html,将queryfocus的js函数内容注释掉(防止js报错)
  7. 建立网络爬虫,在nutch下新建urls目录,在目录下新建url文件(不带后缀名),在文件里输入需要爬虫的网站地址,如:http://www.iteye.com/(注意以/结尾)
  8. 在nutch的conf目录下crawl-urlfilter.txt将iteye.com设为可接受的网站,具体可找到accept hosts in MY.DOMAIN.NAME这一行,将javaeye网站加入即可
  9. 用第一个命令执行网络爬虫
  10. 打开http://localhost:8080/nutch-1.0/,进入搜索页面,输入关键字,即可查询。

至此,nutch配置和安装完毕!

1
0
分享到:
评论

相关推荐

    nutch2.2.1安装步骤.docx

    下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...

    Nutch 安装与配置文档

    【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...

    nutch的安装方法,好用

    3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**:核心组件。 #### 三、安装Cygwin 1. **下载Cygwin**: - 访问Cygwin官网 [http://cygwin.com](http://cygwin.com/) 下载安装程序。 2. **...

    nutch2.3.1安装文档教程

    ### Nutch 2.3.1 安装与配置指南 #### 一、配置 ant 环境 在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ...

    Nutch在Tomcat下的部署.doc

    例如,如果你的Tomcat安装在`C:\Tomcat`,那么路径应该是`C:\Tomcat\webapps\nutch`。 3. **配置Nutch**:在`webapps\nutch\WEB-INF\classes`目录下的`nutch-site.xml`文件中,你需要进行适当的修改。尤其是针对你...

    windows下nutch的安装.pdf

    在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...

    nutch配置与安装

    ### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...

    nutch1.3在myclipse部署工程源码

    1. 安装了Java Development Kit (JDK):因为Nutch和MyEclipse都是基于Java的,所以确保系统已安装JDK且版本与Nutch1.3兼容。 2. 安装了MyEclipse:MyEclipse作为Java应用的IDE,提供了丰富的开发工具和插件,便于...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    Windows下配置nutch

    - 在 Cygwin 中设置环境变量,指向 Nutch 的安装目录。 - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常...

    nutch 0.9 版(包含war,bin,src可直接部署使用)

    6. **部署与配置**: 在部署Nutch 0.9 时,首先需要将WAR文件部署到Tomcat或其他兼容的Web服务器上。然后,根据项目需求,可以编辑配置文件(如conf/nutch-site.xml)来定制爬虫行为,如设置爬取策略、抓取频率、...

    nutch_1.4配置

    在Windows平台上部署Nutch 1.4,需预先安装以下工具和软件: 1. **Java JDK 1.7**:Nutch基于Java开发,因此需要安装JDK,并设置相应的环境变量。 2. **Cygwin**:由于Nutch的脚本采用Linux Shell编写,故在Windows...

    Nutch-1.0分布式安装手册.rar

    Nutch-1.0分布式安装手册是一份详细指导如何在多台计算机上部署和配置Apache Nutch的文档。Apache Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并进行索引,是大数据领域中搜索引擎构建的重要工具。这份...

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的...理解每个步骤的作用,灵活调整配置,是成功部署Nutch搜索引擎的关键。希望这篇详述能对你配置Nutch的过程有所帮助。

Global site tag (gtag.js) - Google Analytics