`
ywy041102
  • 浏览: 8294 次
  • 性别: Icon_minigender_1
  • 来自: 广州
文章分类
社区版块
存档分类
最新评论

Nutch使用方法简介

阅读更多
Nutch使用方法简介



目前Nutch采用Sehll的启动方式,如果您使用的是Windows系统,那么首先需要安装Cygwin。本文就以在Windows中为例,介绍Nutch的安装和使用方法。



(1)准备需要的软件列表

    Cygwin     (下载地址:http://www.cygwin.com/setup.exe)
    Jdk(1.4.2以上版本,下载地址http://java.sun.com/javase/downloads/index.jsp)
    Nutch(推荐使用0.9版本,下载地址http://www.apache.org/dyn/closer.cgi/lucene/nutch/)
    Tomcat(下载地址http://tomcat.apache.org/)


(2) 安装软件

   

     1)  Cygwin 打开安装程序Cygwin.exe后,在"Choose Installation Type"页选择 "Install from Internet"(如果你已经把全部安装包下载到本地,就可以选择"Install from local directory"选项)。然后点击"Next".

          然后选择安装目录,其他可保持默认选项,点击"Next".

          选择保存安装包的本地目录,点击"Next".

          选择下载连接的类型,点击Next。

          然后通过服务器先下在需要安装的包列表,默认全部安装,并且选择可以使用的下载镜像地址(速度不一样,如果下载速度太慢可以换别的:) )

          请耐心等待,安装程序会自动下载和安装程序包,并且保存程序包在设定的目录,这样下次安装就不必重新下载了。我安装时大约用了3分钟,下载网速大约80Kbs/s。

          完成安装。

     2) 安装JDK,这个就不用介绍了,注意安装完成后需要在Windows的环境变量中加入JAVA_HOME=你的jdk的安装目录

     3) 安装Tomcat,这个就不用多说了吧。

     4)把Nutch解压到本地目录,例如D:\nutch。这时候启动Cygwin程序,Cygwin程序会启动一个模拟Unix/Linux的终端窗口,然后使用方式就和Unix的Shell一样了,Cygwin的根目录是/cygdriver,这个目录相当于Windows的“我的电脑”,然后进入Nutch的目录,例如:cd /cygdriver/d/nutch,然后运行bin/nutch命令,如果出现下面的Usage 信息,这样Nutch就安装完成了,非常简单。

     Usage: nutch COMMAND
     where COMMAND is one of:
         crawl one-step crawler for intranets
         readdb read / dump crawl db
         mergedb merge crawldb-s, with optional filtering
         readlinkdb read / dump link db
         inject inject new urls into the database
         generate generate new segments to fetch
         fetch fetch a segment's pages
         parse parse a segment's pages
         readseg read / dump segment data
         mergesegs merge several segments, with optional filtering and slicing
         updatedb update crawl db from segments after fetching
         invertlinks create a linkdb from parsed segments
         mergelinkdb merge linkdb-s, with optional filtering
         index run the indexer on parsed segments and linkdb
         merge merge several segment indexes
         dedup remove duplicates from a set of segment indexes
         plugin load a plugin and run one of its classes main()
         server run a search server
     or
         CLASSNAME run the class named CLASSNAME
     Most commands print help when invoked w/o parameters.

       

(3)开始使用Nutch

        下面用一个简单的例子说明Nutch的使用方法

        1) 添加需要爬行的内部网地址信息。

         新建一个目录,写入一些网址信息,例如我们需要爬行csdn的内部网。

             mkdir urls

             echo http://www.csdn.com/ >urls/csdn

        2) 然后修改 conf目录下的crawl-urlfilter.txt文件,这个文件中的正则表达式定义了那些文件可以被Nutch爬行,那些不可以被爬行。其中以“+”号开头的表示属于Nuch合法的Url连接,“-”号开头相反。我们需要修改文件中的

          # accept hosts in MY.DOMAIN.NAME
           +^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

         为

        # accept hosts in MY.DOMAIN.NAME
        +^http://([a-z0-9]*\.)*csdn.com/



         3)接下来我们需要配置conf/nutch-site.xml,这个需要填写相关的代理属性,应为Nutch也许要准受Robot协议,在爬行人家网站的时候,把相关的信息提交给被爬行的网站。

         我们在这个文件中,需要在<configuration>和</configuration>之间,加入是个代理属性,例如http.agent.name属性       

         <property>

         <name>http.agent.name</name>

         <value>csdn.com</value>

         <description>csdn.com</description>

         </property>

        其中除了name字段需要准确添写外,其他value和descrption字段可或添写。

       同样,还需要加入http.agent.description,http.agent.url和http.agent.email这三个属性。



       4)这样就完成了全部爬行所需要的配置,下面就可以用nutch的crawl命令来派性企业内部网了

        再nutch目录中输入:

        bin/nutch crawl urls -dir csdn -threads 4 -depth 2 -topN 30

        这样nutch就启动并且开始爬行任务了,由于是简单示例,所以以上这个命令很快就结束了,因为爬行的广度和深度都非常小,也就是说,示例只爬行了csdn网站的很小一部分网页。

        下面就上面命令的参数进行说明:

        Crawl命令的使用说明为: crawl <url dir> [-dir index] [-threads num] [-depth num] [-topN num]

        其中:

           urls是存放需要爬行网址的文件夹目录。

           -dir选项是抓取的页面的存放目录。

           -threads选项是启动的最大线程数。

           -depth选项是能爬行的最大深度,也就是最多爬行到第几级的页面,也叫爬行深度。

           -topN选项是在每层深度上,所能爬行的最多页面数,也称爬行广度。      

        完成爬行后,会在-dir选项所指定的目录中保存网页信息和搜索需要的索引。


本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/pengpengfly/archive/2008/09/29/2994664.aspx
分享到:
评论

相关推荐

    nutch 初学文档教材

    1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 tomcat的安装...

    Nutch入门教程.pdf

    以上内容构成了Nutch入门教程的核心知识点,从简介、安装配置、初体验、基本原理、分析方法、分布式文件系统以及应用等多方面,详细介绍了Nutch框架及其使用方法,为对搜索引擎感兴趣的用户提供了一个全面的学习资源...

    nutch_1.4配置

    #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问网页的副本用于后续查询。这一功能大大减少了网站维护...

    nutch入门教程

    Nutch简介 **1.1 什么是Nutch** Nutch是一个开源的搜索引擎框架,完全基于Java开发,旨在帮助用户构建和运行自己的搜索引擎。它提供了一系列的工具和服务,使用户能够从互联网上抓取、存储、索引以及搜索网页。 ...

    Lucene+Nutch搜索引擎开发

    当我们将Lucene与Nutch结合起来使用时,可以构建出一个完整的搜索引擎解决方案。具体步骤如下: 1. **网页爬取**:使用Nutch进行网页爬取,根据配置策略抓取目标网站的数据。 2. **数据处理**:对爬取回来的数据...

    nutch_1.4在windows下安装配置.pdf

    #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **功能**: - 自动获取网页中的超链接。 - 检测坏链接。 ...

    Nutch入门.rar

    1. nutch简介...1 1.1什么是nutch..1 1.2研究nutch的原因...1 1.3 nutch的目标..1 1.4 nutch VS lucene.....2 2. nutch的安装与配置.....3 2.1 JDK的安装与配置.3 2.2 nutch的安装与配置........5 2.3 ...

    Nutch入门教程

    通过这份教程,学习者将能够理解Nutch搜索引擎的基本概念、安装和配置方法、以及如何使用Nutch进行基本的爬取和索引操作。此外,教程还引导学习者深入到Nutch的内部工作原理和分析方法,为后续的高级应用和定制开发...

    nutch+lucene开发自己的搜索引擎ch3.pdf

    - 对于初学者来说,可以从Lucene和Nutch的官方文档入手,了解它们的基本概念和使用方法。 - 参加在线课程和研讨会,与其他开发者交流经验。 - 阅读相关的博客文章和技术文章,深入理解最佳实践和技术细节。 - **...

    分享一个Nutch入门学习的资料

    通过阅读提供的Nutch.pdf文档,你可以更深入地了解Nutch的原理、配置、使用方法以及最佳实践。在学习过程中,不断实践操作,结合源码阅读,将有助于更好地理解和掌握Nutch的功能和用法。祝你在Nutch的学习旅程中取得...

    nutch入门实例教程.pdf

    Nutch 简介 - **定义**: Nutch 是一个开源的 Java 实现的搜索引擎框架,它提供了构建和运行自己搜索引擎所需的所有工具。 - **研究动机**: - **透明度**: 作为开源项目,Nutch 的排序算法对所有人可见,这有助于...

    nutch学习笔记之第一天初学

    通过本篇学习笔记,我们不仅了解了Nutch的基本概念和安装配置流程,而且还探讨了一些核心组件的使用方法。对于想要进一步探索网络爬虫技术的人来说,Nutch无疑提供了一个强大的工具集。未来的学习过程中,我们还可以...

    nutch入门学习

    nutch简介 **1.1 什么是nutch** Nutch是一个开源的搜索引擎框架,完全采用Java编写,旨在帮助用户构建和运行自己的搜索引擎。它提供了一系列的工具和服务,使用户能够从互联网上抓取、存储、索引以及搜索网页。 ...

    Nutch 安装ppt

    ### Nutch 安装与配置详解 #### 一、搜索引擎简介及 Nutch 介绍 **搜索引擎** 是一种专为在...通过本文的学习,可以帮助读者更好地理解 Nutch 的工作原理和使用方法,为后续的搜索引擎开发和优化打下坚实的基础。

    大学毕设论文--nutch爬虫系统分析设计论文.doc

    一、Nutch简介 Nutch是一个基于Java语言的开源爬虫系统,由Apache组织开发和维护。Nutch的主要特点是高性能、可扩展性强、灵活性好,广泛应用于搜索引擎、数据挖掘、文本分析等领域。Nutch的核心组件包括抓取...

Global site tag (gtag.js) - Google Analytics