`
beyondsc
  • 浏览: 3486 次
  • 性别: Icon_minigender_1
  • 来自: 广州
社区版块
存档分类
最新评论
  • jiguansheng: 谢谢你推荐的网站。android  要学 第一次找牛人的资料
    android

Nutch 配置备忘

阅读更多
Phinecos(洞庭散人)
专注于开源技术的研究与应用
nutch 0.9在Windows下的安装

一、环境:
      1.操作系统:windowsXp,windows2000+
      2.java1.6,设置JAVA_HOME到环境变量
      3.cygwin,当然这个不是必需的,只是nutch提供的脚本只能在shell环境下使用,所以使用cygwin来虚拟shell命令。
      4.nutch版本:0.9
      5.tomcat:6.0
二、nutch的安装和配置:
1,安装Cygwin1.5.5(我这里装到F:\cygSys),将nutch解压缩后放置到cygSys \home\用户名的一个目录下(我放在F:\cygSys\home\dyk\nutch下),如图:

2,在Cygwin环境下进入nutch-0.9目录下,使用命令 bin/nutch进行测试,正常的情况下出现的结果是:


3,进行抓取网站的测试,以抓取http://www.163.com/为例
1) 新建一个文件myurl,在文件中输入http://www.163.com/保存,这个文件可以放在任何地方(我这个文件放在F:\cygSys\home\dyk\nutch\myurl),另外再建立一个爬虫日志目录logs(我放在F:\cygSys\home\dyk\nutch\logs)
2) 打开nutch-0.9\conf\nutch-site.xml文件,在<configuration></configuration>内插入以下内容:
<property>
  <name>http.agent.name</name>
  <value></value>
  <description>HTTP 'User-Agent' request header. MUST NOT be empty -
  please set this to a single word uniquely related to your organization.
 
  NOTE: You should also check other related properties:
 
     http.robots.agents
     http.agent.description
     http.agent.url
     http.agent.email
     http.agent.version
 
  and set their values appropriately.
 
  </description>
</property>
 
<property>
  <name>http.agent.description</name>
  <value></value>
  <description>Further description of our bot- this text is used in
  the User-Agent header.  It appears in parenthesis after the agent name.
  </description>
</property>
 
<property>
  <name>http.agent.url</name>
  <value></value>
  <description>A URL to advertise in the User-Agent header.  This will
   appear in parenthesis after the agent name. Custom dictates that this
   should be a URL of a page explaining the purpose and behavior of this
   crawler.
  </description>
</property>
 
<property>
  <name>http.agent.email</name>
  <value></value>
  <description>An email address to advertise in the HTTP 'From' request
   header and User-Agent header. A good practice is to mangle this
   address (e.g. 'info at example dot com') to avoid spamming.
  </description>
</property>
     可以把<name>XXX</name>之间的内容替换为其他字符,当然就算是不替换也无所谓,这里的设置,是因为nutch遵守了robots协议,在获取response时,把自己的相关信息提交给被爬行的网站,以供识别。
3) 打开nutch-0.9\conf\crawl-urlfilter.txt文件,把MY.DOMAIN.NAME字符替换为myurl内的域名(比如我改成了“+^http://([a-z0-9]*\.)*163.com/”,其实更简单点,直接删除MY.DOMAIN.NAME这几个字就可以了,也就是说,只保存+^http://([a-z0-9]*\.)*这几个字就可以了,表示所有http的网站都同意爬行)。
4) 运行爬虫,在Cygwin输入以下命令:
bin/nutch crawl ../myurl –dir ../mydir –depth 2 >&../logs/crawl1.log
这里dir表示存储的目录,-depth表示网址爬的深度,最后是指明日志文件

运行结束后,你可以打开日志文件查看爬虫运行的详细过程。
5,在tomcat上运行Nutch
把nutch-0.9.war拷贝到Tomcat\webapps\下面
在浏览器中输入http://localhost:8080/nutch-0.9/这步是为了使tomcat展开nutch-0.9.war,然后修改webapps/ nutch-0.9/WEB-INF/classes/nutch-site.xml文件如下:
<configuration>
<property>
  <name>searcher.dir</name>
  <value>F:\\cygSys\\home\\dyk\\nutch\\mydir4</value>
</property>
</configuration>
为了支持中文的搜索,修改Tomcat\conf\server.xml。找到对应的地方修改成
    <Connector port="8080" protocol="HTTP/1.1"
               connectionTimeout="20000"
               redirectPort="8443" URIEncoding="UTF-8" useBodyEncodingForURI="true"/>
在浏览器中输入http://localhost:8080/nutch-0.9,
分享到:
评论

相关推荐

    eclipse配置nutch,eclipse配置nutch

    本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...

    nutch配置nutch-default.xml

    nutch配置nutch-default.xml

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    windows下的nutch配置总结

    在Windows环境下配置Apache Nutch是一项复杂但至关重要的任务,它涉及到搜索引擎的基础构建,特别是对于那些需要自建数据抓取和索引系统的项目。Nutch是一个开源的网络爬虫项目,它能够高效地抓取互联网上的网页,并...

    Nutch_的配置文件

    在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...

    Nutch配置[汇编].pdf

    ### Nutch配置详解 #### 一、Nutch简介与配置准备 **Nutch**是一款开源的Web爬虫项目,能够帮助用户抓取互联网上的网页数据并进行内容分析。本篇文章将详细解读《Nutch配置[汇编].pdf》文档中的关键步骤及知识点。...

    Nutch 配置

    Nutch 配置涉及的是一个开源的网络爬虫项目,它与Hadoop相结合,用于大规模的网页抓取和索引。Nutch 1.6是该项目的一个版本,这个版本的配置过程主要涵盖以下几个步骤: 1. **下载Nutch源代码**:首先,你需要从...

    nutch10配置(解决代理问题)

    ### nutch10配置(解决代理问题) #### 知识点概述 在处理网络爬虫时,遇到代理问题是非常常见的。对于Nutch这样的开源爬虫框架来说,正确配置代理是确保能够顺利抓取互联网资源的关键步骤之一。本文将详细介绍...

    Windows下配置nutch

    - 配置 Nutch 相关的配置文件,如上述方法。 5. **配置注意事项**: - 在 `nutch-site.xml` 中,`http.agent.name` 属性用于定义爬虫的用户代理名称,通常需要更改,避免被服务器识别为恶意爬虫。 - `crawl-...

    Nutch安装配置

    【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...

    nutch_1.4配置

    ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    nutch使用文档

    Nutch 的搭建过程主要包括准备工作、安装 Linux 系统、安装 JDK、配置 Nutch 创建索引、安装 Tomcat 和配置 Nutch 查询索引等步骤。 准备工作 在开始搭建 Nutch 之前,需要准备一个 Linux 操作系统和 JDK 环境。...

Global site tag (gtag.js) - Google Analytics