`
liuxinglanyue
  • 浏览: 562559 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

nutch 安装 配置 运行

阅读更多

1.安装jdk

Jdk版本为1.6, 下载地址:

http://www.sun.com/download/

安装路径:C:\Program Files\Java\jdk1.6.0_05\(安装路径不做硬性要求)

配置PATH环境变量  ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin

配置JAVA_HOME环境变量  C:\Program Files\Java\jdk1.6.0_05

配置JAVA_BIN环境变量  C:\Program Files\Java\jdk1.6.0_05\bin

配置CLASSPATH环境变量 %JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar

2.安装Tomcat

版本为5.0 (一定要用Tomcat5.0,如果注意下载了Tomcat6.0,会导致运行时的一些不知名的异常:例如 “Attribute value details.getValue("url") is quoted with " which must be escaped when used within the value)
下载地址:

http://tomcat.apache.org/

设置TOMCAT_HOME环境变量  c:\tomcat

3.安装Cygwin.(在windows模拟linux环境)

下载Cygwin

4.安装Nutch

1)下载nutch包,地址为http://lucene.apache.org/nutch/,大约60M

2)将包nutch-0.9.tar.gz放到cygwin的安装目录根目录下。(例如D:\cygwin

打开Cygwin的快捷方式,退到根目录,运行dir会看到nutch-0.9.tar.gz.

3)运行tar xvf nutch-0.9.tar.gz进行解包,会在根目录下面生成nutch-0.9文件夹。

4)将该文件改名, mv nutch-0.9 nutch

5)在nutch目录下,建立urls目录,然后建立一个url(不带后缀名哦)文件,在url文件内写入一个希望爬行的url,例如:http://www.sohu.com/   (后面的/不能丢)

6)打开nutch\conf\crawl-urlfilter.txt文件.

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*sohu.com/(这里要注意哦)
7)打开nutch/conf/nutch-site.xml文件,在<configuration></configuration>内插入以下内容:

<property>

  <name>http.agent.name</name>

  <value>nutch</value>

  <description></description>

</property>

 

<property>

  <name>http.agent.description</name>

  <value>hello</value>

 

<description></description>

</property>

 

<property>

  <name>http.agent.url</name>

  <value>http://www.baidu.com</value>

  <description></description>

</property>

 

<property>

  <name>http.agent.email</name>

  <value>tzhye87@163.com</value>

  <description></description>

</property>

 

 

 

 

       注意http.agent.name的value值一定要写上,不能为空,否则会在抓取网页时会报错!

5.nutch进行爬行

进入nutch目录

$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50

crawl:通知nutch.jar,执行crawlmain方法。

urls:存放需要爬行的url.txt文件的目录

-dir mydir 爬行后文件保存的位置

-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1

-threads 指定并发的进程 这是设定为 4
-topN 50
:一个网站保存的最大页面数。

注意爬网的时候mydir目录不能存在,要不然会出错

 

6.配置tomcat

1、将nutch-0.9.war复制到到Tomcat 的webapps目录下解压并改名为nutch。 
2.  编辑C:\tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml文件
<configuration>
<property>
<name>searcher.dir</name> 
<value>C:\cygwin\nutch\mydir</value>
</property>
</configuration>

注意<value>C:\cygwin\nutch\mydir</value>是爬取网页的目录,一定要注意<value>C:\cygwin\nutch\mydir</value>之间不能有空格,不能写成<value> C:\cygwin\nutch\mydir   </value>这样,不然会出现不知名的异常,找个老半天也找不到错在哪,一般会出现译码错误。

6、在Tomcat \webapps\nutch\zh\include 下面新建header.jsp,内容就是复制header.html,但是 
前面加上 
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%> 
D:\tomcat\webapps\nutch\search.jsp里面,找到并修改为 
<jsp:include page="<%= language + "/include/header.jsp"%>"/> 
顺便把下面js注释掉 
function queryfocus() { 
//search.query.focus(); } 

7
、在Tomcat\conf\server.xml 找到以下段,并修改 
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />

注意URIEncoding="UTF-8" useBodyEncodingForURI="true" 这个一定要写上,否则在搜索页面有乱码!
8
、重启tomcat,访问 http://localhost:8080/nutch/ 就可以看到搜索主页了,而且搜索支持中文和分词。

分享到:
评论

相关推荐

    Nutch安装配置

    总结来说,Nutch安装配置涉及Java环境、源码编译、Cygwin模拟环境(针对Windows用户)、Hadoop集成、Nutch配置、种子URL设置、执行生命周期管理和日志监控等多个环节。理解并熟练掌握这些步骤,将有助于顺利地搭建和...

    Nutch 安装与配置文档

    【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...

    eclipse配置nutch,eclipse配置nutch

    通过右键点击项目名,选择“Properties &gt; Java Build Path &gt; Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是Nutch配置文件所在的位置,对于项目的运行至关重要。 #### 步骤3:处理依赖库 ...

    nutch2.2.1安装步骤.docx

    下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    nutch的安装方法,好用

    6. **修改Nutch配置文件**: - 打开 `nutch\conf\nutch-site.xml` 文件,在 `&lt;configuration&gt;` 标签内添加以下内容来配置目标站点: ```xml &lt;name&gt;http.robots.agents&lt;/name&gt; &lt;value&gt;...

    Nutch程序运行环境配置

    - mysql-connector-java-5.1.6-bin.jar是用于连接MySQL数据库的驱动包,如果你的Nutch配置中涉及到存储数据到MySQL,这个jar文件是必不可少的。 3. **运行时错误处理**: - 在Windows上运行Nutch可能会遇到一些...

    windows下nutch的安装.pdf

    5. Nutch配置文件:如nutch-site.xml、nutch-default.xml等。 安装过程中,首先需要在Windows系统上安装Cygwin,安装完成后,需指定JDK的安装路径,这通常是在环境变量中设置NUTCH_JAVA_HOME。在Cygwin的终端中,...

    nutch配置与安装

    ### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...

    nutch安装在windows下配置

    ### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。下载地址:...

    nutch10配置(解决代理问题)

    - 如果在Windows环境下使用Nutch,文档中提到的安装Cygwin并将`F:\cygwin\bin`添加到系统环境变量中,是为了确保Nutch能够在Windows平台上正常运行。Cygwin提供了一系列类似于Linux的工具,这对于Nutch在Windows...

    Nutch_的配置文件

    在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...

Global site tag (gtag.js) - Google Analytics