`
yunjitang
  • 浏览: 14981 次
  • 性别: Icon_minigender_1
  • 来自: 上海
最近访客 更多访客>>
社区版块
存档分类

Nutch环境搭建

阅读更多

  

1.安装jdk

Jdk版本为1.6, 下载地址:

http://www.sun.com/download/

安装路径:C:\Program Files\Java\jdk1.6.0_05\(安装路径不做硬性要求)

配置PATH环境变量  ;%JAVA_HOME%\bin;%TOMCAT_HOME%\bin

配置JAVA_HOME环境变量  C:\Program Files\Java\jdk1.6.0_05

配置JAVA_BIN环境变量  C:\Program Files\Java\jdk1.6.0_05\bin

配置CLASSPATH环境变量 %JAVA_HOME%/lib/dt.jar;%JAVA_HOME%/lib/tools.jar

2.安装Tomcat

版本为5.0 (一定要用Tomcat5.0,如果注意下载了Tomcat6.0,会导致运行时的一些不知名的异常:例如 “Attribute value details.getValue("url") is quoted with " which must be escaped when used within the value)
下载地址:

http://tomcat.apache.org/

设置TOMCAT_HOME环境变量  c:\tomcat

3.安装Cygwin.(在windows模拟linux环境)

下载Cygwin

4.安装Nutch

1)下载nutch包,地址为http://lucene.apache.org/nutch/,大约60M

2)将包nutch-0.9.tar.gz放到cygwin的安装目录根目录下。(例如D:\cygwin

打开Cygwin的快捷方式,退到根目录,运行dir会看到nutch-0.9.tar.gz.

3)运行tar xvf nutch-0.9.tar.gz进行解包,会在根目录下面生成nutch-0.9文件夹。

4)将该文件改名, mv nutch-0.9 nutch

5)在nutch目录下,建立urls目录,然后建立一个url(不带后缀名哦)文件,在url文件内写入一个希望爬行的url,例如:http://www.sohu.com/   (后面的/不能丢)

6)打开nutch\conf\crawl-urlfilter.txt文件.

# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/
改为
# accept hosts in MY.DOMAIN.NAME
+^http://([a-z0-9]*\.)*sohu.com/(这里要注意哦)
7)打开nutch/conf/nutch-site.xml文件,在<configuration></configuration>内插入以下内容:

<property>

  <name>http.agent.name</name>

  <value>nutch</value>

  <description></description>

</property>

 

<property>

  <name>http.agent.description</name>

  <value>hello</value>

<description></description>

</property>

 

<property>

  <name>http.agent.url</name>

  <value>http://www.baidu.com</value>

  <description></description>

</property>

 

<property>

  <name>http.agent.email</name>

  <value>tzhye87@163.com</value>

  <description></description>

</property>

 

 

 

       注意http.agent.name的value值一定要写上,不能为空,否则会在抓取网页时会报错!

5.nutch进行爬行

进入nutch目录

$ sh ./bin/nutch crawl urls -dir mydir -depth 2 -threads 4 -topN 50

crawl:通知nutch.jar,执行crawlmain方法。

urls:存放需要爬行的url.txt文件的目录

-dir mydir 爬行后文件保存的位置

-depth 2:爬行次数,或者成为深度,不过还是觉得次数更贴切,建议测试时改为1

-threads 指定并发的进程 这是设定为 4
-topN 50
:一个网站保存的最大页面数。

注意爬网的时候mydir目录不能存在,要不然会出错

 

6.配置tomcat

1、将nutch-0.9.war复制到到Tomcat 的webapps目录下解压并改名为nutch。
2.  编辑C:\tomcat\webapps\nutch\WEB-INF\classes\nutch-site.xml文件
<configuration>
<property>
<name>searcher.dir</name>
<value>C:\cygwin\nutch\mydir</value>
</property>
</configuration>

注意<value>C:\cygwin\nutch\mydir</value>是爬取网页的目录,一定要注意<value>C:\cygwin\nutch\mydir</value>之间不能有空格,不能写成<value> C:\cygwin\nutch\mydir   </value>这样,不然会出现不知名的异常,找个老半天也找不到错在哪,一般会出现译码错误。

6、在Tomcat \webapps\nutch\zh\include 下面新建header.jsp,内容就是复制header.html,但是
前面加上
<%@ page contentType="text/html; charset=UTF-8" pageEncoding="UTF-8"%>
D:\tomcat\webapps\nutch\search.jsp里面,找到并修改为
<jsp:include page="<%= language + "/include/header.jsp"%>"/>
顺便把下面js注释掉
function queryfocus() {
//search.query.focus(); }

7
、在Tomcat\conf\server.xml 找到以下段,并修改
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" redirectPort="8443" acceptCount="100" debug="0" connectionTimeout="20000" disableUploadTimeout="true" URIEncoding="UTF-8" useBodyEncodingForURI="true" />

注意URIEncoding="UTF-8" useBodyEncodingForURI="true" 这个一定要写上,否则在搜索页面有乱码!
8
、重启tomcat,访问 http://localhost:8080/nutch/ 就可以看到搜索主页了,而且搜索支持中文和分词。

  • 描述: 搜索后的结果
  • 大小: 112.3 KB
  • 描述: 运行主界面
  • 大小: 29 KB
分享到:
评论

相关推荐

    Nutch2.3.1 环境搭建

    Nutch2.3.1是Apache Nutch的一个稳定版本,它是一个开源的网络爬虫框架,主要用于抓取、解析和索引互联网上的网页...同时,文档`Nutch环境搭建.docx`和`配置文件`将提供更具体的指导,帮助你在遇到问题时找到解决方案。

    Nutch环境搭建文档

    Nutch是一个开源的Java搜索引擎,它的主要功能包括Web爬虫和全文搜索。...通过理解Nutch的工作原理和环境搭建,可以深入了解Web爬虫和搜索引擎的运作机制,为开发自己的搜索引擎应用打下坚实基础。

    搭建nutch web开发环境

    本教程将详细介绍如何搭建Nutch 1.2的Web开发环境,因为从Nutch 1.3版本开始,Web界面部分已被移除。 首先,我们需要理解Nutch的工作流程,它主要包括五个主要步骤:抓取、解析、索引、查询和排名。Nutch提供了强大...

    hadoop nutch solr 环境搭建手册

    自己写的 hadoop nutch solr 环境搭建手册,成功搭建后写的,会有红色标注容易出错的地方

    搭建nutch开发环境步骤

    Nutch是Apache软件基金会的一个开源项目,主要用于构建网络搜索引擎。它提供了一个可扩展的、高度模块化的框架,用于抓取、解析网页,并建立索引,是大数据和信息检索领域的...祝你在搭建Nutch环境的过程中一切顺利!

    nutch-0.9 环境搭建所需最小cygwin

    《nutch-0.9 环境搭建所需最小cygwin详解》 在构建一个功能完备的搜索引擎系统时,Apache Nutch是一个重要的开源选择。Nutch-0.9是Nutch的一个较早版本,虽然相比最新的版本可能功能稍显简陋,但对于初学者或者对...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    nutch框架 搜索引擎

    搭建Nutch框架涉及到多个步骤,首先需要确保服务器环境符合Nutch的运行要求,通常推荐使用Linux操作系统。具体步骤如下: 1. **环境准备**:安装Java运行环境,因为Nutch是基于Java开发的,Java版本应符合Nutch的...

    Nutch+solr + hadoop相关框架搭建教程

    【环境搭建】 在实际操作中,需要安装 SVN、Ant 等依赖,并从 Apache Nutch 的 SVN 仓库获取源代码。然后,根据教程配置 Nutch、Solr 和 Hadoop 的环境,包括修改 `nutch-site.xml` 配置文件,添加 HTTP 代理等。 ...

    Apache Nutch 1.7 学习总结

    本文将详细介绍在Windows和Linux环境下如何搭建Nutch 1.7,并探讨如何将其与Solr集成使用。 **Nutch 在 Windows 下的搭建过程** 1. **准备工作** - 检查系统需求:确保你的Windows系统满足运行Java开发环境(JDK...

    nutch使用&Nutch;入门教程

    “Nutch使用.pdf”和“Nutch入门教程.pdf”这两份文档将详细介绍如何从零开始使用Nutch,包括环境搭建、配置、启动爬虫、监控爬虫状态、查看抓取结果和索引数据等。通过这些教程,你可以快速掌握Nutch的基本操作,并...

    nutch

    通过阅读此教程,你可以了解如何搭建 Nutch 爬虫环境,编写自定义插件,以及进行定制化抓取和索引。 总结来说,Nutch 是一个强大的开源网络爬虫工具,借助 Hadoop 实现了大规模的网页抓取和搜索功能。学习和使用 ...

    Windows系统下Nutch检索工具的搭建步骤

    #### 五、Nutch环境变量配置 1. **NUTCH_JAVA_HOME**:此环境变量应与JAVA_HOME相同,指向JDK安装目录。 #### 六、Tomcat应用服务器配置 1. **安装Tomcat**:下载并安装Apache Tomcat,用于部署Nutch的Web界面。 2....

    nutch使用文档

    在开始搭建 Nutch 之前,需要准备一个 Linux 操作系统和 JDK 环境。Linux 操作系统可以选择 Ubuntu、CentOS 等,而 JDK 版本建议使用 1.8 或更高版本。 安装 Linux 系统 安装 Linux 系统可以选择使用虚拟机或物理...

    nutch2.3.1安装文档教程

    ### Nutch 2.3.1 安装与配置...通过以上步骤,您可以在 CentOS 6.3 系统上成功搭建 Nutch 2.3.1 环境,并进行网页爬取和索引处理。注意,在实际部署时还需要确保系统中已安装并配置好 Java、Hadoop、Solr 等依赖组件。

    nutch帮助文档;nutch学习 入门

    - **环境搭建**:首先,你需要安装Java开发环境和Hadoop。然后,从Apache Nutch官方网站下载源码,并按照官方文档配置和编译Nutch。 - **理解配置**:熟悉Nutch的配置文件,如`conf/nutch-site.xml`,了解其主要...

    nutch网页爬取总结

    在开始搭建 Nutch 环境之前,首先确保你有一台配备了最新稳定版 Linux 发行版(如 Ubuntu 或 CentOS)的服务器。此外,你需要安装 Java Development Kit (JDK) 8 或以上版本,因为 Nutch 需要 Java 运行环境。 2. ...

Global site tag (gtag.js) - Google Analytics