`
zha_zi
  • 浏览: 593177 次
  • 性别: Icon_minigender_1
  • 来自: 西安
社区版块
存档分类
最新评论

nutch配置详解

阅读更多

  配置软件:
1、 Java jdk-1.6
1.1 下载安装
from: http://www.sun.com
安装目录:C:\Java\jdk1.6.0_03
1.2 修改环境变量
JAVA_HOME=C:\Java\jdk1.6.0_03\bin
CLASSPATH=C:\Java\jdk1.6.0_03\lib\dt.jar;C:\Java\jdk1.6.0_03\lib\tools.jar
1.3 测试
java -version

2、tomcat-6.0
2.1 下载
from: http://tomcat.apache.org/


2.2 解压到f盘目录并改名
安装目录:f:\tomcat6

2.3 修改配置
conf/server.xml


QUOTE:
  <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />    
 

 
2.4 启动服务
startup

测试:http://localhost:8080/
3、安装Cygwin
from:http://www.cygwin.cn/
由于运行Nutch自带的脚本命令需要Linux的环境,所以必须首先安装Cygwin来模拟这种环境
4、 nutch-1.0
4.1 下载 http://www.apache.org/dyn/closer.cgi/lucene/nutch/

4.2  解压后到d盘根目录
d:\cygwin\nutch
在d:\cygwin\nutch 目录下

建 url.txt文件,指定爬取列表
在文件中写入如下内容:
例如:http://www.chinavvv.com

4.3  指定爬虫规则
修改 conf/crawl-urlfilter.txt



 

QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/ 
把MY.DOMAIN.NAME换成自己要爬区上网域名chinavvv.com



4.4 修改 conf/nutch-site.xml

QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>my nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>
如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。
4.5 开始爬取
打开Cygwin,
在命令行窗口中输入: 
  cd /cygdrive/c/nutch-1.0
执行命令:
bin/nutch crawl url.txt -dir crawled -depth 3 -threads 4 >& crawl.log
在这里
dir指定抓取内容所存放的目录,这里自动生成crawled文件夹用来存放索引

depth表示以要抓取网站顶级网址为起点的爬行深度,

 

threads指定并发的线程数。

4.6 部署web前端
将 nutch-1.0.war 拷贝到webapps目录下
通过浏览器访问 http://localhost:8080/nutch-1.0/ 后,war包自解压。
4.7 修改nutch的web配置
c:\tomcat6\webapps\nutch-1.0\WEB-INF\classes\nutch-site.xml
将内容更改为索引生成的目录。 
 
         <?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>

<!-- Put site-specific property overrides in this file. -->

<configuration>
 
        <property>
                <name>searcher.dir</name>
                <value>d:\\cygwin\\nutch\\crawled</value>
        </property>
 
</configuration>
 <value>d:\\cygwin\\nutch\\crawled</value>是对应的爬取存放索引的文件夹,

中间千万不要有空格,最好使用"\\"不要使用"/ " 我弄了一天使用没有搜索结果,发现时“/”
的问题,

 

分享到:
评论

相关推荐

    Nutch配置[汇编].pdf

    ### Nutch配置详解 #### 一、Nutch简介与配置准备 **Nutch**是一款开源的Web爬虫项目,能够帮助用户抓取互联网上的网页数据并进行内容分析。本篇文章将详细解读《Nutch配置[汇编].pdf》文档中的关键步骤及知识点。...

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...

    eclipse配置nutch,eclipse配置nutch

    通过右键点击项目名,选择“Properties &gt; Java Build Path &gt; Source”,然后点击“Add Folder”按钮,将“conf”文件夹添加进来,这是Nutch配置文件所在的位置,对于项目的运行至关重要。 #### 步骤3:处理依赖库 ...

    Nutch配置环境\Nutch1[1].4_windows下eclipse配置图文详解.docx

    本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **安装JDK**: 在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。...

    Nutch的各项配置详解

    Nutch各个配置项的详细说明,非常详细的说明了每一项

    nutch配置与安装

    ### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...

    nutch_1.4配置

    ### Apache Nutch 1.4在Windows下的安装与配置详解 #### 一、Apache Nutch简介及重要性 Apache Nutch是一款用Java语言编写的开源网络爬虫项目,旨在自动化地抓取网页中的链接,检查并修复坏链接,以及创建已访问...

    Windows下配置nutch

    【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: ...

    nutch使用&Nutch;入门教程

    三、Nutch配置与设置 在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储...

    nutch_1.4在windows下安装配置.pdf

    ### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...

    Nutch中文教程nutcher.zip

    nutcher 是 Apache Nutch 的中文教程,在github上托管。nutch社区目前缺少教程和文档,而且教程对应版本号较为落后。nutcher致力于为nutch提供... Nutch参数配置——http.content.limit 文档截图:

    分布式搜索引擎nutch开发

    3. **Nutch配置** 在使用Nutch之前,需要进行一些基本配置,如设置爬虫范围(robots.txt遵循规则)、抓取间隔、抓取深度等。这些配置信息通常位于`conf/nutch-site.xml`文件中。此外,还可以通过修改`conf/regex-...

    开发基于 Nutch 的集群式搜索引擎

    - 在Nutch配置文件中添加目标网站的URL。 - 运行Nutch爬虫任务。 - 观察抓取进度和结果。 4. **使用Nutch检索器API**: - 开发一个简单的用户界面,允许用户输入搜索关键词。 - 调用Nutch检索器API来获取搜索...

Global site tag (gtag.js) - Google Analytics