`
085567
  • 浏览: 219331 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

(转载)Redhat Linux Enterprise 5.4下Nutch1.0的配置

阅读更多
从昨天下午到今天上午,共花了一天的时间,终于把偶的Nutch运行成功了。
记录下这个过程。
1.从官网上分别下载jdk1.6.0,apache-tomcat-6.0.24,nutch1.0.
2.安装jdk1.6.0包,直接运行即可。
3.解压缩tomcat,用tar -xvf apache-tomcat-6.0.24.tar.gz
4.解压缩nutch,同3.
5.添加环境变量
其中jdk我下的是bin包,运行后只是解压缩而已,
所以需要在/etc/profile中添加环境变量
我的是这样的:
export JAVA_HOME=/usr/dev/jdk1.6.0
export JAVA_BIN=/usr/dev/jdk1.6.0/bin
export PATH=$PATH:$JAVA_HOME/bin
export CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
export TOMCAT_HOME=/usr/dev/apache-tomcat-6.0.24
export JAVA_HOME JAVA_BIN PATH CLASSPATH TOMCAT_HOME
6.logoff 系统,重新登录,环境变量就生效了。
7.配置nutch.
1)cd到nutch根目录,vi url.txt,在url.txt输入要crawl的网址,比如我用的是http://blog.csdn.net/zjzcl
2)cd conf,vi nutch-site.xml, 修改如下:
Java代码
<configuration>  
        <property>  
                <name>http.agent.name</name>  
                <value>HD nutch agent</value>  
        </property>  
        <property>  
                <name>http.agent.version</name>  
                <value>1.0</value>  
        </property>  
</configuration> 

<configuration>
        <property>
                <name>http.agent.name</name>
                <value>HD nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>

保存。
3)vi crawl-urlfilter.txt找到# accept hosts in MY.DOMAIN.NAME这一行,将下面的那行改成+^http://blog.csdn.net/zjzcl,保存。
8.设置好了,爬取。在nutch根目录下,输入命令:sh bin/nutch crawl url.txt -dir crawled -depth 4 -threads 5 >&crawl.log
注意:crawled文件夹不能存在。
      crawl.log是记录crawl日志的文件,如果搜索不成功,有可能是爬取的问题,可以从这里找到问题所在。我第一次搜索就没有成功,是爬取的问题。
9.在tomcat里测试。
1)用vi命令将$TOMCAT_HOME/conf/server.xml的connector修改为:
Java代码
<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false" 
               protocol="HTTP/1.1" 
               redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true" 
               URIEncoding="UTF-8" useBodyEncodingForURI="true" /> 

<Connector port="8080" maxThreads="150" minSpareThreads="25" maxSpareThreads="75" enableLookups="false"
               protocol="HTTP/1.1"
               redirectPort="8443" acceptCount="100" connectionTimeout="20000" disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />


保存。
2)将webapps下的ROOT改为ROOT1.
3)用cp命令将nutch根目录下的war包复制到$TOMCAT_HOME/webapps下并将其改名为ROOT.war
此时启动tomcat,sh $TOMCAT_HOME/bin/startup.sh.用浏览器访问http://localhost:8080.
ROOT.war已经解开了。
4)cd到ROOT下的WEB-INF/classes,ls可以看到有nutch-site.xml,用vi命令修改如下:
Java代码
<configuration>  
        <property>  
            <name>searcher.dir</name>  
            <value>/usr/dev/nutch-1.0/crawled</value>  
        </property>  
</configuration> 

<configuration>
        <property>
            <name>searcher.dir</name>
            <value>/usr/dev/nutch-1.0/crawled</value>
        </property>
</configuration>

指定要搜索的目录。
5)重启tomcat,用http://localhost:8080访问,即可进行搜索。
分享到:
评论

相关推荐

    linux redhat enterprise5.4+oracle10g安装过程以及vnc服务配置

    ### Linux RedHat Enterprise 5.4 安装与Oracle 10g及VNC服务配置详解 #### 第一部分:Linux RedHat Enterprise 5.4 的安装及其问题解决 Linux RedHat Enterprise 5.4 是一款稳定且功能强大的企业级操作系统。在...

    Redhat Enterprise linux 5.4上安装Oracle10g

    在Redhat Enterprise Linux 5.4上安装Oracle 10g是一个相对复杂的过程,涉及到操作系统配置、环境变量设定以及数据库的安装与管理。本指南将详细介绍这个过程,并着重解决可能出现的em/dbca乱码问题以及如何配置...

    redhat linux5.4 安装

    Redhat Linux 5.4 是一个...通过以上的步骤,你就可以成功安装并配置好Redhat Linux 5.4。在整个过程中,了解并掌握磁盘分区、文件系统类型、网络配置等关键知识点至关重要,它们将对你的Linux使用体验产生深远影响。

    Redhat Linux Enterprise镜像集合

    Redhat Linux Enterprise镜像从5.1到7.5的32位和64位操作系统的下载集合,文本是百度网盘共享出来的下载链接

    Hadoop on redhat enterprise 5.4部署安装手记

    本篇手记详细记录了在RedHat Enterprise 5.4上部署Hadoop集群的步骤,这对于希望构建稳定且高效云计算平台的IT专业人员来说具有很高的参考价值。选择RedHat Enterprise 5.4作为虚拟机平台主要是考虑其商业支持和稳定...

    在vmware下安装redhat_linux_5.4_环境与oracle_10g_数据库

    在vmware下安装redhat linux 5.4 环境与oracle 10g 数据库

    Redhat Linux Enterprise 5完全教程

    Redhat Linux Enterprise 5下介绍的很详细的实用教程文档,是你学Linux的好帮手哦!亲

    redhat linux 5.4 操作系统下安装oracle 10g数据库

    ### Redhat Linux 5.4 下安装Oracle 10g数据库相关知识点 #### 启动远程服务 在Redhat Linux 5.4操作系统环境下安装Oracle 10g数据库之前,通常需要确保能够进行远程访问,以便于管理和维护。为此,需要安装并启用...

    redhat linux enterprise 5教程文档文件权限管理

    redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!

    Redhat5.4_64位版安装过程图解

    ### Redhat 5.4 64位版安装过程详解 #### 一、启动与检测 1. **启动方式**:使用Redhat 5.4 64位版的安装...通过以上步骤,您可以顺利完成Redhat 5.4 64位版的操作系统安装,并根据具体需求进行相应的系统配置和优化。

    linux redhat5.4安装

    ### Linux RedHat 5.4 安装及配置详解 #### 一、安装 Linux 操作系统(以 RedHat 5.4 为例) 在安装 RedHat 5.4 操作系统之前,首先需要准备好安装介质。本文档提到的安装介质为 `rhel-server-5.4-i386-dvd.iso` ...

    Redhat linux enterprise 5 cvs安装配置

    本篇文章将详细讲解如何在Red Hat Linux Enterprise 5上安装并配置CVS。 一、CVS介绍 CVS是一个集中式的版本控制系统,允许多个开发者同时工作在同一份代码库上,并且能够跟踪每个开发者对文件的修改。CVS提供冲突...

    01.Redhat Linux Enterprise 5操作系统安装

    01.Redhat Linux Enterprise 5操作系统安装01.Redhat Linux Enterprise 5操作系统安装01.Redhat Linux Enterprise 5操作系统安装

    RedHat Linux Enterprise 5.7 下安装Oracle 10g 教程

    ### RedHat Linux Enterprise 5.7 下安装Oracle 10g 教程 #### 一、准备工作 在开始安装Oracle 10g之前,确保已经完成以下准备工作: 1. **操作系统环境**: 确认使用的是RedHat Linux Enterprise 5.7版本。 2. **...

    redhat linux enterprise 5教程文档linux下网络应用

    redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!

    redhat linux enterprise 5_linux shell

    redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!

    redhat linux enterprise 5教程文档数据备份与恢复

    redhat linux enterprise 5教程文档,绝对是你学习LINUx的好帮手哦,亲!

    Redhat.Enterprise.Linux.v6.iso镜像

    ### Redhat Enterprise Linux v6 ISO镜像:部署与应用 #### 一、Redhat Enterprise Linux (RHEL) v6概述 Redhat Enterprise Linux (RHEL) 是一款由Red Hat公司开发的企业级Linux发行版,广泛应用于服务器、数据...

    redhat5.4 ssh 服务配置

    在Red Hat Enterprise Linux 5.4 (RHEL5.4)中,SSH(Secure SHell)服务是一个关键组件,用于安全地远程管理服务器。SSH提供了一种加密的网络协议,使得用户可以在不安全的网络环境中执行命令、传输文件,而无需担心...

Global site tag (gtag.js) - Google Analytics