`
xrb2008
  • 浏览: 171028 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Nutch0.9配置笔记

阅读更多
配置环境:Debian 4 (kernel 2.4)

配置软件:
1,  Java jdk-1.5
1,1 下载安装
apt-get install sun-java5-jdk

1,2 修改环境变量
vi /etc/profile
在末尾加上


QUOTE:
JAVA_HOME=/usr/lib/jvm/java-1.5.0-sun-1.5.0.10
CLASSPATH=.:$JAVA_HOME/lib/dt.jar:$JAVA_HOME/lib/tools.jar
PATH=$PATH:$JAVA_HOME/bin:$JAVA_HOME/jre/bin

export PATH
export JAVA_HOME
export CLASSPATH

1,3 测试
java -version

2,  tomcat-5.5
2,1 下载
from: http://tomcat.apache.org/
wget http://mirror.olnevhost.net/pub/ ... omcat-5.5.23.tar.gz

2,2 在/opt目录下解压(顺便哪都行,放到/opt下比较整齐)
安装目录:/opt/tomcat5.5

2,3 修改配置
vi conf/server.xml


QUOTE:
  <!-- Define a non-SSL HTTP/1.1 Connector on port 8080 -->
    <Connector port="8080" maxHttpHeaderSize="8192"
            maxThreads="150" minSpareThreads="25" maxSpareThreads="75"
               enableLookups="false" redirectPort="8443" acceptCount="100"
               c disableUploadTimeout="true"
               URIEncoding="UTF-8" useBodyEncodingForURI="true" />   

默认服务端口为8080,若有冲突(如Apache),则可通过此配置文件更改端口(蓝色)
如果配置后nutch出现中文乱码问题,则增加编码配置(红色)

2,4 启动服务
/opt/tomcat5.5/bin/startup.sh

2,5 题外话
Debian下可通过 apt-get install tomcat5.5 来安装,
默认安装后路径为 /usr/share/tomcat5.5
并且增加到服务 /etc/init.d/tomcat5.5
注意,此时webapps目录并不在安装路径,而在/var/lib/tomcat5.5/webapps/
初始时该目录并无内容,所以访问时会出现 http 400 错误的请求,只需在该路径放置web应用就可。
(在使用这种方式安装tomcat后,nutch老是没法运行,改成上面的安装就可以,不知是什么问题)

3,  nutch-0.9
3,1 下载 http://lucene.apache.org/nutch/

3,2  解压后,建立目录,建 urls/nutch.txt文件,指定爬取列表
mkdir urls
vi urls/nutch.txt
写入要爬取的网站,这里实验南开bbs


QUOTE:
http://bbs.nankai.edu.cn

3,3  指定爬虫规则
vi conf/crawl-urlfilter.txt


QUOTE:
# accept hosts in MY.DOMAIN.NAME
#+^http://([a-z0-9]*\.)*MY.DOMAIN.NAME/

把这里改成你要的域名
如 +^http://bbs.nankai.edu.cn/

如果爬取网站的url含有以下过滤字符,如 ? 和 = ,而你又需要这些访问,可以更改过滤表


QUOTE:
# skip URLs containing certain characters as probable queries, etc.
-[?*!@=]

改为
-[*!@]

3,4 修改 conf/nutch-site.xml


QUOTE:
<configuration>
        <property>
                <name>http.agent.name</name>
                <value>HD nutch agent</value>
        </property>
        <property>
                <name>http.agent.version</name>
                <value>1.0</value>
        </property>
</configuration>

如果没有配置此agent,爬取时会出现 Agent name not configured! 的错误。

3.5 开始爬取
可以指定不同的抓去深度,线程数,
bin/nutch crawl urls -dir NKBBS -depth 50 -threads 5 -topN 1000
爬取索引完成后,结果生成在设定的目录中,这里是NKBBS

3,6 部署web前端
将 nutch-0.9.war 拷贝到webapps目录下
cp nutch-0.9.war /opt/tomcat5.5/webapps/
通过浏览器访问 http://localhost:8080/nutch-0.9/ 后,war包自解压。

3,7 修改nutch的web配置
vi /opt/tomcat5.5/webapps/nutch-0.9/WEB-INF/classes/nutch-site.xml
将内容更改为索引生成的目录。


QUOTE:
<nutch-conf>
        <property>
                <name>searcher.dir</name>
                <value>/home/northtree/SearchEngine/nutch-0.9/NKBBS/</value>
        </property>
</nutch-conf>
分享到:
评论

相关推荐

    nutch 0.9 版(包含war,bin,src可直接部署使用)

    Nutch 0.9 是一个开源的网络爬虫项目,它是Apache软件基金会的一部分,主要用于抓取、解析和索引互联网上的网页。这个版本包含了多个关键组件,使得用户可以直接部署和使用,无需自行编译源代码。以下是关于Nutch ...

    nutch09版本亲测好用

    Nutch 0.9 允许开发者通过修改配置文件来调整其行为,如设置抓取间隔、选择爬行策略、定义解析规则等。这使得 Nutch 可以适应各种不同的需求和场景。 7. **Hadoop 集成**: 在 Nutch 0.9 中,Hadoop 被用来处理...

    Eclipse中编译Nutch-0.9

    本文详细介绍了在Eclipse环境下编译Nutch-0.9的完整流程,从环境搭建、项目导入,到解决编译错误、外部库集成,再到配置文件调整和最终的运行测试,每一个步骤都旨在帮助用户顺利地启动和操作这个强大的网络爬虫工具...

    eclipse配置nutch,eclipse配置nutch

    本文将详细解析如何在Eclipse中配置Nutch,以便于开发者更好地理解和操作这一过程。 ### 一、理解Nutch与Eclipse的结合 Nutch是一个基于Hadoop的框架,用于构建可扩展且高性能的网络爬虫。它不仅能够抓取网页,还...

    nutch 0.9分页代码(粘贴可用)

    ### Nutch 0.9 分页代码解析与应用 #### 一、背景介绍 Nutch 是一个开源的网络爬虫项目,它提供了高度可扩展且可靠的网页抓取框架。随着互联网的发展,数据量日益增大,如何高效地处理这些数据成为了一个重要的...

    nutch-0.9 环境搭建所需最小cygwin

    总结,搭建Nutch-0.9环境在Windows上的关键在于正确安装和配置Cygwin,确保所有必要的开发工具和Java环境就绪。尽管这需要一定的技术背景,但只要遵循上述步骤并耐心处理可能出现的问题,你就能成功构建起自己的...

    Nutch 1.3 学习笔记

    ### Nutch 1.3 学习笔记:深入解析与应用 #### 一、Nutch 1.3:概述与核心功能 Nutch 1.3 是一款强大的、开源的网页抓取工具,专为大规模互联网数据抓取设计。它不仅能够收集网页数据,还能进一步分析、构建索引,...

    nutch10配置(解决代理问题)

    ### nutch10配置(解决代理问题) #### 知识点概述 在处理网络爬虫时,遇到代理问题是非常常见的。对于Nutch这样的开源爬虫框架来说,正确配置代理是确保能够顺利抓取互联网资源的关键步骤之一。本文将详细介绍...

    rtf-parse.jar、jid3lib-0.5.4.jar

    在编译`Nutch`项目时,可能需要依赖各种`jar`库,包括`rtf-parse.jar`和`jid3lib-0.5.4.jar`,因为`Nutch`可能需要处理包含RTF格式的网页或者抓取的MP3等音频文件。 `rtf-parse.jar`和`jid3lib-0.5.4.jar`在`Nutch`...

    Linux下Nutch分布式配置和使用

    Linux下Nutch分布式配置 使用:分布式爬虫、索引、Nutch搜索本地数据、Nutch搜索HDFS数据。

    实验报告(利用Nutch和IKanalyzer构造中文分词搜索引擎)

    将nutch-0.9-war部署到Tomcat服务器上,并对nutch-site.xml进行配置。在运行过程中,发现因jsp文件中的转义字符缺失导致错误,通过对search.jsp、cached.jsp等文件进行修正,解决了这些问题。同时,针对中文乱码问题...

    windows下nutch的安装.pdf

    文档中提到的Nutch 0.9版本需要特别注意,因为后续版本的Nutch可能在配置和运行机制上有所变化。而Nutch在不同版本的Windows操作系统上的兼容性,以及是否需要特别的依赖库,都需要在安装前仔细阅读Nutch的官方文档...

    Nutch_的配置文件

    在Nutch的运行过程中,配置文件起着至关重要的作用,它们定义了Nutch的行为方式和各种参数设置。Nutch的配置文件主要分为三类: 1. **Hadoop的配置文件**:包括`Hadoop-default.xml`和`Hadoop-site.xml`。`Hadoop-...

    Nutch安装配置

    【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...

    nutch0。9版本

    8. **配置与定制**:Nutch 提供丰富的配置选项,允许用户根据具体需求调整爬虫行为、索引策略等。此外,它的模块化设计使得添加自定义插件或修改现有功能变得容易。 9. **多语言支持**:Nutch 支持多种语言的网页...

    搜索引擎nutch配置

    **Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...

    Nutch 0.8笔记NUTCHNUTCH

    Nutch 的日志信息现在被默认输出到 `/logs` 目录下,除非在配置文件中将 `fetcher.verbose` 设置为 `true`。Luke 工具对于查看和理解索引内容非常有用,而 Nutch 在 Windows 上运行需要借助 Cygwin。此外,Nutch 0.8...

Global site tag (gtag.js) - Google Analytics