Nutch是一个基于Lucene的搜索引擎应用.
一.准备工作
1.下载最新版的nutch-0.9(下载地址:http://lucene.apache.org/nutch/)放到d盘的d: nutch目录下
2.添加环境变量NUTCH_JAVA_HOME=jdk的安装路径
3.nutch需要在unix下跑,如果要装在windows上,需要安装cygwin(下载地址: http://www.cygwin.com/setup.exe)
二.爬取数据
运行cygwin
cd d:nutch
cd nutch-0.9
cygwin所示的当前目录为:/cygdrive/d/nutch/nutch-0.9
在此目录下执行命令:bin/nutch,如果正确的话,会有Usage:nutch COMMAND提示
在根目录下新建urls文件夹,在此文件夹下建文本文件nutch.txt,
其中的内容为:http://lucene.apache.org/nutch/
修改conf/crawl-urlfilter.txt,找到MY.DOMAIN.NAME,修改为:
+^http://([a-z0-9]*\.)*apache.org/
修改nutch-default.xml
设置http.agent.name,http.robots.agents, http.agent.description, http.agent.url, http.agent.email, http.agent.version的值,
http.agent.name不能为空
例如:
<name>http.agent.name</name>
<value>aaa</value>
<name>http.robots.agents</name>
<value>*</value>
<name>http.agent.description</name>
<value>Nutch</value>
<name>http.agent.url</name>
<value>http://lucene.apache.org/nutch/</value>
<name>http.agent.email</name>
<value>callan@126.com</value>
修改完成后运行 bin/nutch crawl urls -dir crawl -depth 3 -topN 50
depth 参数指爬行的深度
运行完成后,在根目录上会生成crawl文件夹
crawled中包含有segment, linkdb, indexed, index, crawldb文件夹
crawdb,linkdb是web link目录,存放url 及url的互联关系,作为爬行与重新爬行的依据,页面默认30天过期。
segments 是主目录,存放抓回来的网页.页面内容有bytes[]的raw content 和 parsed text的形式.nutch以广度优先的原则来爬行,因此每爬完一轮会生成一个segment目录
index 是lucene的索引目录,是indexs里所有index合并后的完整索引,注意索引文件只对页面内容进行索引,没有进行存储,因此查询时要去访问segments目录才能获得页面内容。
Luke(http://www.getopt.org/luke)是一个索引阅读工具
三.运行
将nutch-0.9.war拷到tomcat的webapps目录下,解压,
进入webapps\nutch\WEB-INF\classes目录,将nutch-default.xml的search.dir设置为D:\nutch\nutch-0.9\crawl
运行tomcat
分享到:
相关推荐
可以通过运行`cygwin.bat`文件来启动Cygwin终端,并使用`cd`命令切换到Nutch的安装目录,然后使用`ls -l`查看目录内容。运行`bin/nutch`命令,如果没有错误提示,说明Nutch已经成功安装。 8. **Nutch的配置**:安装...
下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...
2. **JDK**:Java Development Kit,用于支持Nutch运行。 3. **Tomcat**:Web服务器,用于部署Nutch的Web界面。 4. **Nutch**:核心组件。 #### 三、安装Cygwin 1. **下载Cygwin**: - 访问Cygwin官网 ...
【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...
解压后,需要修改nutch-site.xml文件以配置Nutch运行时的相关参数,例如配置抓取的用户代理名称: ```xml <name>http.agent.name</name> <value>MySearch ``` 还可以配置抓取的起始URLs: ```xml <name>urlfile *...
安装完成后,在Nutch的根目录下运行`bin/nutch`命令。如果显示出Nutch命令脚本的帮助文档,说明Nutch已成功安装。 **4. 网络爬行** Nutch的网络爬行分为内部网爬行和全网爬行。 **4.1 内部网爬行** 内部网爬行...
本文将详细探讨提高Nutch运行效率的原理与方法。 首先,我们要理解Nutch的运行过程。Nutch主要由四个主要阶段组成:抓取(Crawling)、解析(Parsing)、索引(Indexing)和搜索(Searching)。每个阶段都可能成为...
本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...
在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...
### Nutch配置与安装知识点详解 #### 一、Nutch简介 Nutch是一款开源的Web爬虫项目,基于Apache Hadoop构建,能够抓取、处理和索引互联网上的信息。Nutch提供了高度可定制化的配置选项,使得用户可以根据自己的需求...
【Nutch安装配置】是关于开源搜索引擎项目Nutch的详细操作流程,主要涉及源码编译、环境搭建和系统配置等内容。Nutch是一款基于Java的搜索引擎框架,常用于大数据环境下的网页抓取、分析和索引。在进行Nutch安装配置...
在配置Nutch运行环境时,需要注意兼容性和版本匹配,确保所有依赖库和软件都是与Nutch版本相匹配的。此外,保持良好的编程习惯,定期更新依赖,以及熟悉Hadoop和Java的相关知识,都将有助于更高效地进行Nutch的开发...
### Nutch 在 Windows 下的安装与配置 #### 一、背景与目的 随着网络的不断发展,搜索引擎成为人们获取信息的重要工具。Nutch 是一个开源的网络爬虫项目,旨在为用户提供一套完整的信息检索解决方案。虽然原本有...
在配置Nutch之前,首先确保已安装Java Development Kit (JDK)。这里推荐使用JDK 1.6。下载地址:...
### Nutch 1.4 在 Windows 下的安装与配置知识点详解 #### 一、Nutch 简介 - **定义**: Apache Nutch 是一款基于 Java 的开源网页爬虫项目,能够自动抓取互联网上的网页及其内部链接,并对其进行索引处理。 - **...
1. **环境准备**: 安装Java运行环境(JRE或JDK),确保系统满足Lucene和Nutch的最低需求。 2. **获取源码**: 从Apache官方仓库下载Lucene和Nutch的最新版本。 3. **构建项目**: 使用Maven或Gradle等构建工具编译源...
在使用Nutch之前,你需要配置Nutch的运行环境,包括安装Java、设置Hadoop(如果需要分布式爬取)、下载和编译Nutch源代码。还需要配置Nutch的`conf/nutch-site.xml`文件,指定抓取策略、存储路径、爬虫范围等参数。 ...
- 运行Nutch的基本命令,如抓取种子URL (`bin/nutch inject`), 分析网页 (`bin/nutch fetch`), 解析内容 (`bin/nutch parse`), 更新数据库 (`bin/nutch updatedb`),生成索引 (`bin/nutch index`). 5. **Nutch 与 ...