`

琐碎的学习——nutch安装过程

 
阅读更多

http://wiki.apache.org/nutch/NutchTutorial

 

Apache Nutch是一个Java实现的开源的web爬虫,通过它我们可以自动搜集网页链接,减少大量的维护工作,例如检测坏链接。对抓取过的网页创建一个拷贝(Apache Solr的工作)Solr是一个开源全文索引搜索框架,通过solr,可以搜索nutch抓取的网页。nutch和solr的结合也是很简单直观

 

安装

 下载解压apache-nutch-1.X-bin.zip

 运行bin/nutch看到Usage: nutch COMMAND

 

 bin/nutch crawl urls -dir crawl -depth 3 -topN 5
	-dir 存放crawl的文件夹
	-threads 并发抓取网页的线程数目
	-depth	从root page链接深度
	-topN	每一层抓取的网页数目

简单的操作过程

 

 bin/nutch crawl urls -solr http://localhost:8983/solr/ -depth 3 -topN 5

 将抓取下来的网页生成索引

 

 Nutch数据由下面几个数据组成

1,crawldb,存放所有nutch需要抓取和已经抓取的url

2,link数据库,存放已知的urls之间的链接关系

3,一组segment,每个segment由一组urls组成,包含以下子文件夹

a,crawl_generate 需要抓取的urls

b,crawl_fetch 包含正在抓取url的状态

c,content 包含每个url获取到的文本流信息

d,parse_text 包含每个url解析过的文本

e,parse_data 包含解析到的outlinks以及metadata信息

f,crawl_parse 包含outlink URLS,用于更新crawldb

 

拆分为下面几个步骤

 

A,抓取网页

 

1,seeding the crawldb with a list of URLS

a,从DMOZ数据库中获取 (见手册)

b,从一个初始seed list获取 bin/nutch inject crawl/crawldb urls

编辑conf/nutch-site.xml

 

			<configuration>
				<property>
					<name>http.agent.name</name>
					<value>My Nutch Spider</value>
				</property>
			</configuration>

 

 			mkdir -p urls
			cd urls
			touch seed.txt
			vi seed.txt
				(ie: http://nutch.apache.org/)

 

2,fetching

从crawl/crawldb中创建需要抓取的list 

 

		bin/nutch generate crawl/crawldb crawl/segments

(生成一个以创建时间为名称的文件夹)

 

		s1=`ls -d crawl/segments/2* | tail -1`
		echo $s1   // "crawl/segments/20130105111821"
		bin/nutch fetch $s1
		bin/nutch parse $s1

然后用抓到的数据更新crawldb

 

		bin/nutch updatedb crawl/crawldb $1

这时crawldb就包含了初始设定的url和后来发现的一些url

 

		bin/nutch generate crawl/crawldb crawl/segments -topN 1000

这样,就抓去了1000个网页,然后来索引它们

 

3,invertlinks(反转链接)

 

		bin/nutch invertlinks crawl/linkdb -dir crawl/segments

 

B,搭建solr用于搜索

 

下载apache-solr-3.x.x.zip解压 

cd example

java -jar start.jar

 

检查下面两个链接能否打开

http://localhost:8983/solr/admin/

http://localhost:8983/solr/admin/stats.jsp

 

C,结合solr和nutch

cp apache-nutch-1.6/conf/schema.xml apache-solr-3.6.0/example/solr/conf/

	java -jar start.jar
	//索引
	bin/nutch solrindex http://127.0.0.1:8983/solr/ crawl/crawldb -linkdb crawl/linkdb crawl/segments/*

然后可以访问上面的两个网页进行搜索了

分享到:
评论

相关推荐

    nutch2.2.1安装步骤.docx

    下面我们将详细探讨如何在 Linux 系统上安装这些组件以及配置 Nutch。 首先,你需要下载以下软件: 1. apache-ant-1.10.5-bin.tar.gz:Ant 是一个 Java 编写的构建工具,用于自动化构建过程,如编译、打包和测试。 ...

    nutch的安装方法,好用

    ### Nutch 的安装方法详解 #### 一、前言 Nutch是一款开源的网络爬虫项目,基于Hadoop实现,可以抓取整个互联网,并且能够根据网页内容进行索引和检索。本文将详细介绍如何在Windows环境下安装配置Nutch,使初学者...

    windows下nutch的安装.pdf

    在介绍Windows下Nutch的安装过程之前,首先需要了解Nutch和Cygwin这两个工具的基本概念和作用。Nutch是一个开源的Web搜索引擎框架,基于Java编写,它使用Lucene作为搜索引擎核心。Nutch能够抓取网站并建立索引,实现...

    关于Nutch的安装

    【Nutch安装详解】 Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并构建搜索引擎。本文将详细介绍如何安装Nutch version 0.8。 **1. 安装前提** 在开始Nutch的安装前,需要确保满足以下硬件和软件条件...

    Nutch中文教程nutcher.zip

    nutcher致力于为nutch提供一个较新的中文教程和文档,供开发者学习。 github地址: https://github.com/CrawlScript/nutcher 目录: Nutch教程——导入Nutch工程,执行完整爬取 ...

    nutch2.3.1安装文档教程

    在安装 Nutch 之前,首先需要确保环境中已经安装了 Apache Ant 工具,因为 Nutch 的构建过程依赖于 Ant。以下是具体步骤: 1. **下载 ant**: - 访问 ant 官网:[http://archive.apache.org/dist/ant/binaries/]...

    nutch安装开发环境的配置

    在安装和配置 Nutch 开发环境时,可能会遇到各种问题,以下是对这些问题的详细解答。 首先,确保你已经下载了 Nutch 的正确版本。Nutch 的官方网站可能只提供最新的稳定版本,如 1.6 或 2.1。如果需要其他版本,...

    Nutch 安装与配置文档

    【Nutch 安装与配置】Nutch 是一个开源的搜索引擎项目,主要负责网页抓取、索引和搜索。在Windows环境下,为了运行Nutch,我们需要先安装Cygwin,这是一个提供Unix-like环境的工具,使得Windows用户可以执行类似于...

    Apache Nutch 1.7 在windows和Linux下的安装

    本文将详细介绍 Apache Nutch 1.7 在 Windows 和 Linux 下的安装过程,包括安装前的准备工作、安装 Cygwin、安装 Nutch 1.7、测试 Nutch 1.7 以及与 Solr 结合使用等内容。 1. 准备工作 在安装 Apache Nutch 1.7 ...

    Nutch安装配置

    9. **日志监控**:在运行过程中,Nutch会产生大量的日志文件,通过分析这些日志可以了解抓取过程中的错误和警告,以便进行调试。 10. **扩展和优化**:Nutch支持插件机制,可以根据需求编写自己的插件,例如自定义...

    分享一个Nutch入门学习的资料

    标题中的“Nutch入门学习”指的是Apache Nutch,这是一个开源的网络爬虫项目,用于抓取Web内容并建立搜索引擎。Nutch是大数据处理框架Hadoop的一个重要组成部分,它使用Hadoop进行分布式数据存储和处理。Nutch的学习...

    Apache Nutch 1.7 学习总结

    **Apache Nutch 1.7 学习总结** Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并进行索引,为搜索引擎提供数据基础。Nutch 1.7 版本是其稳定的一个分支,适用于学习和实际项目应用。本文将详细...

    nutch安装在windows下配置

    本篇文章将详细介绍在 Windows XP SP2 环境下安装与配置 Nutch 的全过程,以便更好地理解和掌握搜索引擎技术。 #### 二、环境准备 为了确保 Nutch 能够正常运行,需要准备以下环境: 1. **JDK (Java Development ...

    nutch帮助文档;nutch学习 入门

    本篇将深入探讨Nutch的基本概念、功能、架构以及如何入门学习。 1. **Nutch简介** Nutch是一个高度可扩展的开源搜索引擎,它提供了网页抓取、解析、过滤、索引和搜索等功能。Nutch最初设计的目标是创建一个与商业...

Global site tag (gtag.js) - Google Analytics