`

1.1 nutch 基本概念

阅读更多

爬行方式

nutch分为intract crawling(IC) and whole web crawling(WWC),其实这两者区别不大,主要是后者使用了step by step的方式来实现,而前者是一个crawl来处理整个procedure,同时有进行pagerank处理功能? 。当然分步进行提供了更多的灵活性(即参数可以控),也便 于观察。

 

WWC实现方式

有内置的DmozParser针对专用urls来生成seed urls;也可以使用类IC方式,提供一个url-seed plat file。

 

crawl procedure

这对于IC或WWC方式都是一样的。

inject -> [generate -> fetch -> updatedb ] -> invertlink -> [index -> dedup -> merge ]

其中粗体表明这是一个可循环的过程,即如果是depth 大于1将进行loop;蓝色表明是一个post oper:对索引进行操作。

 

crawl命令爬行参数说明

-dir 存储爬行結果目录

-depth 从root开始 进行的爬行深度

-topN 达到每个depth前截取top-scoring pages 数,即第n depth时的最大pages number

-threads 一次fetch过程中开启的并发threads

 

测试結果

1.直接查询

 bin/nutch org.apache.nutch.searcher.NutchBean <keyword> [dir-of-crawling]

其中dir是可选的,默认是crawl

bin/nutch org.apache.nutch.searcher.NutchBean 娱乐 output/163csdn/

Total hits: 770
 0 20110604220635/http://ent.163.com/
 ... 更重要 [详细] 娱乐核动力 更多 ... 得其所。 [详细] 娱 ...
 1 20110604220635/http://ent.163.com/tv/
 ... 支招 | 宋丹丹:娱乐圈就要让人 ... 把抗战题材“娱 ...
 2 20110604220635/http://ent.163.com/movie/
 ... 闻 - 体育 - NBA - 娱乐 - 财经 - 股票 - 汽 ... 易首页 > 网易娱乐 ...
 3 20110604220635/http://ent.163.com/music/
 ... 乐_网易娱乐 网易首页 - 新 ... 易首页 > 网易娱乐 > 音 ...
 4 20110604220843/http://bbs.ent.163.com/
 ... 居 欢迎访问娱乐论坛 -娱乐论坛首页 ---站 ... 娱
 5 20110604220843/http://ent.163.com/special/0003000B/moviespecials.html
 ... 页 - 新闻 - 体育 - 娱乐 - 财经 - 汽车 - 科 ... 改为@ 给网易娱 ...
 6 20110604220843/http://ent.163.com/star/
 ... 易首页 > 网易娱乐 > 明星娱乐 搜索 新闻 网 ... 改为@ 给网易 ...
 7 20110604220843/http://ent.163.com/special/00031HA6/ablumcp.html
 ... 易首页 > 网易娱乐 > 网易音乐测评室 搜索 ... 改为@ 给网易 ...
 8 20110604220843/http://ent.163.com/special/00034IG6/tvbaogao.html
 ... 页 - 新闻 - 体育 - 娱乐 - 财经 - 汽车 - 科 ... 改为@ 给网易娱 ...
 9 20110604220843/http://ent.163.com/special/00031HA5/dscb.html
 ... 页 - 新闻 - 体育 - 娱乐 - 财经 - 汽车 - 科 ... 改为@ 给网易娱 ...

 

2.使用web container来查询

将war置于container中来查询

 

 

 

 

references:

http://wiki.apache.org/nutch/NutchTutorial

http://wiki.apache.org/nutch/RunNutchInEclipse1.0

source codes

 

分享到:
评论

相关推荐

    基于Nutch 的插件系统的原理分析

    目前最新的稳定版本为Nutch-1.1(2010-10-18)。 ##### 2.2 Nutch体系结构 Nutch采用分布式文件系统HDFS(Hadoop Distributed File System)作为数据存储的基础,并利用Hadoop提供的MapReduce框架来进行数据处理。...

    云计算-基于Hadoop的云计算应用研究.pdf

    1.1 云计算基本特征 云计算具有以下关键特性: 1) 虚拟化:通过虚拟技术,硬件资源被抽象化,实现资源高效利用。 2) 弹性扩展:根据需求自动增加或减少资源。 3) 按需服务:用户可以随时获取所需的服务,无需预先...

    自己动手写网络爬虫(基本全)

    ### 知识点总结 ...涵盖了搜索引擎的基础概念、核心技术、数据获取、文档内容提取、自然语言处理以及索引库的创建和用户界面的设计等多个方面,旨在帮助读者全面了解并掌握构建一个基本搜索引擎所需的各项技能。

    Lucene开发手册

    Lucene的开发手册详尽地介绍了如何使用Lucene进行搜索引擎开发,包括下载、基本概念、核心组件的使用以及性能考量。通过学习和实践,开发者可以掌握构建高效搜索引擎的技能,将Lucene融入到自己的项目中,提升搜索...

    search engine

    了解搜索引擎的基本概念和技术对于后续深入研究至关重要。 #### 三、遍历搜索引擎技术 ##### 2.1 30分钟实现的搜索引擎 这是一个简化的示例,旨在展示搜索引擎的基本构建过程。具体步骤包括准备开发环境、编写...

    高清彩版 自己动手写搜索引擎

    本书《高清彩版 自己动手写搜索引擎》旨在帮助读者从零开始构建一个搜索引擎,不仅介绍了搜索引擎的基本概念和技术框架,还提供了实际操作指南。 #### 第1章:了解搜索引擎 - **1.1 Google神话**:首先简述了...

    Hadoop权威指南(中文版)2015上传.rar

    基本文件系统操作 Hadoop文件系统 接口 Java接口 从Hadoop URL中读取数据 通过FileSystem API读取数据 写入数据 目录 查询文件系统 删除数据 数据流 文件读取剖析 文件写入剖析 一致模型 通过 distcp并行拷贝 保持 ...

    Hadoop权威指南 第二版(中文版)

     基本文件系统操作  Hadoop文件系统  接口  Java接口  从Hadoop URL中读取数据  通过FileSystem API读取数据  写入数据  目录  查询文件系统  删除数据  数据流  文件读取剖析  文件写入剖析  一致...

    一个专业搜索公司关于lucene+solar资料(1)

    - 本章概述了搜索引擎的基本概念和发展历程,并介绍了构建一个简单搜索引擎所需的步骤和技术要点。 #### 二、搜索引擎技术详解 **2.1 30分钟实现的搜索引擎** - **2.1.1 准备工作环境** - 安装Java开发环境。 -...

Global site tag (gtag.js) - Google Analytics