crawdb update
map :CrawlDbFilter 这个map主要是用来合并数据的
输入,fetch产生的segment目录下面的crawl_fetch 和crawl_parse 以及crawldb/current ,
key:Text value:CrawlDatum
如果设置了urlNormalizers=true 对url进行normalize
如果设置了urlFiltering=true 对url进行过滤
如果url不为空 写入
key : Text 为url value: CrawlDatum
reduce :CrawlDbReducer 主要是用来合并数据的状态的,去重复
1 如果存在多个数据 如果数据没有fetch的,去fetchtime最新的数据(没有fetch 也是有fetchtime的), 如果数据已经fetch的,也是取fetchtime最新的数据。
2 如果已经fetch 的,去的数据的 签名,元数据 ,和外链
3 db.update.additions.allowed 这里有个配置如果为false,则crawldb中不存在的url不update,如果为false,新的url插入crawldb。
4 如果url没有fetch,说明是这个数据不需要update直接写入
5 如果已经fetch,而且crawldb 也有数据,则把crawldb的数据的元数据,putfetch的数据的元数据里面
6 根据状态设置相关的值
7 设置分数,异常generatortime
8 写入
更新数据,主要是把job的输出目录设置为crawldb的current
分享到:
相关推荐
Nutch的工作流程包括多个步骤,如生成段(Segments)、迭代抓取(Fetch)、解析(Parse)、更新链接数据库(Update)、生成新的种子(Generate)、选择待抓取页面(Select)、重定向处理(Fetch)以及索引(Index)...
nutcher 是 Apache Nutch 的中文教程,在... Nutch流程控制源码详解(bin/crawl中文注释版) Nutch教程——URLNormalizer源码详解 Nutch参数配置——http.content.limit 文档截图:
### 二、Eclipse配置Nutch的步骤详解 #### 步骤1:创建Nutch项目 首先,在Eclipse中创建一个新的Java项目,选择“File > New > Project > Java project”,然后点击“Next”。在创建项目时,选择“Create project ...
Nutch各个配置项的详细说明,非常详细的说明了每一项
Nutch 是一个开源的Web爬虫项目,由Apache软件基金会维护。它被设计用来抓取互联网上的网页,并对其进行索引,以便进行后续的搜索和分析。Nutch 的爬虫数据通常包括了它在抓取过程中收集到的网页URL、网页内容、元...
Apache Nutch 是一个开源的网络爬虫框架,用于抓取互联网上的网页并生成索引,以便于搜索引擎使用。本文将详细介绍如何在Windows环境下配置Nutch 1.4,并使用Eclipse进行开发。以下是你需要知道的关键步骤: 1. **...
【Nutch 知识点详解】 Nutch 是一个开源的 Java 搜索引擎,它提供了从爬虫到搜索的全套工具,使用户能够构建自己的搜索引擎。Nutch 的主要组成部分包括两个关键角色:Crawler 和 Searcher。 1. **Crawler**: ...
【Nutch安装详解】 Nutch是一款开源的网络爬虫软件,用于抓取互联网上的网页并构建搜索引擎。本文将详细介绍如何安装Nutch version 0.8。 **1. 安装前提** 在开始Nutch的安装前,需要确保满足以下硬件和软件条件...
【知识点详解】 在Windows环境下安装Nutch涉及到多个步骤和组件,包括系统配置、软件依赖以及Nutch本身的安装和测试。以下是对这些知识点的详细说明: 1. **操作系统**:Nutch可以在Windows XP或Windows 2000+上...
**Nutch搜索引擎配置详解** Nutch是一款开源的网络爬虫软件,主要用于收集、索引和搜索互联网上的数据。它在大数据领域中占有重要地位,尤其对于构建自定义搜索引擎的项目非常实用。Nutch的设计理念是模块化,允许...
bin/nutch update bin/nutch parse bin/nutch index ``` 以上命令将生成新的抓取批次、从Web服务器获取页面、更新数据库、解析页面内容并创建索引。 **步骤九:使用Solr或Elasticsearch建立索引** Nutch可以与Solr...
### Nutch插件机制详解 #### 一、引言 Nutch是一款开源的网络爬虫项目,能够自动抓取互联网上的网页并建立索引。为了提高系统的灵活性、可扩展性和可维护性,Nutch采用了插件化的设计思路,即通过一系列可插拔的...
Nutch是Apache软件基金会开发的一款开源搜索引擎项目,主要用于抓取、索引和搜索Web内容。作为初学者,了解和掌握Nutch的相关知识是探索搜索引擎技术的第一步。本篇将深入探讨Nutch的基本概念、功能、架构以及如何...