0 0

Heritrix的processors chain过程?5

哪位知道Heritrix的processors都有哪几个,还有他们的功能。
2011年11月27日 09:15

1个答案 按时间排序 按投票排序

0 0

1. Pre-fetch processing chain
审查URI在该点处是否该被爬行。包括(DNS,robots.txt,authentication)三项。若crawling URIs没通过范围检查,则将完全阻塞
在Pre-fetch processing链包括以下processors:
 Preselector
 PreconditionEnforcer 确保crawling URI满足所有先决条件。通常包括DNS和robots.txt信息验证。
2. Fetch processing chain
该processors在链中的作用主要是负责从远程服务器获取数据。对每个protocolHeritrix应该有一个相应的processor,如FetchHTTP。
3. Extractor processing chain
URI所指向的document内容可用,则几个processors将从中取得新的links。
4. Write/index processing chain
该chain负责向archive file写数据。Heritrix用ARCWriterProcessor写ARC格式的文件。新的processors可以支持其它格式的,而且甚至可以创建索引。
5. Post-processing chain
URI总要通过这个chain,即使该URI已经被前面的processors决定不爬行。post-processing chain必须包含以下processors:
• CrawlStateUpdater
• LinksScoper
• FrontierScheduler

2011年11月27日 09:20

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    在Heritrix的使用过程中,开发者需要理解它的核心概念,如爬虫作业(Crawler Job)、种子列表(Seed List)以及各种可配置的爬取策略。Heritrix支持通过XML配置文件来定义爬取规则,包括深度限制、URL过滤、重试策略...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    heritrix爬虫安装部署

    - 生成日志记录爬取过程和状态。 4. **链接跟踪**: - 识别页面内的链接。 - 按照预定规则确定是否继续爬取该链接指向的内容。 5. **重复执行**: - 对找到的新链接重复执行上述步骤,直到达到设定的目标或资源...

    heritrix正确完整的配置heritrix正确完整的配置

    配置过程中,应根据实际需求逐步调整参数,并通过试验和错误找出最佳设置。同时,文档阅读和社区交流也是学习Heritrix配置的重要途径。记得在实践中不断测试和完善配置,以实现高效、可控的网络爬取任务。

    Heritrix(windows版)

    - **日志和报告**:Heritrix记录详细的日志,用于监控和分析爬行过程,同时提供状态报告,帮助用户了解进度和效果。 总的来说,Heritrix是一个强大的工具,它提供了丰富的配置选项和扩展能力,能满足各种复杂的网页...

    heritrix系统使用.ppt

    4. **Politeness**:这是Heritrix遵循的一种网络礼貌原则,即在抓取过程中,尊重网站的Robots协议,避免过于频繁的请求,以免对目标服务器造成过大的负担。这通过设置延迟时间和重试策略来实现。 Heritrix的灵活性...

    heritrix-1.14.2.zip

    运行过程中,Heritrix将按照配置进行网络爬行,抓取的网页会被存储在本地或者指定的存储位置。 对于学习网络爬虫技术的人来说,Heritrix提供了一个很好的平台,不仅可以了解爬虫的基本工作原理,还可以深入研究如何...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix的设计基于模块化和可扩展性,它的主要组件包括爬取管道(Crawler Pipelines)、策略(Policies)、处理器(Processors)和存储器(Archivers)。爬取管道负责管理爬取流程,从URL调度到页面解析,再到内容...

    Heritrix1.14.4(含源码包)

    Heritrix是一款开源的互联网档案爬虫工具,由...在深入了解和实践Heritrix 1.14.4的过程中,你不仅会掌握网络爬虫的基本原理和技术,还能提升Java编程和项目管理能力,为更高级的Web数据挖掘和分析打下坚实的基础。

    开发自己的搜索引擎 lucene + heritrix

    在这个过程中,Lucene 和 Heritrix 是两个非常关键的工具,它们分别在搜索引擎的构建中扮演着不同的角色。 首先,Lucene 是一个基于 Java 的开源信息检索库,它为开发者提供了一系列用于构建搜索引擎的工具和接口。...

    Heritrix搭建好的工程

    Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL发现、下载、解析、存储等。每个阶段都可以通过编写或选择合适的处理器来实现。Heritrix支持多种协议,包括HTTP、HTTPS、FTP等,并且能够处理各种MIME...

    Heritrix的安装与配置

    配置过程还包括将`src\conf\`目录下的所有文件和文件夹拖入Eclipse的`Heritrix`工程的`src`目录。`heritrix.properties`文件是Heritrix的主要配置文件,你可以在这里设置管理界面的用户名和密码,例如"admin:admin...

    heritrix-3.1.0 最新jar包

    Heritrix 3.1.0 是一个强大的网络爬虫工具,主要用于抓取和存档互联网上的网页。这个最新版本的jar包包含了Heritrix的核心功能,为用户提供了一个高效的网页抓取框架。Heritrix的设计理念是模块化和可配置性,使得它...

    很好的heritrix学习资料

    Heritrix是一款强大的开源网络爬虫工具,专为大规模、深度网页抓取设计。这款工具由互联网档案馆(Internet Archive)开发,旨在提供灵活、可扩展的网页抓取框架,适用于学术研究、数据挖掘和历史记录保存等多种用途...

    Heritrix使用详解与高级开发应用

    Heritrix是一个强大的Java开发的开源网络爬虫,主要用于从互联网上抓取各种资源。它由www.archive.org提供,以其高度的可扩展性而著称,允许开发者自定义抓取逻辑,通过扩展其内置组件来适应不同的抓取需求。本文将...

Global site tag (gtag.js) - Google Analytics