Heritrix源码分析(四) 各个类说明(二)

guoyunsky

浏览: 864011 次
性别:
来自: 上海

最近访客更多访客>>

sdzhaoweiji

hywa

chen88358323

jinky2004

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Heritrix源码分析
浏览量：208143

: SQL的MapReduce...
浏览量：0

文章分类

社区版块

存档分类

博客分类：

搜索引擎-爬虫-Heritrix

配置管理 Solr QQ lucene JavaScript

本博客属原创文章,欢迎转载！转载请务必注明出处:http://guoyunsky.iteye.com/blog/632191

欢迎加入Heritrix群(QQ)：109148319

9.org.archive.crawler.fetcher

序号	类	说明
1	FetchDNS	获取DNS数据,如IP
2	FetchFTP	获取FTP数据
3	FetchHTTP	获取HTTP数据
4	HeritrixHttpMethodRetryHandler	HTTP重试处理器,重新去连接HTTP

10.org.archive.crawler.framework

序号	类	说明
1	AbstractTracker	统计器,统计抓取情况,父类，具体统计由子类实现
2	AlertManager	UI界面消息管理器,给用户显示爬虫相关消息，如一些异常情况
3	Checkpointer	备份器,定时备份Heritrix相关数据,如日志、BDB文件等
4	CrawlController	控制器,控制整个爬虫的启动、暂停、停止等,Heritrix的核心类
5	CrawlScope	URL范围管理器,如种子、哪些URL符合抓取哪些URL不符合抓取
6	Filter	过滤器,决定哪些URL可以抓取哪些不可以,父类,具体由子类实现
7	Frontier	调度器,对进来的URL进行调度，使其在接来下可以抓取
8	Processor	处理器,一个URL由不同的处理器(组件)合作完成,这个为处理器父类,不同的组件有不同的实现
9	ProcessorChain	处理器链,包含相同类型的处理器,如抽取URL的时候有从Html抽取的ExtractorHTML，从JavaScript抽取的ExtractorJs
10	ProcessorChainList	处理器链集合,包含多个处理器链,每个URL都会有这样一个处理器集合,使得先从该集合中获取处理器链,然后再从处理器链中获取每个处理器,最后让每个处理器都做他们的处理，完成整个抓取
11	Scoper	范围管理器,验证一个URL是否在用户配置(从order.xml中获取)的范围
12	StatisticsTracking	跟踪统计器,主要统计抓取情况,如宽带占用、抓取多少URL、抓取速度等，贯穿整个爬虫的运行
13	ToePool	线程池,用于管理爬虫线程
14	ToeThread	爬虫线程,代表着一个抓取,Heritrix的核心类,贯穿整个爬虫的运行，接下来会重点分析
15	WriterPoolProcessor	写处理器管理池,用于管理多个写处理器,可以在分布式中使用

11.org.archive.crawler.frontier

序号	类	说明
1	AbstractFrontier	调度器基本实现类,Heritrix最复杂的地方之一，接下来会重点分析
2	BdbFrontier	BDB调度器,用BDB数据库去管理所有的URL,如保存哪些待抓取的URL，哪些已经抓取的URL,Heritrix最复杂的地方之一，接下来会重点分析
3	BdbMultipleWorkQueues	管理着所有的队列,所有的队列数据保存在BDB数据库中.Heritrix最复杂的地方之一，接下来会重点分析
4	BdbWorkQueue	抓取队列由BDB存储管理,相同classkey的URL为一个队列.classkey由用户配置决定，Heritrix默认是相同host的URL就为一个队列.Heritrix最复杂的地方之一，接下来会重点分析
5	FrontierJournal	调度器记录管理,记录调度器的每一次运行情况,如插入URL，插入失败URL等
6	HostnameQueueAssignmentPolicy	URL ClassKey获得策略,Heritrix的默认策略，通过域名来获得URL的class key。然后相同的classkey存放相同的队列
7	IPQueueAssignmentPolicy	URL ClassKey获得策略,这个策略是通过IP来获得URL的class key
8	QueueAssignmentPolicy	URL ClassKey获得策略，该类是抽象类,不同的策略由不同的子类实现，如根据域名、IP等，用户可以自己扩展
9	RecoveryJournal	管理着/logs/recover.gz，该文件记录所有的URL抓取情况，如抓取成功、失败都有不同的对应格式。该文件主要用于下次Heritrix恢复，如Heritrix异常中断重新启动Heritrix的话又会重新抓取，而如果基于该文件启动的话则会避免这个问题，同时对于上次异常中断而来不及抓取的URL都会优先抓取
10	RecyclingSerialBinding	给每个线程分配的数据输出流管理器,里面用ThreadLocal来管理每个线程的数据输出流，如此可以节省大量重复序列化
11	WorkQueue	代表着一个队列,抽象类,会有不同的子类实现，如由BDB存储数据的BdbWorkQueue,Heritrix最复杂的地方之一，接下来会重点分析
12	WorkQueueFrontier	队列调度器,管理着所有的队列，里面用不同的类型管理着不同的队列，如不在活动状态队列：Queue<String> inactiveQueues.可以说是Heritrix中最为复杂最为关键的类,接下来会重重点分析

更多技术文章、感悟、分享、勾搭，请用微信扫描:

5
顶

0
踩

分享到：

Heritrix源码分析(五) 如何让Heritrix ... | Heritrix源码分析(四) 各个类说明(一)

2010-04-04 11:34
浏览 7737
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

heritrix3.2源码: Heritrix 3.2 源码的分析和理解有助于开发者深入掌握爬虫技术，定制自己的爬虫解决方案。首先，让我们了解一下Heritrix 3.2 的核心特性： 1. **模块化设计**：Heritrix 3.2 采用组件化的架构，使得不同的爬取功能...

Luncene2.0+Heritrix开发自己的搜索引擎01(源码): 在构建一个自定义搜索引擎的过程中，Luncene 2.0 和 Heritrix 是两个关键的组件。Luncene 是一个流行的全文检索库，而 Heritrix 是一款强大的网络抓取工具，它们共同为搜索引擎的搭建提供了坚实的基础。下面将详细...

Heritrix用户手册: 4. **Heritrix配置**：详细解释了如何配置Heritrix的各个方面，如爬取范围、存储位置、网络连接参数等，通常涉及到配置文件的修改。 5. **运行Heritrix**：指导用户如何启动和监控Heritrix的运行状态，包括通过...

vue3 访问通义千问聊天代码例子: vue3 访问通义千问聊天代码例子

基于Python的Flask-vue基于Hadoop的智慧校园数据共享平台实现源码-演示视频.zip: 基于Python的Flask-vue基于Hadoop的智慧校园数据共享平台实现源码-演示视频项目关键技术开发工具：Pycharm 编程语言: python 数据库: MySQL5.7+ 后端技术：Flask 前端技术：HTML 关键技术：HTML、MYSQL、Python 数据库工具：Navicat、SQLyog

C#调用Ni板卡进行实现采集任务(模拟量输入输出)示例1: 【实验1】：读取一次AI0通道数值【实验2】：一次读取AI0通道多个数值【实验3】：单次模拟量输出【实验4】：连续模拟量输出（输出一个正弦曲线）

无人船的Smith-PID跟踪控制方法研究及实现：融合传统与最优PID策略的LOS曲线跟踪资料,基于无人船Smith-PID改进: 无人船的Smith-PID跟踪控制方法研究及实现：融合传统与最优PID策略的LOS曲线跟踪资料,基于无人船Smith-PID改进跟踪控制技术及其LOS曲线跟踪方法研究资料,基于无人船的smith-pid跟踪控制资料。首先，针对pid进行了改进，有传统pid，最优pid和基于smith的pid三种控制方式。然后还在smithpid基础上设计了LOS的曲线跟踪方法。（有对应参考文献）。有意者可直接联系，参考学习资料。 python语言。 ,基于无人船的Smith-PID跟踪控制; PID改进(传统PID、最优PID、基于Smith的PID); Smith-PID曲线跟踪方法; 参考学习资料; Python语言。,基于无人船的Smith-PID优化跟踪控制资料

自研船舶电力推进系统MATLAB仿真报告：从柴油机+同步发电机到异步电机直接转矩控制的全面模拟与实践,船舶电力推进系统自搭MATLAB仿真报告：从柴油机同步发电机到异步电机直接转矩控制的完整过程与参: 自研船舶电力推进系统MATLAB仿真报告：从柴油机+同步发电机到异步电机直接转矩控制的全面模拟与实践,《船舶电力推进系统自搭MATLAB仿真报告：从柴油机同步发电机到异步电机直接转矩控制的完整过程与参数配置详解》,自己搭建的船舶电力推进系统（船舶电力推进自动控制）完全自搭MATLAB仿真，可适度，含对应27页正文的中文报告，稀缺资源，仿真包括船舶电站，变流系统和异步电机直接转矩控制，放心用吧。三个文件逐层递进柴油机+同步发电机（船舶电站）柴油机+同步发电机+不控整流全桥逆变柴油机+同步发电机+变流模块+异步电机直接转矩控制所有参数都是配好的，最大负载参考变流系统所带负载两倍，再大柴油机和同步发电机参数就不匹配了，有能力可以自己调 ,核心关键词：船舶电力推进系统; MATLAB仿真; 船舶电站; 变流系统; 异步电机直接转矩控制; 柴油机; 同步发电机; 不控整流全桥逆变; 参数配比。,《船舶电力推进系统MATLAB仿真报告》

西门子博图WinCC V15自动化系统项目实战：多服务器客户端下的PID DCS闭环控制及参数调整实战指南,西门子博图WinCC V15自动化系统项目实战：多服务器客户端下的PID DCS闭环控制及参: 西门子博图WinCC V15自动化系统项目实战：多服务器客户端下的PID DCS闭环控制及参数调整实战指南,西门子博图WinCC V15自动化系统项目实战：多服务器客户端下的PID DCS闭环控制及参数调整实战指南,西门子博图WinCC V 15大型自动化系统项目，包含多台服务器客户端项目，系统采用安全1516F -3PN DP 外挂多台精智面板，1200PLC ET200SP 变频器对整个工艺过程PID DCS 闭环过程控制，如何调整温度压力流量液位等参数，实用工程项目案例 ,西门子博图WinCC V 15; 大型自动化系统; 多台服务器客户端; 安全外挂; 精智面板; 1200PLC ET200SP; 变频器; PID DCS; 闭环过程控制; 温度压力流量液位调整; 工程项目案例,西门子博图WinCC V15大型项目：多服务器客户端的PID DCS闭环控制与实用参数调整

计算机网络资源全解析: 硬件、软件、协议及安全机制详解与应用: 内容概要：本文详尽介绍了计算机网络相关资源及其各方面构成要素，首先阐述了硬件层面的各种传输媒介和设备如双绞线、同轴电缆、光纤以及台式电脑、笔记本、大型计算机等设备，还包括网络互联所需的各类组件如网卡、交换机、路由器等。其次探讨了多种操作系统的特性和主要功能，以及各类通讯和支持应用程序的概述，涵盖浏览器、图像和视频编辑等常用软件。再深入讨论了多种常见网络协议如TCP、UDP、HTTP等的功能特性。最后还提到了确保网络安全运行的重要措施和工具如MIB、SNMP以及防火墙、入侵检测系统等。并且简要提到计算机网络在不同的应用环境，从局域网到移动网络。适合人群：所有对计算机网络技术感兴趣的初学者和希望深入了解各个组成成分的技术人员. 使用场景及目标：为用户提供计算机网络资源全面而系统的认识，帮助他们建立对于该领域的理论和技术的扎实认知基础，提高在实际环境中识别配置及维护计算机网络系统的能力.

【GPS北斗定位】基于matlab卡尔曼滤波KF北斗GPS单模和双模定位比较【含Matlab源码 10974期】.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

ABAQUS中隧道结构模型的无限元应用：超声激励源的施加方法、3D无限元吸收边界的添加技巧、模型结果精确性校核流程及教学视频与CAE、INP文件解析,ABAQUS隧道模型中3D无限元吸收边界的应用：超: ABAQUS中隧道结构模型的无限元应用：超声激励源的施加方法、3D无限元吸收边界的添加技巧、模型结果精确性校核流程及教学视频与CAE、INP文件解析,ABAQUS隧道模型中3D无限元吸收边界的应用：超声激励源的施加与模型结果精确性校核的实践教程,ABAQUS无限元吸收边界，abaqus隧道无限元，1.超声激励源施加;2.3D无限元吸收边界添加方法；3.模型结果精确性校核；4.提供教学视频，cae、inp文件。 ,ABAQUS无限元吸收边界；ABAQUS隧道无限元；超声激励源施加；3D无限元吸收边界添加；模型结果精确性校核；CAE和INP文件。,ABAQUS中超声激励下无限元吸收边界设置及模型精度验证教程

【SLAM】基于matlab扩展卡尔曼滤波器EKF同步定位与建图SLAM【含Matlab源码 10978期】复现.mp4: 海神之光上传的视频是由对应的完整代码运行得来的，完整代码皆可运行，亲测可用，适合小白； 1、从视频里可见完整代码的内容主函数：main.m；调用函数：其他m文件；无需运行运行结果效果图； 2、代码运行版本 Matlab 2019b；若运行有误，根据提示修改；若不会，私信博主； 3、运行操作步骤步骤一：将所有文件放到Matlab的当前文件夹中；步骤二：双击打开main.m文件；步骤三：点击运行，等程序运行完得到结果； 4、仿真咨询如需其他服务，可私信博主； 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

git自用lllllllllllllllllll: git自用lllllllllllllllllll

【Django小白项目】参照本，包含python、HTML、Django: 本资源与文章【Django小白项目】为一体，此为已成功项目，供给给Django初学者做参考，有不会的问题可以私信我噢~

C++矩阵运算库matrix: 使用一维数据表示向量和二维矩阵，支持常用运算。

基于STM32的宠物自动喂食器系统设计.pdf: 1、以上文章可用于参考，请勿直接抄袭，学习、当作参考文献可以，主张借鉴学习 2、资源本身不含对应项目代码，如需完整项目源码，请私信博主获取

基于多目标粒子群优化算法（MOPSO）的微电网多目标经济运行分析与优化策略考虑响应侧响应的协同调度策略,基于多目标粒子群优化算法（MOPSO）的微电网经济调度优化：含风光储荷一体化模型与需求侧响应策略: 基于多目标粒子群优化算法（MOPSO）的微电网多目标经济运行分析与优化策略考虑响应侧响应的协同调度策略,基于多目标粒子群优化算法（MOPSO）的微电网经济调度优化：含风光储荷一体化模型与需求侧响应策略,考虑需求侧响应的微电网多目标经济运行建立了含风光储荷的微电网模型，以发电侧成本(包括风光储以及电网的购电成本)和负荷侧成本最小为目标，考虑功率平衡以及储能SOC约束，建立了多目标优化模型，通过分时电价引导负荷需求侧响应，得到可削减负荷量，同时求解模型，得到风光储以及电网的运行计划。这段代码是一个使用多目标粒子群优化算法（MOPSO）解决问题的程序。下面我将对程序进行详细的分析和解释。首先，程序的目标是通过优化算法来解决一个多目标优化问题。程序中使用的优化算法是多目标粒子群优化算法（MOPSO），该算法通过迭代更新粒子的位置和速度来搜索最优解。程序的主要功能是对能源系统进行优化调度，包括光伏发电、风力发电、储能和电网供电。程序的目标是最小化能源系统的成本，并满足负荷需求。程序的主要思路是使用粒子群优化算法来搜索最优解。程序中定义了一个粒子类（Particle），每个粒子代

data.gov.sg geojson部分项目整理: data.gov.sg geojson部分项目整理

最近访客 更多访客>>

博主相关

博客专栏

文章分类

社区版块

存档分类

最新评论

Heritrix源码分析(四) 各个类说明(二)

评论

发表评论

相关推荐

付费阅读的探索-在淘宝上卖文章

Heritrix3.1.1 新特性,新功能

Heritrix3.0教程(六) 载入种子的四种方式

Heritrix3.0教程(五) 配置文件crawler-beans.cxml介绍

Heritrix3.0教程(四) CrawlJob控制台界面(一) 大概介绍

Heritrix3.0教程(三) 开始抓取

Heritrix3.0教程(二) 下载安装与运行

Heritrix3.0教程(一) Heritrix 3.0新特性新功能介绍

基于Berkeley DB实现的持久化队列

Heritrix源码分析(十五) 各种问题总结

Heritrix源码分析(十四) 如何让Heritrix不间断的抓取

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

Heritrix源码分析(十二) Heritrix的控制中心(大脑)CrawlController(一)

Heritrix源码分析(十一) Heritrix中的URL--CandidateURI和CrawlURI以及如何增加自己的属性

Heritrix源码分析(十) Heritrix中的Http Status Code(Http状态码)

Heritrix源码分析(九) Heritrix的二次抓取以及如何让Heritrix抓取你不想抓取的URL

Heritrix源码分析(八) Heritrix8个处理器(Processor)介绍

Heritrix源码分析(七) Heritrix总体介绍

Heritrix源码分析(六) Heritrix的文件结构分析

Heritrix源码分析(五) 如何让Heritrix在Ecplise等IDE下编程启动

最近访客更多访客>>