上午说的那个方法经过试验是不起作用的。
按照上面说的配置后开始抓取网页,发现还是单线程在ACTIVE,查看了order.xml发现还是HostNamesQueueAssignmentPolicy。(后来我才知道原来是因为我是用base one existing job创建JOB的,这样对于setting中没有提供设定的属性会继承下来,由于QUEUEASSIGNMENTPOLICY这个属性在setting中没有提供配置,所以就继承了那个existing job上的配置)看来文明的是不行了,我觉定用粗鲁的方法,没错就是该HostNamesQueueAssignmentPolicy这个类的getClassKey这个方法,结果运行确实快极了,基本上达到了我这的带宽上限。
后来发现大概抓了300多网页后就开始不抓了,我一开始觉得是不是网站把我的IP给封了,重新开始一个新的JOB后发现还是下到300多时就停了,郁闷死了,网上有人说是some of your queues have, as their topmost
items, unfetchable URIs. Certain kinds of failed-fetches go into a
slow-timeout retry-cycle, and while a URI is in this cycle, nothing else
from the same queue will be tried. This is a reasonable approach when
all URIs in a queue are subject to the same network failures, but can
cause problems if the queues are mixed, and the deeper URIs would
succeed quickly, but are stuck behind topmost URIs.
过了大概不到半小时,我又惊喜的发现又继续开始抓网页了,速度也相当快,我想应该是重试一段时间还是不能下载就放弃此uri,所以过了一段时间又恢复正常。
经过了一个多小时的下载,下了2千多的网页,理论上应该是至少5千才对,经过观察发现 seed report 抛出了 Domain prerequisite failure 这个异常,有5百多个种子没有下载成功,我在想是不是种子有点多还是怎么回事....
分享到:
相关推荐
3. **多线程处理**:Heritrix支持多线程爬取,能同时处理多个连接,提高了爬取效率,尤其是在处理大量网页时。 4. **元数据管理**:Heritrix能够收集并存储关于抓取内容的元数据,如HTTP响应头、网页编码、抓取时间...
2. **多线程处理**:Heritrix使用多线程来并行处理多个URL,提高了抓取效率。这使得它能够在短时间内处理大量网页。 3. **内容处理**:Heritrix不仅仅抓取HTML,还支持各种Web内容类型,如图片、PDF、XML等,并可以...
Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...
例如,Heritrix采用多线程设计,每个组件如fetcher、parser和archiver都在自己的线程中运行,以实现高并发性和高效能。此外,源码还可能包含详细的注释,解释了如何配置和扩展Heritrix。 在学习和使用Heritrix时,...
为了解决这个问题,可以使用如ELF哈希算法来平均分配URL到不同的队列,从而实现更有效的多线程同步。 在Heritrix系统中,爬取过程可以分为四个关键部分: 1. **Page Fetching**:这是从Frontier获取URI并处理的...
Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...
同时,Heritrix的开源性质使得它成为了教育和研究的理想工具,用户可以借此探索网络抓取的各种可能性。 总的来说,Heritrix 1.14.2是一个强大的、可定制的网络爬虫,它展示了如何利用编程语言实现大规模的数据抓取...
### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...
通过以上步骤,你可以成功地搭建起一个运行中的Heritrix实例,进一步探索其丰富的功能和可能性。不过,需要注意的是,Heritrix的配置文件和代码结构可能会随着新版本的发布而有所变化,因此在更新到新版本时,可能...
- **抓取模块**:Heritrix有多个模块,如HTTP客户端、HTML解析器和重定向处理器,它们协同工作以处理网络请求和响应。 - **存档和存储**:抓取的网页会被存储在本地,可以配置不同的存储策略,如文件系统、数据库或...
可设置工作线程数量。 d。可设置所利用的带宽的上界。 e。可在设置之后一定时间重新选择。 f。包含一些可设置的过滤机制,表达方式,URI路径深度选择等等。 Heritrix的局限: 1。单实例的爬虫,之间不能进行...
Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL发现、下载、解析、存储等。每个阶段都可以通过编写或选择合适的处理器来实现。Heritrix支持多种协议,包括HTTP、HTTPS、FTP等,并且能够处理各种MIME...
- **多线程处理**:Heritrix 使用多线程模型,高效地并发处理多个网页抓取任务。 - **内容解析**:Heritrix 支持多种网页格式,包括HTML、XML、PDF等,能解析并提取出有价值的信息。 - **存储与归档**:抓取的...
Heritrix 3.1.0 是一个强大的网络爬虫工具,主要用于抓取和存档互联网上的网页。这个最新版本的jar包包含了Heritrix的核心功能,为用户提供了一个高效的网页抓取框架。Heritrix的设计理念是模块化和可配置性,使得它...
Heritrix是一款强大的开源网络爬虫工具,专为大规模、深度网页抓取设计。这款工具由互联网档案馆(Internet Archive)开发,旨在提供灵活、可扩展的网页抓取框架,适用于学术研究、数据挖掘和历史记录保存等多种用途...
3. **多线程与并发**:Heritrix 3.2 支持多线程和并发处理,可以同时处理多个HTTP请求,提高抓取效率。通过调整线程池参数,用户可以根据网络状况和服务器负载优化抓取速度。 4. **数据存储与处理**:Heritrix 内置...