Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度 - liuxinglanyue - ITeye博客

`

liuxinglanyue

浏览: 568084 次
性别:
来自: 杭州

最近访客更多访客>>

hui963966800

lhc98

guoshun0321

kidding87

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

2011-02 ( 10)
2011-01 ( 22)
2010-12 ( 165)
更多存档...

最新评论

hanjiyun：本人水平还有待提高，进步空间很大，看这些文章给我有很大的指导作 ...
JVM的内存管理 Ⅲ
liuxinglanyue：四年后的自己：这种方法不靠谱。使用javaagent的方式 ...
计算Java对象占用内存空间的大小(对于32位虚拟机而言)
jaysoncn：附件在哪里啊test.NoCertificationHttps ...
使用HttpClient过程中常见的一些问题
231fuchenxi：你好，有redis,memlink,mysql的测试代码吗？可 ...
MemLink 性能测试
guyue1015： [color=orange][/color][size=lar ...
JAVA同步机制

Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

博客分类：

Heritrix

阅读更多

http://guoyunsky.iteye.com/blog/629891

Heritrix的order.xml分了很多组件，可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多，这里首先从Heritrix自身着手吧，修改order.xml的一些参数其实也可以达到这一目的.

下面就列出各个参数、说明和理想值

序号	配置名	理想值	说明
1	<long name="max-bytes-download">0</long>	0	最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制
2	<long name="max-document-download">0</long>	0	最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制
3	<long name="max-time-sec">0</long>	3	抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制
4	<integer name="max-toe-threads">3</integer>	50	抓取的线程数,表示有多少个线程去抓取,一般50足够了
5	<float name="delay-factor">4.0</float>	1.0	如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值
6	<integer name="max-delay-ms">20000</integer>	2000	队列的最大延迟时间,单位为毫秒
7	<integer name="min-delay-ms">2000</integer>	0	队列的最小延迟时间,单位为毫秒
8	<integer name="max-retries">30</integer>	5	URL抓取失败可以重试的次数，重试次数越少越好
9	<integer name="total-bandwidth-usage-KB-sec">0</integer>	0	总的抓取速度(KB/秒)限制,0表示没有限制
10	<integer name="max-per-host-bandwidth-usage-KB-sec">0</integer>	0	每个域名抓取速度(KB/S)限制，0表示没有限制
11	<integer name="target-ready-backlog">50</integer>	200	准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取
12	<integer name="ip-validity-duration-seconds">21600</integer>	0	DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS
13	<integer name="robot-validity-duration-seconds">86400</integer>	0	爬虫协议(robots.txt)有效时间，超过这个时间则要重新去读取robots.txt

分享到：

Heritrix源码分析(四) 各个类说明(一) | Heritrix源码分析(二) 配置文件order.xml ...

2010-11-21 10:53
浏览 1265
评论(0)
分类:互联网
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Heritrix3.0教程使用入门(三) 配置文件crawler-beans.cxml介绍.docx: 相较于Heritrix 1.x的`order.xml`，`crawler-beans.cxml` 采用了Spring框架进行管理，以bean的形式定义了各种组件，提高了配置的灵活性和可维护性。 1. **simpleOverrides**：这个bean用于设置基本的爬取任务信息，...

Heritrix源码分析: 20. `org.archive.crawler.settings`：管理配置文件`order.xml`，这是Heritrix的配置中心，定义了爬虫的行为和策略。通过对这些包的分析，我们可以看到Heritrix是一个高度模块化和可定制的爬虫。每个组件都有明确...

heritrix正确完整的配置heritrix正确完整的配置: 2. **配置文件结构**: Heritrix的配置基于XML文件，主要包含`job.xml`（作业配置）、`engine.xml`（引擎配置）和各种模块的配置文件。理解这些文件的结构和作用是配置Heritrix的基础。 3. **作业配置** (`job.xml`)...

heritrix的安装和配置[归纳].pdf: ### Heritrix的安装与配置详解 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具，由互联网档案馆(Internet ...Heritrix是一款非常强大的工具，通过合理的配置可以有效地帮助用户进行网页数据的采集与分析。

Heritrix源码分析11-15.pdf: ### Heritrix源码分析（十一）：Heritrix中的URL——CandidateURI和CrawlURI #### 一、概述 Heritrix是一款开源的网络爬虫工具，它主要用于归档和备份网页数据。Heritrix的设计非常灵活且可扩展性强，能够支持多种...

heritrix源码: 3. **配置与策略**：Heritrix通过XML配置文件定义爬取行为，如设置种子URL、选择爬取策略、过滤规则等。策略可以定制，比如深度优先、广度优先、基于链接关系的爬取等。 4. **链接管理**：Heritrix使用Crawler-...

Heritrix1.14.4(含源码包): 3. **配置文件**：Heritrix的配置文件是XML格式的，用于定义爬虫的行为，如爬取深度、并发度、重试策略、排除规则等。你需要根据实际需求修改这些配置来定制爬虫行为。 4. **源码编译与运行**：下载Heritrix 1.14.4...

heritrix-3.4.0-SNAPSHOT-dist.zip: - `conf`子目录：包含默认的配置文件，用户可以根据需求修改这些文件以定制爬虫行为。 - `lib`子目录：包含Heritrix运行所需的第三方库文件（jar包）。 - `webapps`子目录：可能包含Heritrix的Web管理界面，用户可以...

heritrix3.2源码: 2. **可配置性**：Heritrix 提供了丰富的配置选项，用户可以通过XML配置文件来定义爬取策略，如设置并发度、爬取深度、URL黑白名单等。 3. **多线程处理**：Heritrix 使用多线程并行处理请求，提高了爬取效率。 4. *...

heritrix下载及配置: Heritrix是一款开源的网络爬虫工具，由Internet Archive维护，用于抓取互联网上的网页以进行数据存档或分析。本篇文章将详细讲解如何下载和配置Heritrix。首先，Heritrix的下载过程非常简单。你可以访问...

基于Heritrix的主题网络爬虫设计与实现.pdf: - **CrawlOrder**：抓取任务的起点，可以通过配置文件来设定抓取策略。 - **CrawlController**：整个抓取过程的核心组件，负责协调其他组件的工作。 - **Frontier**：用于存储待抓取的URL列表，并根据特定算法决定下...

Heritrix1.14.3配置流程[参考].pdf: 本文将详细介绍Heritrix 1.14.3版本的配置流程，包括安装准备、环境搭建、配置文件调整等方面，帮助读者顺利部署和运行Heritrix。 #### 二、准备工作 1. **下载Heritrix** 首先，前往Heritrix的官方下载页面...

heritrix-1.14.2.zip: 这些配置文件可以设置爬虫的行为，如设定爬行速度、定义种子URL、选择要抓取的文件类型、排除特定的URL模式等。此外，Heritrix还提供了丰富的插件系统，允许开发者根据需求添加自定义的爬行逻辑和数据处理模块。 ...

heritrix 的详细配置与使用资料: 在配置阶段，你需要修改 heritrix/conf/heritrix.properties 文件。找到 "heritrix.cmdline.admin=" 行，将其改为 "heritrix.cmdline.admin=admin:admin"，这会设置默认的管理员账号和密码。最后，你需要运行项目...

配置Heritrix及常见问题解决: Heritrix的配置主要通过XML文件完成，包括`job.xml`、`profile.xml`等。`job.xml`定义了工作流，`profile.xml`则包含爬虫的行为设置，如速率限制、重试策略等。 5. **常见问题及解决**： - **速率限制**：若发现...

heritrix: 每种方式都会生成一个名为`order.xml`的描述文件，记录了Heritrix运行所需的所有信息，包括处理器类、前沿类、抓取线程数、连接超时时间等。选择“With defaults”选项，Heritrix会复制默认的`order.xml`文件，该...

heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip: Heritrix提供了命令行界面，用户可以通过指定参数来配置爬虫的行为，如设定抓取范围、深度、速度等。此外，它还支持自定义的模块和策略，使得爬取过程可以按照特定的需求进行定制。 `heritrix-1.14.4-src.zip` 则...

Heritrix Eclipse下环境配置: Heritrix的设计灵活且易于扩展，支持多种自定义配置，能够满足不同场景下的数据抓取需求。本文将详细介绍如何在Eclipse集成开发环境中搭建Heritrix开发环境，以便开发者能够快速上手进行Heritrix的定制与二次开发。 ...

Global site tag (gtag.js) - Google Analytics