`
guoyunsky
  • 浏览: 855464 次
  • 性别: Icon_minigender_1
  • 来自: 上海
博客专栏
3d3a22a0-f00f-3227-8d03-d2bbe672af75
Heritrix源码分析
浏览量:206493
Group-logo
SQL的MapReduce...
浏览量:0
社区版块
存档分类
最新评论

Heritrix源码分析(三) 修改配置文件order.xml加快你的抓取速度

阅读更多

           本博客属原创文章,欢迎转载!转载请务必注明出处:http://guoyunsky.iteye.com/blog/629891

    欢迎加入Heritrix群(QQ):109148319

 

 

      Heritrix的order.xml分了很多组件,可以灵活的配置各个抓取参数。但很多人都关心如何使得抓取更快更久更多,这里首先从Heritrix自身着手吧,修改order.xml的一些参数其实也可以达到这一目的.

       下面就列出各个参数、说明和理想值

     

序号 配置名 理想值 说明
1 <long name="max-bytes-download">0</long> 0 最大下载字节数,就是当Heritrix抓取了多少字节后停止抓取0表示为无限制
2 <long name="max-document-download">0</long> 0 最大下载文档数,就是当Heritrix抓取了多少URL则停止抓取,0表示没有限制
3  <long name="max-time-sec">0</long>  3  抓取一个网页的最大时间(秒),超过了该时间则不抓取,0表示没有这个限制
4  <integer name="max-toe-threads">3</integer>  50  抓取的线程数,表示有多少个线程去抓取,一般50足够了
5  <float name="delay-factor">4.0</float>  1.0  如果从某个队列抓取一个URL花费N秒,则下次从该队列获取URL去抓取则要延迟N*该值
6  <integer name="max-delay-ms">20000</integer>  2000  队列的最大延迟时间,单位为毫秒
7  <integer name="min-delay-ms">2000</integer>  0  队列的最小延迟时间,单位为毫秒
8  <integer name="max-retries">30</integer>  5  URL抓取失败可以重试的次数,重试次数越少越好
9  <integer name="total-bandwidth-usage-KB-sec">0</integer>  0  总的 抓取速度(KB/秒)限制,0表示没有限制
10   <integer name="max-per-host-bandwidth-usage-KB-sec">0</integer>  0

 每个域名抓取速度(KB/S)限制,0表示没有限制

 

11 <integer name="target-ready-backlog">50</integer> 200 准备队列中待抓取的URL个数,这些URL无需经过队列等待可以立刻去抓取
12  <integer name="ip-validity-duration-seconds">21600</integer> 0 DNS有效时间(单位为秒),超过这个时间则要重新去获取DNS
13 <integer name="robot-validity-duration-seconds">86400</integer> 0 爬虫协议(robots.txt)有效时间,超过这个时间则要重新去读取robots.txt

 

更多技术文章、感悟、分享、勾搭,请用微信扫描:

7
0
分享到:
评论
2 楼 guoyunsky 2010-05-14  
fangqingan 写道
DNS的有效时间,不是应该越大越好吗??省的重新查找IP啊。。不知道这样理解对否?

的确是,但0表示不解析到DNS数据后就不再解析了...
1 楼 fangqingan 2010-05-14  
DNS的有效时间,不是应该越大越好吗??省的重新查找IP啊。。不知道这样理解对否?

相关推荐

    Heritrix源码分析

    20. `org.archive.crawler.settings`:管理配置文件`order.xml`,这是Heritrix的配置中心,定义了爬虫的行为和策略。 通过对这些包的分析,我们可以看到Heritrix是一个高度模块化和可定制的爬虫。每个组件都有明确...

    Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx

    相较于Heritrix 1.x的`order.xml`,`crawler-beans.cxml` 采用了Spring框架进行管理,以bean的形式定义了各种组件,提高了配置的灵活性和可维护性。 1. **simpleOverrides**:这个bean用于设置基本的爬取任务信息,...

    heritrix正确完整的配置heritrix正确完整的配置

    2. **配置文件结构**: Heritrix的配置基于XML文件,主要包含`job.xml`(作业配置)、`engine.xml`(引擎配置)和各种模块的配置文件。理解这些文件的结构和作用是配置Heritrix的基础。 3. **作业配置** (`job.xml`)...

    heritrix的安装和配置[归纳].pdf

    ### Heritrix的安装与配置详解 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具,由互联网档案馆(Internet ...Heritrix是一款非常强大的工具,通过合理的配置可以有效地帮助用户进行网页数据的采集与分析。

    heritrix源码

    3. **配置与策略**:Heritrix通过XML配置文件定义爬取行为,如设置种子URL、选择爬取策略、过滤规则等。策略可以定制,比如深度优先、广度优先、基于链接关系的爬取等。 4. **链接管理**:Heritrix使用Crawler-...

    Heritrix1.14.4(含源码包)

    3. **配置文件**:Heritrix的配置文件是XML格式的,用于定义爬虫的行为,如爬取深度、并发度、重试策略、排除规则等。你需要根据实际需求修改这些配置来定制爬虫行为。 4. **源码编译与运行**:下载Heritrix 1.14.4...

    heritrix-3.4.0-SNAPSHOT-dist.zip

    - `conf`子目录:包含默认的配置文件,用户可以根据需求修改这些文件以定制爬虫行为。 - `lib`子目录:包含Heritrix运行所需的第三方库文件(jar包)。 - `webapps`子目录:可能包含Heritrix的Web管理界面,用户可以...

    heritrix3.2源码

    2. **可配置性**:Heritrix 提供了丰富的配置选项,用户可以通过XML配置文件来定义爬取策略,如设置并发度、爬取深度、URL黑白名单等。 3. **多线程处理**:Heritrix 使用多线程并行处理请求,提高了爬取效率。 4. *...

    heritrix下载及配置

    Heritrix是一款开源的网络爬虫工具,由Internet Archive维护,用于抓取互联网上的网页以进行数据存档或分析。本篇文章将详细讲解如何下载和配置Heritrix。 首先,Heritrix的下载过程非常简单。你可以访问...

    基于Heritrix的主题网络爬虫设计与实现.pdf

    - **CrawlOrder**:抓取任务的起点,可以通过配置文件来设定抓取策略。 - **CrawlController**:整个抓取过程的核心组件,负责协调其他组件的工作。 - **Frontier**:用于存储待抓取的URL列表,并根据特定算法决定下...

    Heritrix1.14.3配置流程[参考].pdf

    本文将详细介绍Heritrix 1.14.3版本的配置流程,包括安装准备、环境搭建、配置文件调整等方面,帮助读者顺利部署和运行Heritrix。 #### 二、准备工作 1. **下载Heritrix** 首先,前往Heritrix的官方下载页面...

    heritrix-1.14.2.zip

    这些配置文件可以设置爬虫的行为,如设定爬行速度、定义种子URL、选择要抓取的文件类型、排除特定的URL模式等。此外,Heritrix还提供了丰富的插件系统,允许开发者根据需求添加自定义的爬行逻辑和数据处理模块。 ...

    heritrix 的详细配置 与 使用资料

    在配置阶段,你需要修改 heritrix/conf/heritrix.properties 文件。找到 "heritrix.cmdline.admin=" 行,将其改为 "heritrix.cmdline.admin=admin:admin",这会设置默认的管理员账号和密码。 最后,你需要运行项目...

    配置Heritrix及常见问题解决

    Heritrix的配置主要通过XML文件完成,包括`job.xml`、`profile.xml`等。`job.xml`定义了工作流,`profile.xml`则包含爬虫的行为设置,如速率限制、重试策略等。 5. **常见问题及解决**: - **速率限制**:若发现...

    heritrix

    每种方式都会生成一个名为`order.xml`的描述文件,记录了Heritrix运行所需的所有信息,包括处理器类、前沿类、抓取线程数、连接超时时间等。 选择“With defaults”选项,Heritrix会复制默认的`order.xml`文件,该...

    Heritrix配置简介

    首次运行Heritrix时,需要修改此文件以设置WebUI的登录凭据。 在配置了WebUI的用户名和密码之后,可以启动Heritrix。有两种启动方式:编程式启动,通过CrawlController后台加载抓取任务;另一种更常见的方式是通过...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix提供了命令行界面,用户可以通过指定参数来配置爬虫的行为,如设定抓取范围、深度、速度等。此外,它还支持自定义的模块和策略,使得爬取过程可以按照特定的需求进行定制。 `heritrix-1.14.4-src.zip` 则...

Global site tag (gtag.js) - Google Analytics