本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html
上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.
首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方式.上一篇我的Heritrix所在目录为 D:\heritrix\heritrix-3.0.0,所有的抓取任务默在jobs目录下.这里我们手动在jobs目录下创建一个目录,我这里取名为 test_job.然后进入D:\heritrix\heritrix-3.0.0\jobs目录下有个profile-defaults目录,再进入, 里面有个profile-crawler-beans.cxml文件.将该文件拷贝到刚才创建的test_job下.并将其改名为crawler- beans.cxml.不改名的话,Heritrix会默认你的job为模板job.不会进行相关抓取.
这里简单介绍下crawler-beans.cxml.该文件相比Heritrix早期版本改进很多,首先使用Spring管理该文件.同时用该文 件代替了Heritrix早期版本多个配置文件,如order.xml和seeds.txt.也算Heritrix3.0的一个新特性,我接下来会介绍 Heritrix的所有新特性.我们只要在该文件中修改相关bean就可以很好的控制一个爬虫的抓取.特别是垂直爬虫,可以说可以很方便进行配置.至于详 细介绍crawler-bean.cxml中各个bean以及它的属性,请看我下一篇博客.也只有了解了各个bean的左右,才可以很好的控制爬虫.
运行一个简单的抓取,先要修改以下地方.
1.创建Job
<bean id="simpleOverrides">
<property name="properties">
<value>
metadata.operatorContactUrl=ENTER_AN_URL_WITH_YOUR_CONTACT_INFO_HERE_FOR_WEBMASTERS_AFFECTED_BY_YOUR_CRAWL
metadata.jobName=basic
metadata.description=Basic crawl starting with useful defaults </value>
</property>
</bean>
1)metadata.operatorContactUrl 你控制Heritrix的URL,一般是http://127.0.0.1
2)metadata.jobName 表示你的抓取名字,我们刚才创建的是test_job,那就修改为test_job
3)metadata.description 表示对这个抓取任务的简单描述,我们这里就描述为 firt crawl job
2.设置种子
<bean id="longerOverrides">
<property name="properties">
<props>
<prop key="seeds.textSource.value">
# URLS HERE
http://example.example/example
</prop>
</props>
</property>
</bean>
以上的http://example.example/example 就表示是种子了,这里设置你想抓取的种子.比如我这里设置http://guoyunsky.blogcn.com
3)完善job信息和本机信息
<bean id="metadata" autowire="byName">
<property name="operatorContactUrl" value="[see override above]"/>
<property name="jobName" value="[see override above]"/>
<property name="description" value="[see override above]"/>
<!-- <property name="operator" value=""/> -->
<!-- <property name="operatorFrom" value=""/> -->
<!-- <property name="organization" value=""/> -->
<!-- <property name="audience" value=""/> -->
<property name="userAgentTemplate"
value="Mozilla/5.0 (compatible; heritrix/@VERSION @ +@OPERATOR_CONTACT_URL@)"/ >
</bean>
这个Bean按道理可以通过刚才设置的simpleOverrides来获取,但貌似不完善,我们还是自己再设置下吧.
1) operatorContactUrl 控制爬虫的URL,一般是http://127.0.0.1
2)jobName 抓取任务名字,这里是test_job
3) description 描述,这里是first crawl job
4)以上几个属性除了userAgentTemplate有必要设置的话,都可以不设置.userAgentTemplate这里设置是为了伪造浏览器去抓取数据,
如果没有设置该值,则很容易被防爬虫的网站K掉,这里设置@VERSION为3.0,+@OPERATOR_CONTACT_URL为操作爬虫联系方式,
我这里填我的emal:guoyunsky@hotmail.com
以上三个bean设置完毕的话,就可以运行抓取了.不过是全网抓取.
这里回到操作界面,默认的是https://localhost:8443/ ,正常的话会在Job Directories下显示刚才创建的test_job,如果没有的话点下rescan按钮,重新扫描一下.显示除了test_job后我们点击它,这时就会进入该job的控制台了.界面如下:
操作界面,各个组件一下博客我会讲解,这里点击launch按钮,意思是载入这个抓取任务.载入的话会获取这个job的所有配置和以前抓取的各种文 件,如日志.默认的话,载入这个抓取任务后,会进入暂停状态.根据界面上Job is Active: PAUSED来判断,如果是PAUSED的话这里再点击unpause按钮,如此爬虫就开始进入抓取了,这时Job is Active:会变成RUNNING,表示抓取正在进行了.
正常抓取的话,会在test_job目录下出现一个warcs目录,这个目录里面放的就是抓取的数据.看到这个目录的就表示你抓取成功了.如下图所示:
相关推荐
种子URL是爬取的起始点,决定了爬虫将从哪些页面开始抓取。 4. **scope**:`DecideRuleSequence`定义了URL的选择规则,决定了哪些URL会被抓取,哪些被拒绝,以及URL的抓取深度。这允许用户自定义复杂的规则来控制...
在开始使用Heritrix之前,首先要了解如何下载和运行它。Heritrix的最新版本可以在SourceForge的下载页面找到。下载完成后,将其解压缩到本地目录,并注意其结构,包括`lib`目录,其中包含了Heritrix运行所需的类库,...
Heritrix 3 是一款强大的网络爬虫工具,主要用于网页抓取和互联网存档。它在2009年12月发布了3.0.0版本,并随着时间的推移不断更新,提供了3.0.1补丁版和3.2.0版,增加了新的特性和功能,比如更简单的使用方式、持续...
Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...
配置和使用Heritrix主要包括以下几个步骤: 1. **安装与配置**:首先,从官方站点下载最新版本的Heritrix并解压缩。核心配置文件`heritrix.properties`位于`conf`目录下,其中包含了Heritrix运行所需的许多参数,如...
在使用 Heritrix 进行抓取时,安全是一个重要的考量因素。应采取措施确保数据的安全性和完整性,比如: - **加密通信**:使用 HTTPS 协议确保数据传输的安全性。 - **访问控制**:通过用户名和密码实现对系统的访问...
Heritrix是一个强大的开源网络爬虫工具,用于批量抓取互联网上的网页。它提供了一种高效、可配置的方式来收集和处理网页数据。本篇将详细解释Heritrix系统的使用、核心概念、工作原理以及关键组件。 首先,Heritrix...
#### 二、Heritrix安装详细步骤 本节将详细介绍如何在Eclipse环境中搭建Heritrix,并进行必要的配置,以便能够顺利地启动Heritrix并执行抓取任务。 ##### 2.1 在Eclipse中搭建MyHeritrix工程 1. **新建Java工程**...
首先,为了开始使用Heritrix,你需要从其官方下载页面获取最新版本的软件包。Heritrix的目录结构包括lib目录,存储了所有必要的类库,以及一个名为heritrix-1.10.1.jar的核心JAR文件。此外,conf目录下的heritrix....
Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取互联网上的网页和资源。...对于初学者,建议先从官方文档和社区论坛开始学习,逐步掌握Heritrix的使用技巧。
标题和描述都表明这是一份关于Heritrix学习的宝贵资料集合,包含了一系列的教程和经验分享。 首先,我们来看"利用Heritrix构建特定站点爬虫.mht"这个文件。这个文件很可能详细介绍了如何定制Heritrix来抓取特定网站...
Heritrix 是一个开源的网络爬虫工具,用于抓取网页并进行深度索引或分析。在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix ...
种子是爬虫开始抓取的网页列表,调度策略决定如何以及何时访问这些页面,下载器负责获取页面,解析器解析HTML并提取链接,最后存储抓取到的数据。 3. **配置文件**:Heritrix的配置文件是XML格式的,用于定义爬虫的...
- **URL管理**:Heritrix使用URL队列来管理待抓取的链接,并且可以设置URL过滤规则,避免重复抓取或不符合条件的URL。 - **内容解析**:Heritrix内置了HTML、XML、PDF等多种格式的解析器,可以解析网页内容并提取出...
完成以上步骤后,Heritrix即可开始对淘宝商城空调商品的抓取工作。记得监控抓取进度和状态,根据需要调整参数,确保抓取效果最佳。同时,遵循网站的robots.txt规则,尊重网站的抓取政策,以保持合法和可持续的数据...
Heritrix用户手册,Heritrix简介与入门 Heritrix配置与开发指南
Heritrix 1.14.2 是一个开源的网络爬虫工具,它主要用于抓取互联网上的网页和其他在线资源。这个版本的Heritrix在2007年左右发布,虽然较旧,但它仍然是理解网络爬虫技术的一个重要参考。 Heritrix是一个由Internet...
2. 设计和开发一个网络爬虫,使用Heritrix等工具抓取与垂直领域相关的网页数据。 3. 存储和预处理抓取到的数据。这通常涉及到文本清洗、去重、格式转换等步骤,确保数据质量。 4. 使用Lucene建立索引系统。这部分...
Heritrix是一款开源的网络爬虫软件,专为大规模网页抓取而设计。这款工具主要用于构建互联网档案馆、搜索引擎的数据源以及其他需要大量网页数据的项目。Heritrix由Internet Archive开发,支持高度可配置和扩展,能够...