`

heritrix安装配置和抓取

 
阅读更多
1 下载 和 解压
http://crawler.archive.org/下载解压到本地 E:/heritrix-1.14.3

2 配置环境变量
HERITRIX_HOME=E:/heritrix-1.14.3
path后追加 ;%HERITRIX_HOME%/bin

3 配置 heritrix

拷贝E:/heritrix-1.14.3/conf/jmxremote.password.template到E:/heritrix-1.14.3下
并从命名为jmxremote.password

修改E:/heritrix-1.14.3/conf下的heritrix.properties 文件
用UrltraEditor或其他的文本编辑工具打开,找到 heritrix.cmdline.admin =
admin是空的 这是登陆heritrix UI的用户名和密码 格式为 username:password
heritrix.cmdline.admin = admin:admin

heritrix.cmdline.port = 8080 配置端口 为了不和tomcat的8080端口冲突我改为8888

用winrar 打开E:/heritrix-1.14.3下的heritrix-1.14.jar文件,将其目录中的profiles文件夹拷到

E:/heritrix-1.14.3/conf目录下即完成heritrix的配置

(用些网友说要将jmxremote.password文件的属性改为只读,我不知道为什么?,官方文档里也没说)

4 启动heritrix
开始 -》运行 -》cmd 打开cmd端口
输入heritrix --admin=admin:admin
--admin heritrix的启动参数 必须的*

弹出一个Heritrix窗口 打印。。。。。。。。。。。。。Heritrix version: 1.14.3

cmd窗口打印出
2009-04-15 星期三 10:42:03.04 Starting heritrix
Heritrix 1.14.3 is running.
Web console is at: http://127.0.0.1:8888
Web console login and password: admin/admin
表示启动完成

5 抓取任务

用浏览器打开http://127.0.0.1:8888 输入用户名和密码
选Jobs选项, 在Create New Job 下选择 With defaults 子项

Create new crawl job based on default profile

Name of new job 和Description 随便写
Seeds 填写要抓取的网站 http://www.verycd.com/ (必须以/结尾)

单击Modules 按钮

Select Modules and Add/Remove/Order Processors

从上而下,可以看到,需要配置的内容共有7项

1.CrawlScope
CrawlScope用于配置当前应该在什么范围内抓取网页链接。比如,如果选择BroadScope,则表示当前

抓 取的范围不受限制,但如果选择了HostScope,则表示抓取的范围在当前的Host内。

选择 org.archive.crawler.scope.BroadScope 单击change按钮即可

2.URI Frontier
URI Frontier是一个URL的处理器,它将决定下一个被处理的URL是什么。同时,它还会将经由处理器

链所解析出来的URL加入到等待处理的队列中去。在例子中,使用BdbFrontier类来做为处理器,全权

掌管URL的分配

选择 org.archive.crawler.frontier.BdbFrontier 单击change按钮即可

3.Pre Processors
这个队列中,所有的处理器都是用来对抓取时的一些先决条件做判断的。比如判断robot.txt的信息等

,它是整个处理器链的入口

选择org.archive.crawler.prefetch.Preselector 和

org.archive.crawler.prefetch.PreconditionEnforcer 两项 (在下拉列表中选择好,点击Add添加即可



4.Fetcher:从名称上看,它用于解析网络传输协议,比如解析DNS、HTTP或FTP等

选择org.archive.crawler.fetcher.FetchDNS
org.archive.crawler.fetcher.FetchHTTP 两个单击Add添加


5.Extractors
它主要用是于解析当前获取到的服务器返回内容,这些内容通常是以字符串形式缓存的。在这个队列中

,包括了一系列的工具,如解析HTML、CSS等。在解析完毕,取出页面中的URL后,将它们放入队列中,等

待下次继续抓取

org.archive.crawler.extractor.ExtractorHTTP
org.archive.crawler.extractor.ExtractorHTML
org.archive.crawler.extractor.ExtractorCSS
org.archive.crawler.extractor.ExtractorJS
org.archive.crawler.extractor.ExtractorSWF

6.Writers
Writers主要是用于将所抓取到的信息写入磁盘。通常写入磁盘时有两种形式,一种是采用压缩的方式写

入,在这里被称为Arc方式,另一种则采用镜象方式写入。当然处理起来,镜象方式要更为容易一些。
默认的是Arc方式 点击旁边的Remove 删除 在下拉框中选择

org.archive.crawler.writer.MirrorWriterProcessor 单击Add添加

7 Post Processors
在整个抓取解析过程结束后,进行一些扫尾的工作,比如将前面Extractor解析出来的URL有条件的加入

到待处理队列中去

org.archive.crawler.postprocessor.CrawlStateUpdater
org.archive.crawler.postprocessor.LinksScoper
org.archive.crawler.postprocessor.FrontierScheduler 单击Add添加

【在设置时,可以看见在队列的右侧总是有“Up”、“Down”和“Remove”这样的操作是因为在处理器链

的设置过程中,每一个队列中的处理器都是要分先后顺序的】

设置运行时的参数

在设置完处理链后,选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面

后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮

助信息。这里只要更改 “HTTP-Header”项中的内容,更改其属性值user-agent和 from
其中user-agent中的 PROJECT_URL_HERE 对应自己的完整URL地址,(http://192.168.16.128)
from中设置自己的合法email地址 只需是格式正确的邮件地址就可以
@VERSION@是设置heritrix的版本 填上1.14.3
user-agent Mozilla/5.0 (compatible; heritrix/1.14.3 +http://192.168.16.128)

设置完成后单击“Submit job”链接 会回到Job是页面

显示了“Job created”,这表示刚才所设置的抓取任务已经被成功的建立。同时,在下面的“Pending

Jobs”一栏,可以清楚的看到刚刚被创建的Job,它的状态目前为“Pending”。

最后启动这个任务。回到“Console”界面上,可以看到刚刚创建的任务已经显示了出来,等待我们开始

它。
单击面版中的“Start”链接,就会将此时处于“Pending”状态的抓取任务激活,令其开始抓取
此时,面版中出现了一条抓取状态栏,它清楚的显示了当前已经被抓取的链接数量


抓取完毕后在E:/heritrix-1.14.3/目录下生成以个jobs目录
进入jobs 可以看到 verycd-20090415024225919 其中verycd就是job的名称
进去 里面有一个mirror目录 是因为在前面设置了Writer的类型为MirrorWriter
里面每一个站点的URL地址即为保存的目录名称


至此 heritrix抓取任务就到此结束...
分享到:
评论

相关推荐

    heritrix正确完整的配置heritrix正确完整的配置

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。它的配置是整个爬虫工作的关键,确保Heritrix正确完整地配置对于实现高效、有针对性的网络抓取至关重要。以下将...

    Heritrix安装详细过程

    2. **配置抓取任务** 在Heritrix启动后,可以通过其Web界面配置具体的抓取任务。例如,指定要抓取的网站URL、抓取深度、过滤规则等。 #### 三、Heritrix的功能特点 - **定制化抓取** 用户可以根据需要定制抓取...

    Heritrix的安装与配置

    在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的...

    heritrix抓取的操作和扩展

    通过调整配置和扩展,Heritrix可以适应各种复杂的抓取场景,提供稳定且灵活的服务。然而,由于其丰富的配置选项和复杂的架构,对于新手来说,学习和掌握Heritrix可能需要一定的时间。因此,深入理解Heritrix的工作...

    Heritrix_配置手册

    ### Heritrix配置手册知识点详解 #### 一、Heritrix简介与下载 - **Heritrix概述**:Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于网络资源的归档和长期保存。它支持高度...

    Heritrix Eclipse下环境配置

    Heritrix的设计灵活且易于扩展,支持多种自定义配置,能够满足不同场景下的数据抓取需求。本文将详细介绍如何在Eclipse集成开发环境中搭建Heritrix开发环境,以便开发者能够快速上手进行Heritrix的定制与二次开发。 ...

    heritrix 的详细配置 与 使用资料

    在配置和使用 Heritrix 时,有几个关键步骤和注意事项需要了解。 首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个...

    lucene+heritrix详细配置加api.chm格式文档

    这种组合可以实现大规模网页的抓取和检索,为数据分析、内容挖掘等任务提供强大支持。 **详细配置** Lucene 的配置主要包括索引字段的定义、分词器的选择、存储方式以及索引优化等。配置文件通常以 XML 格式存在,...

    heritrix的安装和配置[归纳].pdf

    ### Heritrix的安装与配置详解 ...以上就是Heritrix的安装与配置全过程,包括创建抓取任务和在Eclipse中的集成配置。Heritrix是一款非常强大的工具,通过合理的配置可以有效地帮助用户进行网页数据的采集与分析。

    heritrix爬虫安装部署

    #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从Heritrix的官方网站或GitHub仓库获取最新版本。 - **版本选择**: 根据给定的信息,选择了版本1.14.4进行安装。 ##### 2.2 安装 - **...

    配置Heritrix及常见问题解决

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。它提供了高度可配置性和扩展性,使得用户可以根据需求定制爬虫行为。在配置Heritrix时,我们需要理解其核心...

    heritrix下载及配置

    这通常涉及配置抓取策略、设置爬行范围、选择处理模块等。Heritrix提供了强大的可定制性,允许用户根据需求定义抓取行为,如遵循或忽略链接规则、深度限制、抓取频率等。 总结来说,Heritrix的下载与配置涉及到文件...

    heritrix的绿色配置包

    Heritrix是一款强大的网络爬虫工具,主要用于网页抓取和数据挖掘。这款开源软件由互联网档案馆(Internet Archive)开发,旨在提供一个可定制、可扩展的平台,用于大规模的互联网内容采集。Heritrix的设计理念是允许...

    heritrix 配置

    heritrix 配置 网络爬虫 工具 Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取逻辑。本文详细介绍了 Heritrix...

    heritrix抓取指南

    《Heritrix抓取指南》 Heritrix是一款强大的网络爬虫工具,广泛应用于数据采集和分析。本指南将详细介绍如何利用Heritrix抓取淘宝商城大家电分类下的空调商品信息。 首先,确定我们的目标:抓取淘宝商城空调商品...

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

Global site tag (gtag.js) - Google Analytics