原文网址:http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html
heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。

[2]选Jobs选项,设置抓取页为http://news.sohu.com 具体设置如图:
设置方法很简单,就是在下拉列表中选择好,点击Add添加即可。之后的设置可参考图中内容,要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用.
[3] 选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮助信息。最简单的可只更改“HTTP-Header”项中的内容,更改其属性值“user-agent”和“from”。修改内容如图2:
图2 运行参数设置中的“HTTP-Header”项
图2中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。
[4] 设置完成后,点击如图3所示任务提交菜单项,即完成全部任务的建立工作。
设置完成后,点击如图9所示任务提交菜单项,即完成全部任务的建立工作。
图3 任务提交菜单
[5]运行任务
通过提交设定好的任务,页面返回到Jobs的主菜单,可看到如图4画面:
在图4中,我们可以看到红色字说明一个任务已经被建立,在页面下方有任务的一些信息和设置菜单。此时点击左上角的“Console”菜单,返回主页面,看到如图5:
按照图5中的红色说明,点击“Start”可以开始任务。如图5:
图5已经激活的任务
点击左下角红色框标出的“Refresh”选项,可以刷新任务状态。图6是刚刚开始的任务状态:
图6 刚刚开始的任务
在图6中,我们可以看到,要暂停当前任务可点击任务状态旁的选项“Pause”。
抓取页面会存放在我的工作目录下的mirror文件夹内,如图7:
图7抓取后的网站和文件保存结构
图7中可以看到,每一个站点的URL地址即为保存的目录名称,
其文件和对应的服务目录结构被保存到此目录下面。此处看出,Heritrix更像一个强大的网站下载工具。
分享到:
相关推荐
Heritrix的工作模型基于一个循环过程,包括选择URI、下载内容、分析归档、选择新URI并添加到队列,以及标记已处理的URI。它的整体结构包括多个组件,协同工作以实现高效和可控的网页抓取。 配置和使用Heritrix主要...
Heritrix是一个强大的Java开发的开源网络爬虫,主要用于从互联网上抓取各种资源。它由www.archive.org提供,以其高度的可扩展性而著称,允许开发者自定义抓取逻辑,通过扩展其内置组件来适应不同的抓取需求。本文将...
Heritrix是一个强大的开源Web网络爬虫,由Java编写,主要功能是从互联网上抓取数据,为搜索引擎提供丰富的资源。它的可扩展性是其一大亮点,允许开发者自定义组件以适应不同的抓取需求。Heritrix最初来源于...
Heritrix的WebUI提供了一个图形化的界面来管理抓取任务。通过点击“Jobs”标签,用户可以选择四种方式创建新任务:基于现有任务、基于恢复、基于配置文件或使用默认设置。每种方式都会生成一个名为`order.xml`的描述...
- 在WebUI中创建一个新的爬取任务。 - 配置爬取任务的相关参数,如种子URL、爬取深度等。 4. **监控任务进度**: - 通过WebUI监控爬取任务的实时进度。 - 查看爬取到的数据和日志信息。 #### 五、常见错误与解决...
该目录包含了提供Heritrix WebUI功能的文件。 **3. 修改配置文件** - 打开`conf`目录下的`heritrix.properties`文件,这是Heritrix最重要的配置文件之一,控制着许多关键行为。 - 修改`heritrix.cmdline.admin`...
- **爬虫前端**(CrawlFrontier):管理待抓取的URL队列,决定下一个要抓取的URL。 - **解析器**(Parser):解析网页内容,提取链接和数据。 - **存储模块**(Storage):将抓取的数据存储到指定的位置,如文件系统...
Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。它的配置是整个爬虫工作的关键,确保Heritrix正确完整地配置对于实现高效、有针对性的网络抓取至关重要。以下将...
- **配置抓取任务**:在Heritrix的Web UI中配置需要抓取的网址及其相关的参数。 通过上述步骤,不仅能够在Eclipse环境下成功搭建Heritrix开发环境,还能够灵活地配置和执行特定站点的抓取任务。这对于从事数据挖掘...
当用户在Heritrix Web UI中设置好抓取任务后,CrawlController会根据配置启动线程池和Frontier,提供URL给工作线程进行抓取。 **三、Heritrix API** Heritrix提供了丰富的API供开发者使用,例如: - `org.archive....
该项目由Internet Archive(IA)于2003年发起,旨在创建一个强大的爬虫工具,用于大规模地捕获和保存网络资源,为未来的研究和教育提供宝贵的数据资源。 Heritrix具有以下几个显著特点: - **宽带爬虫**:支持高速...
该课程将详细介绍如何使用Red5和Flex技术栈来实现一个聊天室的功能,包括服务器端的设置、客户端的UI设计以及两者之间的通信机制。 5. **方案:web程序中购物车的应用** - **知识点**:购物车功能是电子商务网站的...