前段时间看了下关于网络爬虫的知识,其中的heritrix是爬虫的优秀代表。heritrix是java的一个开源的可扩展的"爬虫"框架。它可以对互联网上的相应网页进行抓取存档。而搜索引擎丰富数据库的建立,正是利用网络爬虫的抓取。而且heritrix对构建垂直搜索引擎提供了可靠的大量数据。
heritrix的运行有两种。一是可以在cmd环境下配置好jar包的路径和环境变量,二是在Eclipse下配置。第一种自己没有实现,下面介绍下heritrix在MyEclipse中的配置,自己参照了网上的许多资料。
1.首先,下载Heritrix-1.12.1。在Browse Heritrix: Internet Archive Web Crawler Files on SourceForge.net 可以下载。需要下载两个包heritrix-1.12.1-src.zip和heritrix-1.12.1.zip。
2.MyEclipse中建立java工程。包解压到E盘。
(1) 将目录E:\Heritrix\heritrix-1.12.1-src\heritrix- 1.12.1\src\java\下面的三个目录:org、com、st一起拷贝到新建工程Heritrix-1.12.1目录下面(绝对路径为D: \eclipse-SDK-3.2.1-win32\workspace\Heritrix-1.12.1)。
(2) 将目录E:\Heritrix\heritrix-1.12.1-src\heritrix- 1.12.1\src\conf\下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、 jndi.properties)一起拷贝到新建的工程Heritrix-1.12.1目录下面(绝对路径为D:\eclipse-SDK-3.2.1- win32\workspace\Heritrix-1.12.1)。
(3) 将目录E:\Heritrix\heritrix-1.12.1-src\heritrix- 1.12.1\src\resources\下面的三个文件(包括:arcMetaheaderBody.xsl、warcinfobody.xsl、 README.txt,其中README.txt没有用处是显而易见的)拷贝到新建的工程Heritrix-1.12.1目录下面(绝对路径为 D:\eclipse-SDK-3.2.1-win32\workspace\Heritrix-1.12.1)。
(4) 将目录E:\Heritrix\heritrix-1.12.1\heritrix- 1.12.1\下面的webapps目录拷贝到新建工程Heritrix-1.12.1目录下面(绝对路径为D:\eclipse-SDK-3.2.1- win32\workspace\Heritrix-1.12.1),这里,webapps目录下面有两个WAR包(即admin.war和 selftest.war)。
3.添加相应的jar包后,修改下配置文件。配置用户名和密码。在heritrix.properties文件中。
heritrix.cmdline.admin =
heritrix.cmdline.port = 8080
4.这时,可以在包中运行org.archive.crawler中的heritrix.java,打开网页输入用户名和密码后,成功运行就可以在窗口中运行heritrix的webUI界面了。如图
00:55:24.687 WARN!! Delete existing temp dir C:\DOCUME~1\Owner\LOCALS~1\Temp\Jetty_127_0_0_1_8085__ for WebApplicationContext[/,jar:file:/D:/MyEclipse8.0%20workspace/heritrix/webapps/admin.war!/]
00:55:25.093 EVENT Started WebApplicationContext[/,Heritrix Console]
00:55:25.375 EVENT Started SocketListener on 127.0.0.1:8085
00:55:25.375 EVENT Started org.mortbay.jetty.Server@b988a6
Heritrix version: 1.12.1
5.运行后,可以参照help中的说明自己设置相应的抓取参数。我们还可以扩展其中的部分组件来抓取自己相应的网页。
注意;在MyEclipse配置过程中注意,可能出现编译错误的。在相应的java工程文件中的properties中的javacompiler来更改下设置。
转:http://gbfd2012.iteye.com/blog/619534
分享到:
相关推荐
Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...
Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...
在本主题中,我们重点关注Heritrix,一个开源、可配置且强大的网络爬虫工具,广泛用于构建搜索引擎和其他需要大量网页数据的应用。 标题中的"网络爬虫(heritrix)代码"意味着我们将探讨Heritrix的安装、配置和编程...
Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...
Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存互联网上的网页内容。这款爬虫以其高度可配置性和扩展性而著名,允许开发者根据需求定制爬取策略。在深入理解...
Heritrix爬虫框架是一款基于Java开发的开源网络爬虫工具,专为互联网资源的抓取而设计。这款强大的框架以其高度的可扩展性和灵活性著称,允许开发者根据实际需求定制爬取策略,从而实现对特定网站或网络内容的深度...
Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了满足大规模网页归档的需求,但因其灵活的架构和丰富的API,也被广泛...
Heritrix是一款强大的开源网络爬虫工具,专为大规模网页抓取而设计。它由互联网档案馆(Internet Archive)开发,旨在系统性地、可扩展地抓取互联网上的信息资源,为研究人员、数据分析师和图书馆员等用户提供丰富的...
#### 三、网络爬虫Heritrix Heritrix是一款开源的网络爬虫工具,主要用于从互联网上抓取数据。它具有高度的灵活性和可配置性,可以按照用户的需求定制爬取策略。Heritrix的设计考虑到了大规模数据抓取的需求,支持...
Heritrix是一款强大的开源网络爬虫软件,专为大规模网页抓取而设计。这款软件以其灵活性、可扩展性和模块化架构而闻名,被广泛应用于学术研究、数据分析、搜索引擎索引构建等多个领域。Heritrix 3.1.0是其最新的稳定...
Heritrix是开源社区开发的一款强大的网络爬虫工具,它基于Java编程语言,以其灵活性、可扩展性和稳定性闻名。在IT行业中,网络爬虫扮演着重要角色,它们用于抓取和索引互联网上的大量信息,为搜索引擎、数据分析、...
Heritrix是一个强大的开源网络爬虫框架,由Internet Archive开发,用于抓取和保存Web上的大量数据。在Heritrix框架下进行网络爬虫应用的毕业设计,涉及到多个关键知识点,包括网络爬虫的基本概念、Heritrix的系统...
Heritrix是一个强大的开源网络爬虫工具,它允许开发者自定义爬取流程,以适应不同的抓取需求。本文将详细解析Heritrix的中文API,包括预处理链、提取链、抽取链、写链和提交链等核心组件。 1. **预处理链 (Pre-...
Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...