在Eclipse中构建Heritrix
这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本)
1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip
2.在Eclipse 中创建一个java project的工程,分别对
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip 进行解压。
3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。
4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。
5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。
6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。
7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。
8.配置文件进行修改,找到conf下heritrix.properties文件打开
将其设置成heritrix.cmdline.admin = admin:admin(此处的admin前面的是用户名,后面的是密码。注意他们之间需要使用“:”隔开)
9.对工程进行jar包引入,将lib下面所有的jar包引入工程。
Project-> 右键-> properties-> java build path -> libraries -> add external jar
10.在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置
选择Classpath
选择User Entries -- Advanced
选择Add Folders 将conf文件夹添加进去。
点击Apply -- Run 开始运行,在console中将出现如下界面
05:54:01.359 EVENT Starting Jetty/4.2.23
05:54:01.437 WARN!! Delete existing temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/Eclipse_Workspace/HeritrixProject/webapps/admin.war!/]
05:54:01.453 WARN!! Failed to delete temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__
05:54:01.671 WARN!! Can't reuse C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__, using C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080___9168884174147809042
05:54:01.843 EVENT Started WebApplicationContext[/,Heritrix Console]
05:54:01.984 WARN!! Failed to start: SocketListener@127.0.0.1:8080
Heritrix version: @VERSION@
在浏览器中输入http://localhost:8080即可看到如下界面
输入用户名和密码即可登录到Heritrix的WebUI页面
至此完成在Eclipse里配置Heritrix的开发环境并成功运行
- 大小: 39.2 KB
- 大小: 49.8 KB
分享到:
相关推荐
下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了Eclipse IDE以及Java Development Toolkit(JDK)。Eclipse Helios是Eclipse的一个版本,适用于Java开发,因此它是配置...
在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...
接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中,并将所有.jar文件添加到项目的构建路径中。这可以通过选中所有.jar文件,右键点击,...
在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...
总结来说,配置Heritrix开发环境涉及下载源码和二进制文件,创建Eclipse项目,复制源代码和资源文件,配置系统属性,添加库文件,以及最终运行Heritrix主类。这个过程确保了开发者能够在本地环境中进行Heritrix的...
Eclipse是一款强大的Java集成开发环境,支持各种项目类型的开发,包括Java Web和Java EE应用,因此非常适合处理Heritrix这样的Java项目。 要使用这个压缩包,你需要遵循以下步骤: 1. **下载与解压**:首先从提供...
"Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...
本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...
在非开发环境下的配置步骤如下: 1. 将下载的heritrix-1.14.0-RC1.zip解压到C盘根目录,并命名为"heritrix"。 2. 进入C:/heritrix/conf目录,复制jmxremote.password.template文件到C:/heritrix,并重命名为...
##### 2.3 非开发环境下的配置 - **配置文件**: - **jmxremote.password**: 将模板文件`jmxremote.password.template`复制并重命名为`jmxremote.password`,并设置密码和用户角色。 - **heritrix.properties**: -...
在搭建Heritrix工程时,将"heritrix-1.14.0"中的jar包导入到开发环境中(如Eclipse或IntelliJ IDEA)是必要的步骤。这通常涉及到创建一个新的Java项目,然后将lib目录下的所有jar文件添加到项目的类路径中。确保正确...
在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...
将源代码导入到Eclipse这样的集成开发环境(IDE)中,可以方便地进行调试、修改和构建新的功能。在Eclipse中,用户可以利用Java的强类型系统和丰富的库来增强Heritrix的功能,或者根据项目需求调整其核心算法。 ...
这个“heritrix.rar”文件是一个已经配置好的Heritrix工程,适用于Eclipse集成开发环境,用户解压后可以直接导入并运行,无需繁琐的初始设置。 Heritrix是由Internet Archive开发的开源项目,它的设计目标是可扩展...
在集成开发环境Eclipse中,可以直接运行`org.archive.crawler.Heritrix`类来启动Heritrix。当看到登录界面,表明Heritrix已成功启动,可以通过Eclipse进行断点调试和源代码修改。 Heritrix的WebUI提供了一个图形化...
在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...
在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...