`
cdwzwd
  • 浏览: 124046 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类

在Eclipse里配置Heritrix开发环境

阅读更多
在Eclipse中构建Heritrix

这里采用的是Heritrix 1.14.4(2010年5月10日的版本 目前来看是最新版本)

1.首先从http://sourceforge.net/projects/archive-crawler/ 中下载
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip

2.在Eclipse 中创建一个java project的工程,分别对
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip 进行解压。

3.将heritrix-1.14.4-src.zip解压中的src/java 中的 com、org、st三个文件夹复制到工程src下。

4.将heritrix-1.14.4-src.zip解压中src中conf文件夹复制到项目根目录。

5.将heritrix-1.14.4-src.zip解压中lib文件夹复制到项目根目录。

6.将heritrix-1.14.4-src.zip解压中src/resources/org/archive/util中tlds-alpha-by-domain.txt文件复制到工程中org.archive.util包下。

7.将heritrix-1.14.4.zip解压中webapps文件夹复制到项目根目录。
如果文件夹名称不是webapps 需要在Heritrix.java中进行相应的更改。

8.配置文件进行修改,找到conf下heritrix.properties文件打开 
将其设置成heritrix.cmdline.admin = admin:admin(此处的admin前面的是用户名,后面的是密码。注意他们之间需要使用“:”隔开)    

9.对工程进行jar包引入,将lib下面所有的jar包引入工程。
Project-> 右键-> properties-> java   build   path   ->   libraries   ->   add   external   jar

10.在工程中找到org.archive.crawler.Heritrix.java右键选运行方式配置
选择Classpath
选择User Entries -- Advanced
选择Add Folders 将conf文件夹添加进去。
点击Apply -- Run 开始运行,在console中将出现如下界面

05:54:01.359 EVENT  Starting Jetty/4.2.23
05:54:01.437 WARN!! Delete existing temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/Eclipse_Workspace/HeritrixProject/webapps/admin.war!/]
05:54:01.453 WARN!! Failed to delete temp dir C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__
05:54:01.671 WARN!! Can't reuse C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080__, using C:\DOCUME~1\ADMINI~1\LOCALS~1\Temp\Jetty_127_0_0_1_8080___9168884174147809042
05:54:01.843 EVENT  Started WebApplicationContext[/,Heritrix Console]
05:54:01.984 WARN!! Failed to start: SocketListener@127.0.0.1:8080

Heritrix version: @VERSION@

在浏览器中输入http://localhost:8080即可看到如下界面



输入用户名和密码即可登录到Heritrix的WebUI页面





至此完成在Eclipse里配置Heritrix的开发环境并成功运行

  • 大小: 39.2 KB
  • 大小: 49.8 KB
分享到:
评论

相关推荐

    Heritrix在Eclipse中的源文件

    下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了Eclipse IDE以及Java Development Toolkit(JDK)。Eclipse Helios是Eclipse的一个版本,适用于Java开发,因此它是配置...

    Heritrix lucene开发自己的搜索引擎(源码)1

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

    Heritrix的安装与配置

    接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中,并将所有.jar文件添加到项目的构建路径中。这可以通过选中所有.jar文件,右键点击,...

    Heritrix搭建好的工程

    在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...

    Heritrix 配置

    总结来说,配置Heritrix开发环境涉及下载源码和二进制文件,创建Eclipse项目,复制源代码和资源文件,配置系统属性,添加库文件,以及最终运行Heritrix主类。这个过程确保了开发者能够在本地环境中进行Heritrix的...

    heritrix-1.4.4 源代码(eclipse可执行)

    Eclipse是一款强大的Java集成开发环境,支持各种项目类型的开发,包括Java Web和Java EE应用,因此非常适合处理Heritrix这样的Java项目。 要使用这个压缩包,你需要遵循以下步骤: 1. **下载与解压**:首先从提供...

    很好的heritrix学习资料

    "Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...

    利用 Heritrix 构建特定站点爬虫

    本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...

    heritrix下载及配置

    在非开发环境下的配置步骤如下: 1. 将下载的heritrix-1.14.0-RC1.zip解压到C盘根目录,并命名为"heritrix"。 2. 进入C:/heritrix/conf目录,复制jmxremote.password.template文件到C:/heritrix,并重命名为...

    heritrix爬虫安装部署

    ##### 2.3 非开发环境下的配置 - **配置文件**: - **jmxremote.password**: 将模板文件`jmxremote.password.template`复制并重命名为`jmxremote.password`,并设置密码和用户角色。 - **heritrix.properties**: -...

    heritrix1.14.0jar包

    在搭建Heritrix工程时,将"heritrix-1.14.0"中的jar包导入到开发环境中(如Eclipse或IntelliJ IDEA)是必要的步骤。这通常涉及到创建一个新的Java项目,然后将lib目录下的所有jar文件添加到项目的类路径中。确保正确...

    Heritrix在Windows下的运行

    在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    将源代码导入到Eclipse这样的集成开发环境(IDE)中,可以方便地进行调试、修改和构建新的功能。在Eclipse中,用户可以利用Java的强类型系统和丰富的库来增强Heritrix的功能,或者根据项目需求调整其核心算法。 ...

    heritrix.rar

    这个“heritrix.rar”文件是一个已经配置好的Heritrix工程,适用于Eclipse集成开发环境,用户解压后可以直接导入并运行,无需繁琐的初始设置。 Heritrix是由Internet Archive开发的开源项目,它的设计目标是可扩展...

    heritrix

    在集成开发环境Eclipse中,可以直接运行`org.archive.crawler.Heritrix`类来启动Heritrix。当看到登录界面,表明Heritrix已成功启动,可以通过Eclipse进行断点调试和源代码修改。 Heritrix的WebUI提供了一个图形化...

    Heritrix lucene开发自己的搜索引擎(源码)3

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

    开发自己的搜索引擎lucene and heritrix

    在Eclipse配置完成的Heritrix源代码 自行开发的Heritrix的Extractor类:pconline 自行开发的Heritrix的FrontierScheduler类:pconline 自行开发的Heritrix的Extractor类:163mobile 自行开发的Heritrix的...

Global site tag (gtag.js) - Google Analytics