在eclipse中设置heritrix2的运行环境
基本上根据heritrix的文档就可以设置好,不过中间会很有些坎坷。把坎坷记录下来备忘。希望对遇见同样问题的人有所帮助。heritrix的文档参见:http://webteam.archive.org/confluence/display/Heritrix/Setting+up+the+new+Heritrix+in+Eclipse
1、从http://m2eclipse.sonatype.org/update-dev/安装maven的Eclipse插件,选择integration安装就可以了。或者安装单独maven。使用插件的话,要在eclipse.ini中加入jdk的路径,如:
-vm
C:\jdk1.6.0_07\bin\javaw.exe
切记一定要换行。
2、使用SVN,从https://archive-crawler.svn.sourceforge.net/svnroot/archive-crawler/trunk/heritrix2 下载最新版的源码,现在应该是2.0.3。因为在使用中出现问题,所以不建议使用 heritrix已经打好包的2.0.2的src,除非你愿意自己去改代码 。
3、在Eclipse中导入项目。建议使用的VM为JDK,而不是JRE。
4、在Eclipse中,设置M2_REPO variable。按缺省操作的话,这个应该自动设好了,否则指到到你实际的maven repository路径。
5、在Eclipse中,依次右键选择commons,modules,engine,webgui,dist和根路径下的pom.xml,Run As--maven Install。这时要保证网络是通的,会自动下载所需要的依赖包。这些会放在maven的repository路径里。不使用插件,直接用maven命令也可以。此处需要注意的是,直接用maven名令和用插件下载的包不完全一样。另外,会有几个包会下载不到。根据错误提示,如果是jar的话,在网上或自己机器里找一个类似版本的jar放到提示路径里;如果是pom文件,就自己编辑一个好了。
6、找到org.archive.crawler.Heritrix,run as或者debug as java application。在VM arguments设置:-Dheritrix.development,在program arguments中设置:
-jjobs路径的绝对地址。--【不设就按缺省。要设置的话,不要在-j后面有空格。应该是-jC:\jobs,下面类似。】
-aadmin --【登录时的密码】
-wC:\heritrix-2\webui\target\heritrix-webui-2.0.3-SNAPSHOT.war --【你自己生成的war实际路径】
完成以上这些,就可以运行了。建议使用非IE浏览器。否则,在有些后台操作时会抛异常。
分享到:
相关推荐
下面将详细介绍如何在Eclipse中设置Heritrix项目,并解释相关知识点。 首先,确保你已经安装了Eclipse IDE以及Java Development Toolkit(JDK)。Eclipse Helios是Eclipse的一个版本,适用于Java开发,因此它是配置...
在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...
在本案例中,"heritrix-1.4.4 源代码(eclipse可执行)" 表示这个压缩包包含了Heritrix 1.4.4版本的所有源码,这些源码是为Eclipse IDE准备的,可以直接在Eclipse环境下编译和运行。Eclipse是一款强大的Java集成开发...
1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...
在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...
接下来,我们需要在集成开发环境(IDE)如Eclipse中创建一个新的Java项目,并命名为"Heritrix"。将`lib`文件夹拖入项目工程中,并将所有.jar文件添加到项目的构建路径中。这可以通过选中所有.jar文件,右键点击,...
本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...
"Heritrix1_14_1在Eclipse下的配置总结 - Java - ITeye论坛.mht"和"Heritrix1_14_1在Eclipse下的配置总结(续) - Java - ITeye论坛.mht"这两份文件专注于在Eclipse集成开发环境中配置Heritrix的细节。Eclipse是一个...
在搭建Heritrix工程时,将"heritrix-1.14.0"中的jar包导入到开发环境中(如Eclipse或IntelliJ IDEA)是必要的步骤。这通常涉及到创建一个新的Java项目,然后将lib目录下的所有jar文件添加到项目的类路径中。确保正确...
它的配置和部署过程对于开发者来说是至关重要的,以下将详细讲解如何在Eclipse环境中配置Heritrix的开发环境。 首先,你需要下载两个压缩包:heritrix-1.14.3-src.zip和heritrix-1.14.3.zip。SRC包包含了源代码,...
#### 四、Heritrix运行示例 1. **启动Heritrix服务**: - 通过命令行方式启动Heritrix服务。 - 确认服务已成功监听8080端口。 2. **访问WebUI**: - 在浏览器中输入`http://127.0.0.1:8080`访问Heritrix的Web用户...
在设置过程中,有两个关键参数需要注意:“@VERSION@”应替换为Heritrix的实际版本号,“PROJECT_URL_HERE”可以替换为任意有效的URL,“from”属性虽然不需要真实电子邮件地址,但需保持正确格式。 正确配置这两个...
在配置过程中可能会遇到的错误是 `java.lang.UnsupportedClassVersionError`,这通常表示你的 Java 运行环境版本与 Heritrix 需要的版本不匹配。解决这个问题的方法是检查你的 JDK 版本,确保它与 Heritrix 的需求...
这个“heritrix.rar”文件是一个已经配置好的Heritrix工程,适用于Eclipse集成开发环境,用户解压后可以直接导入并运行,无需繁琐的初始设置。 Heritrix是由Internet Archive开发的开源项目,它的设计目标是可扩展...
在Eclipse中,用户可以利用Java的强类型系统和丰富的库来增强Heritrix的功能,或者根据项目需求调整其核心算法。 Heritrix的设计基于模块化和可扩展性,它的主要组件包括爬取管道(Crawler Pipelines)、策略...
如果你在Eclipse环境中配置Heritrix,步骤如下: 1. 解压heritrix-1.14.0-RC1.zip和heritrix-1.14.0-RC1-src.zip,将jar文件放在E:/MyWork/heritrix/heritrix-1.14-jar目录下,源码放在E:/MyWork/libs/heritrix/...
#### 三、Heritrix在Eclipse中的配置与运行 ##### 1. Heritrix下载与安装 - **下载Heritrix**:最新版本为1.14.4,可以从SourceForge网站下载,主要提供两种压缩包形式:`.tar.gz`(适用于Linux系统)和`.zip`...