前面我们知道了如何通过执行Heritrix官方提供的jar包去启动Heritrix,庆幸的是,Heritrix是完全开源的,所以我们可以将Heritrix的源码直接导入Eclipse去运行它。
首先解压heritrix-1.14.4-src.zip到任意盘符,这里我直接解压到桌面,解压后你会看到如图的目录结构:
src下毫无疑问是源码文件,lib是Heritrix依赖的jar包。Testdata文件夹里存放的是测试文件,可以忽略。
然后我们可以打开Eclipse,新建一个Java Project取名为heritrix1(名字随便取),如图:
将heritrix-1.14.4-src\src\java下的org,com,st3个目录copy到刚新建的Project的src下,
源码复制进去后有很多代码报错,是因为我们还没有添加jar依赖,首先在project里新建一个folder取名lib用于存放依赖的第三方jar包,如图:
将heritrix-1.14.4\lib下的所有jar包全部copy到刚刚新建的lib下,如图:
选中全部jar,然后add to build path,如图:
然后新建一个source folder取名为conf(名字随便取,不一定要叫conf),如图:
将heritrix-1.14.4\src\conf下的所有文件及文件夹全部copy到新建的conf源码文件夹下,如图:
然后继续新建一个source folder 取名为resources,如图:
然后resources下新建一个org. archive.util包,如图:
然后将heritrix-1.14.4\src\resources\org\archive\util下的tlds-alpha-by-domain.txt文件copy到刚刚新建的org.acchive.util包下,如图:
然后将heritrix-1.14.4\src下的webapps整个目录复制到当前project的根目录下,如图:
然后在eclipse中打开heritrix.properties配置文件,稍作修改,如图:
这一切工作完成后,在Eclipse界面里按下ctrl + shift + T,然后查找Heritrix类,如图:
然后你就可以鼠标右键Run as运行它来启动Heritrix啦,运行后如果你在控制台看到如图的提示信息,即表明Heritrix启动成功啦!
然后你访问http://localhost:6789就可以访问Heritrix的Web后台啦!在Eclipse下运行启动Heritrix就介绍到这儿了。
ITeye不允许我贴我的QQ和群号,要联系我看之前的博客吧,不然ITeye又要封我博客啦,坑爹的ITeye!
相关推荐
Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...
为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...
本节将详细介绍如何在Eclipse环境中搭建Heritrix,并进行必要的配置,以便能够顺利地启动Heritrix并执行抓取任务。 ##### 2.1 在Eclipse中搭建MyHeritrix工程 1. **新建Java工程** 在Eclipse中新建一个名为`...
Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,这些类库对于Heritrix的正常运行至关重要。 - **步骤**: - 将`heritrix-1.14.4-src`下的`lib`文件夹完整复制到MyHeritrix项目的根目录。 - 在...
2. 输入项目名称,例如"Heritrix1.14.4",然后点击"Next"。 3. 在"JRE"选项中,确保选择了正确的JRE版本,通常是与系统安装的JDK对应的版本,点击"Finish"。 步骤二:导入Heritrix源代码 1. 解压下载的Heritrix源...
然后,将源代码文件夹`src\Java\`下的`org`和`st`两个文件夹拖放到Eclipse的`Heritrix`工程的`src`目录下。如果出现编译错误,可能是因为你的Eclipse默认的编译版本过低,需要在`Window` -> `Preferences` -> `Java`...
- 在完成上述配置后,可以通过Eclipse的运行功能启动Heritrix。 - 在控制台窗口可以看到Heritrix的启动信息和运行状态。 #### 四、扩展Heritrix实现特定站点爬虫 为了实现针对特定网站的抓取任务,需要对Heritrix...
- 解压`heritrix-1.14.4-src.zip`和`heritrix-1.14.4.zip`。 - 将源代码文件夹整合进工程中。 - 添加必要的库文件(jar包)至项目的`lib`目录。 - 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline....
通过以上步骤,我们可以成功地配置好Heritrix 1.14.3(实际上使用的是1.14.4版本)的运行环境。Heritrix的强大功能和灵活性使其成为数字档案管理中的重要工具之一。对于初次接触Heritrix的用户来说,按照本文所述的...