最近在看邱哲等人编著的《开发自己的搜索引擎Lucene+Heritrix》一书,里面有一章专门讲Hertrix的配置问题的,可是感觉讲得很麻烦,其实很简单。故将自己的配置方法整理下:
由于Hertrix的是开源的网络爬虫工具,具有很强的可扩展性,开发者可以根据自己的抓取逻辑对其源码进行修改。但是如果你仅是想利用Hertrix进行网页的抓取,那么配置就更简单了。只需下载到SourceForge网站上下载Heritrix的jar包就ok了,但是如果你还想对其源码进行修改来研究Heritrix的实现那可以下载源代码包。
1、无需修改源码的配置方法
1)解压下载到的heritrix-1.14.4.zip文件,目录结构如下:
将lib目录的jar包和当前目录下的hertrix-1.14.4.jar文件导入到Eclipse工程的Build Path下,然后将conf/和webapps/两个目录拷贝到工程下面即可。
2)修改conf/目录下的heritrix.properties文件,找到heritrix.cmdline.admin所在行,在后面添加“用户名:密码”
3)运行org.archive.crawler.Heritrix类,如果出现:
11:29:36.768 EVENT Starting Jetty/4.2.23
11:29:36.935 WARN!! Delete existing temp dir C:\Users\ADMINI~1.ZGC\AppData\Local\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/IR/Lucene/HeritrixDemo/webapps/admin.war!/]
11:29:37.098 EVENT Started WebApplicationContext[/,Heritrix Console]
11:29:37.339 EVENT Started SocketListener on 127.0.0.1:8080
11:29:37.339 EVENT Started org.mortbay.jetty.Server@a01335
Heritrix version: 1.14.4
说明配置成功!然后在浏览器中输入http://localhost:8080然后输入用户名和密码即可登入!
2、利用源码的配置方法
利用源码在Eclipse下配置有些麻烦,但只是相对利用Jar包的配置方法而言的~_~
1、将heritrix-1.14.4.jar文件利用WinRAR工具解压出来,目录结构如下:
按照该目录结构配置eclipse工程即可。
2、将heritrix-1.14.4-src.zip解压,解压后目录结构如下:
然后将lib/目录下的所有.jar包全部导入到工程的BuildPath下 ,然后将src/目录下的所有目录拷贝到工程的src目录下以及conf/目录、webapps/目录拷贝到工程下即可。同样修改conf/目录下的heritrix.properties文件。
3、(关键)将刚才解压的jar包中的除了源代码外的所有文件都拷贝到src/目录下,配置完毕!
配置完成后,到eclipse工程下刷新下,即可运行!
- 大小: 26.9 KB
- 大小: 40.5 KB
- 大小: 14.3 KB
分享到:
相关推荐
配置文件通常位于`config`目录下,通过修改这些文件可以定制爬虫的行为。例如,`default.cxml`是Heritrix的主要配置文件,包含了整个爬取流程的配置。 在进行二次开发时,开发者需要注意遵循Heritrix的编程规范和...
为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...
2. 输入项目名称,例如"Heritrix1.14.4",然后点击"Next"。 3. 在"JRE"选项中,确保选择了正确的JRE版本,通常是与系统安装的JDK对应的版本,点击"Finish"。 步骤二:导入Heritrix源代码 1. 解压下载的Heritrix源...
配置过程还包括将`src\conf\`目录下的所有文件和文件夹拖入Eclipse的`Heritrix`工程的`src`目录。`heritrix.properties`文件是Heritrix的主要配置文件,你可以在这里设置管理界面的用户名和密码,例如"admin:admin...
本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...
2. **配置Heritrix**:参照上述配置指南,确保Heritrix正确安装并在Eclipse中配置好。 3. **编写扩展代码**:根据需求编写代码,例如使用Heritrix提供的API来过滤链接,确保仅抓取北京林业大学网站内的页面。 4. **...
通过以上步骤,我们可以成功地配置好Heritrix 1.14.3(实际上使用的是1.14.4版本)的运行环境。Heritrix的强大功能和灵活性使其成为数字档案管理中的重要工具之一。对于初次接触Heritrix的用户来说,按照本文所述的...
- 解压`heritrix-1.14.4-src.zip`和`heritrix-1.14.4.zip`。 - 将源代码文件夹整合进工程中。 - 添加必要的库文件(jar包)至项目的`lib`目录。 - 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline....