`
andyliuxs
  • 浏览: 138905 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
社区版块
存档分类
最新评论

Eclipse下配置Heritrix1.14.4

 
阅读更多

最近在看邱哲等人编著的《开发自己的搜索引擎Lucene+Heritrix》一书,里面有一章专门讲Hertrix的配置问题的,可是感觉讲得很麻烦,其实很简单。故将自己的配置方法整理下:

由于Hertrix的是开源的网络爬虫工具,具有很强的可扩展性,开发者可以根据自己的抓取逻辑对其源码进行修改。但是如果你仅是想利用Hertrix进行网页的抓取,那么配置就更简单了。只需下载到SourceForge网站上下载Heritrix的jar包就ok了,但是如果你还想对其源码进行修改来研究Heritrix的实现那可以下载源代码包。

1、无需修改源码的配置方法

    1)解压下载到的heritrix-1.14.4.zip文件,目录结构如下:

Heritrix目录结构

将lib目录的jar包和当前目录下的hertrix-1.14.4.jar文件导入到Eclipse工程的Build Path下,然后将conf/和webapps/两个目录拷贝到工程下面即可。

    2)修改conf/目录下的heritrix.properties文件,找到heritrix.cmdline.admin所在行,在后面添加“用户名:密码”

    3)运行org.archive.crawler.Heritrix类,如果出现:

        11:29:36.768 EVENT  Starting Jetty/4.2.23
        11:29:36.935 WARN!! Delete existing temp dir C:\Users\ADMINI~1.ZGC\AppData\Local\Temp\Jetty_127_0_0_1_8080__ for WebApplicationContext[/,jar:file:/D:/IR/Lucene/HeritrixDemo/webapps/admin.war!/]
        11:29:37.098 EVENT  Started WebApplicationContext[/,Heritrix Console]
        11:29:37.339 EVENT  Started SocketListener on 127.0.0.1:8080
        11:29:37.339 EVENT  Started
org.mortbay.jetty.Server@a01335
        Heritrix version: 1.14.4

说明配置成功!然后在浏览器中输入http://localhost:8080然后输入用户名和密码即可登入!

2、利用源码的配置方法

   利用源码在Eclipse下配置有些麻烦,但只是相对利用Jar包的配置方法而言的~_~

  1、将heritrix-1.14.4.jar文件利用WinRAR工具解压出来,目录结构如下:

  Heritrix的jar包的目录结构

  按照该目录结构配置eclipse工程即可。

  2、将heritrix-1.14.4-src.zip解压,解压后目录结构如下:Heritrix源代码包结构

 

然后将lib/目录下的所有.jar包全部导入到工程的BuildPath下 ,然后将src/目录下的所有目录拷贝到工程的src目录下以及conf/目录、webapps/目录拷贝到工程下即可。同样修改conf/目录下的heritrix.properties文件。

3、(关键)将刚才解压的jar包中的除了源代码外的所有文件都拷贝到src/目录下,配置完毕!

 

配置完成后,到eclipse工程下刷新下,即可运行!

  • 大小: 26.9 KB
  • 大小: 40.5 KB
  • 大小: 14.3 KB
0
0
分享到:
评论

相关推荐

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    配置文件通常位于`config`目录下,通过修改这些文件可以定制爬虫的行为。例如,`default.cxml`是Heritrix的主要配置文件,包含了整个爬取流程的配置。 在进行二次开发时,开发者需要注意遵循Heritrix的编程规范和...

    Heritrix-1.14.4源代码

    为了在Eclipse中运行Heritrix-1.14.4源代码,你需要: 1. 将压缩包解压至本地目录。 2. 在Eclipse中创建新项目,选择"Import existing projects into workspace",然后导航到Heritrix的源代码目录。 3. 确保你的...

    Heritrix在Eclipse中的源文件

    2. 输入项目名称,例如"Heritrix1.14.4",然后点击"Next"。 3. 在"JRE"选项中,确保选择了正确的JRE版本,通常是与系统安装的JDK对应的版本,点击"Finish"。 步骤二:导入Heritrix源代码 1. 解压下载的Heritrix源...

    Heritrix的安装与配置

    配置过程还包括将`src\conf\`目录下的所有文件和文件夹拖入Eclipse的`Heritrix`工程的`src`目录。`heritrix.properties`文件是Heritrix的主要配置文件,你可以在这里设置管理界面的用户名和密码,例如"admin:admin...

    利用 Heritrix 构建特定站点爬虫

    本章节将详细介绍如何在Eclipse环境下搭建Heritrix开发环境,包括类库导入、源代码拷贝、配置文件修改及运行参数设置等内容。 ##### 1. 导入类库 Heritrix运行所需的类库位于`heritrix-1.14.4-src\lib`目录下,...

    Heritrix构建特定站点爬虫

    2. **配置Heritrix**:参照上述配置指南,确保Heritrix正确安装并在Eclipse中配置好。 3. **编写扩展代码**:根据需求编写代码,例如使用Heritrix提供的API来过滤链接,确保仅抓取北京林业大学网站内的页面。 4. **...

    Heritrix1.14.3配置流程[参考].pdf

    通过以上步骤,我们可以成功地配置好Heritrix 1.14.3(实际上使用的是1.14.4版本)的运行环境。Heritrix的强大功能和灵活性使其成为数字档案管理中的重要工具之一。对于初次接触Heritrix的用户来说,按照本文所述的...

    heritrix爬虫安装部署

    - 解压`heritrix-1.14.4-src.zip`和`heritrix-1.14.4.zip`。 - 将源代码文件夹整合进工程中。 - 添加必要的库文件(jar包)至项目的`lib`目录。 - 修改`heritrix.properties`中的相关配置,如`heritrix.cmdline....

Global site tag (gtag.js) - Google Analytics