`
neolimeng
  • 浏览: 84282 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

eclipse中配置heritrix的图文过程----heritrix-1.14.3

阅读更多

关于搜索引擎书籍中国目前比较少,有过这方面了解的朋友一般都看过2007年人民邮电出版 lucene 2.0+heritrix 这本书吧。本人感觉还不错,理论知识较少点,具体步骤还比较详细。适合初学者。

      简单介绍下heritrix: heritrix 是Java编写的开源爬虫。 扩展性比较好,但是配置适合的采集规则,比较复杂难理解。适合学习和研究。

      此书中的heritrix在eclipse中的配置写的不够详细,我把自己成功的配置贡献给大家。

<1>首先要去官网下载最新版本的heritrix。下载地址为:

http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980

选择文件注意为zip后缀格式的,gz格式为linux下文件。

选择这两个文件heritrix-1.14.3-src.zip   heritrix-1.14.3.zip 下载。

<2>

       把下载好的文件解压。

<3>

       配置过程:

1、新建Java Project工程

在Eclipse中新建一个Java Project工程(注意:一定是Java Project的工程,不是Web Project工程),工程名称为Heritrixproject。(名字可随便起)

以我的为例,对应地,工程Heritrixproject在本地磁盘目录D:\eclipse-SDK-3.2.1-win32\workspace下面。

可以在目录D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject下面看到:两个工程属性文件.classpath和.project、两个文件目录bin和src。

删除掉两个文件目录bin和src。

2、向新建的Java Project添加Heritrix-1.14.3文件

(1) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\java\下面的三个目录:org、com、st一起拷贝到新建工程Heritrixproject目录下面(绝对路径为D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject)。

(2) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\conf\下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、jndi.properties)一起拷贝到新建的工程Heritrixproject目录下面。

(3) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\resources\下面的三个文件(包括:arcMetaheaderBody.xsl、README.txt,其中README.txt没有用处是显而易见的)拷贝到新建的工程Heritrixproject目录下。

(4) 将目录E:\Heritrix\heritrix-1.14.3\heritrix-1.14.3\下面的webapps目录拷贝到新建工程Heritrixproject目录下面(绝对路径为D:\eclipse-SDK-3.2.1-win32\workspace\Heritrix-1.14.3),这里,webapps目录下面有两个WAR包(即admin.war和selftest.war)。

(5)将E:\Heritrix\heritrix-1.14.3\heritrix-1.14.3\下的lib文件夹拷贝到工程下。

3、修改新建的Java Project工程的配置文件

(1) 打开目录D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject下面的.classpath文件,可以看到共有下面6行:

<?xml version="1.0" encoding="UTF-8"?>
<classpath>
<classpathentry kind="src" path="src"/>
<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE_CONTAINER"/>
<classpathentry kind="output" path="bin"/>
</classpath>

可以看到,新建Java Project工程之后,src是资源目录,所以在Eclipse开发平台上,在src下面新建的资源目录呈包结构组织。kind属性指定工程中显示的资源目录,path指定了在该path(Eclipse默认为src)下的资源目录都呈包结构组织。

将上面的内容做很大的修改,修改内容如下所示:(注意:这个地方里面的lib下的jar就是拷贝到工程下lib里面的jar。如果你用的最新版本的可能与这个jar文件不一样,这个你就要做相应的修。此时的最新版本为heritrix-1.14.3)

<?xml version="1.0" encoding="UTF-8"?>

<classpath>

<classpathentry kind="src" path=""/>

<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE_CONTAINER"/>

<classpathentry kind="lib" path="lib/ant-1.6.2.jar"/>

<classpathentry kind="lib" path="lib/bsh-2.0b4.jar"/>

<classpathentry kind="lib" path="lib/commons-cli-1.0.jar"/>

<classpathentry kind="lib" path="lib/commons-codec-1.3.jar"/>

<classpathentry kind="lib" path="lib/commons-collections-3.1.jar"/>

<classpathentry kind="lib" path="lib/commons-httpclient-3.1.jar"/>

<classpathentry kind="lib" path="lib/commons-io-1.3.1.jar"/>

<classpathentry kind="lib" path="lib/commons-lang-2.3.jar"/>

<classpathentry kind="lib" path="lib/commons-logging-1.0.4.jar"/>

<classpathentry kind="lib" path="lib/commons-net-1.4.1.jar"/>

<classpathentry kind="lib" path="lib/commons-pool-1.3.jar"/>

<classpathentry kind="lib" path="lib/dnsjava-2.0.3.jar"/>

<classpathentry kind="lib" path="lib/fastutil-5.0.3-heritrix-subset-1.0.jar"/>

<classpathentry kind="lib" path="lib/itext-1.2.0.jar"/>

<classpathentry kind="lib" path="lib/jasper-compiler-tomcat-4.1.30.jar"/>

<classpathentry kind="lib" path="lib/jasper-runtime-tomcat-4.1.30.jar"/>

<classpathentry kind="lib" path="lib/javaswf-CVS-SNAPSHOT-1.jar"/>

<classpathentry kind="lib" path="lib/je-3.3.75.jar"/>

<classpathentry kind="lib" path="lib/jetty-4.2.23.jar"/>

<classpathentry kind="lib" path="lib/jets3t-0.5.0.jar"/>

<classpathentry kind="lib" path="lib/junit-3.8.2.jar"/>

<classpathentry kind="lib" path="lib/jericho-html-2.6.jar"/>

<classpathentry kind="lib" path="lib/libidn-0.5.9.jar"/>

<classpathentry kind="lib" path="lib/mg4j-1.0.1.jar"/>

<classpathentry kind="lib" path="lib/poi-2.0-RC1-20031102.jar"/>

<classpathentry kind="lib" path="lib/poi-scratchpad-2.0-RC1-20031102.jar"/>

<classpathentry kind="lib" path="lib/servlet-tomcat-4.1.30.jar"/>

<classpathentry kind="output" path=""/>

</classpath>

其中:

上面的<classpathentry kind="src" path=""/>中,指定src为"",这表示,只要在该工程的根目录下面建的目录资源都呈现表结构组织;

上面的kind为lib,对应的就是我们拷贝到工程目录下面的lib,path的值就是该lib目录下面的所有的jar文件。

4.配置外部jar包,

      切换到eclipse窗口下,刷新下工程。

右键单击工程,选择【Build Path】—> 【Add External Archives】在弹出的窗口中选择添加目录heritrix-1.12.1-src\heritrix-1.12.1\lib。

再次刷新下工程。没有错误提示了。

5、修改heritrix.properties属性文件

打开heritrix.properties属性文件,可以看到默认情况下,Heritrix-1.14.3的属性文件如下所示:

##############################################################################
# H E R I T R I X P R O P E R T I E S
##############################################################################

# Properties with 'heritrix.' or 'org.archive.crawler.' prefix get loaded
# into System.properties on startup so available via System.getProperties.

# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = @VERSION@

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = 
heritrix.cmdline.port = 8080
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

上面四行红色标识的代码行,一般来说,需要修改。

第一行,heritrix.version指定了Heritrix的版本号,因为我们测试的是版本号为1.14.3,修改为:

heritrix.version = 1.14.3

第二行,heritrix.jobsdir指定了Heritrix在执行抓取任务时,抓取到的内容存放的目录,默认在工程下面的jobs目录下面。

第三行,heritrix.cmdline.admin指定了登录WebUI时使用的帐号,默认为空,可以自己随意设定,设定需要按照一定的格式(用户名:密码),我们修改为:

heritrix.cmdline.admin = admin:admin

其中,用户名和密码使用“:”分隔。

第四行,heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,可以设置一个当前没有占用的端口号,比如我们修改为:

heritrix.cmdline.port = 9090

、启动Heritrix后台程序

回到Eclipse平台窗口,找到新建的Java Project工程Heritrixproject中,资源包org.archive.crawler下面的Java类文件Heritrix.java,右键单击Heritrix.java文件,选择【Run As】—> 【Java Application】选项,便看见Heritrix后台已经启动了,在Eclipse控制台【Console】中可以看到启动过程的详细信息,如下所示:

7、登录WebUI

现在,可以成功登录WebUI,设置抓取任务了。

在浏览器地址栏中键入地址链接 http://localhost:9090,可以看到WebUI登录界面.

至此heritrix的配置就完成了,以后就要开始抓起信息,后面我还会把heritrix的抓取配置分享给大家。

 

分享到:
评论
1 楼 neolimeng 2009-10-10  
补充几点配置经验:

进入网页运行时有几个重要的job setting,是我这两天的体验
【http-headers】:user-agent 为浏览器名/版本+...+heritrix版本+....+本机ip(估计可以算便填一个)

【e-mail】: 随便填一个

【frontier】:retry-delay-seconds与max-retries两项数值改小,以免碰上坏链接会卡死
          Modules中的Writers改成MirrorWriterProcessor,这样网页以镜像方式存储

相关推荐

    heritrix-3.4.0-SNAPSHOT-src.zip

    Heritrix 是一个由 java 开发的、开源的网络爬虫,用户可以使用它来从网上抓取想要的资源。官网下载好像要翻墙,我下下来方便大家使用,这是3.4版本,配合heritrix-3.4.0-SNAPSHOT-dist.zip使用

    heritrix-1.14.3-src.zip

    在"heritrix-1.14.3"源代码中,开发者可以找到以下关键文件和目录: - `src/`:源代码目录,包含所有Heritrix组件的Java源文件。 - `config/`:配置文件,定义了爬虫的行为和组件设置。 - `build.xml`:Ant构建文件...

    heritrix-1.14.4-src

    在"heritrix-1.14.4"这个版本中,可能包含以下文件和目录: 1. **src**:源代码目录,包含了所有Java源文件和其他编程语言的源代码。 2. **build**:构建脚本和配置,如Ant或Maven的build.xml文件,用于编译和打包...

    heritrix-1.14.4.zip 和 heritrix-1.14.4-src.zip

    Heritrix 1.14.4是该工具的一个版本,提供了两个压缩包:`heritrix-1.14.4.zip`和`heritrix-1.14.4-src.zip`。这两个文件分别包含了不同的内容,便于用户根据需求进行使用和开发。 `heritrix-1.14.4.zip` 包含了...

    Eclipse下配置Heritrix

    Eclipse下配置Heritrix,具体配置步骤详细介绍。

    heritrix-1.12.1-src.zip与heritrix 配置文档

    heritrix-1.12.1-src.zip与heritrix 配置文档

    heritrix-3.4.0-SNAPSHOT-dist.zip

    - `heritrix-3.4.0-SNAPSHOT`目录:这是Heritrix的主目录,包含了所有运行所需的基本文件,如jar包、配置文件、文档等。 - `bin`子目录:存放启动和停止Heritrix的脚本,通常在Unix/Linux环境下使用`start.sh`和`...

    Heritrix Eclipse下环境配置

    - 复制`heritrix-1.14.4-src\src\conf`目录到`MyHeritrix`项目的根目录,其中包含了Heritrix运行所需的配置文件。 - 最后,复制`heritrix-1.14.4-src\src\webapps`目录到`MyHeritrix`项目的根目录。该目录包含了...

    heritrix下载及配置

    如果你在Eclipse环境中配置Heritrix,步骤如下: 1. 解压heritrix-1.14.0-RC1.zip和heritrix-1.14.0-RC1-src.zip,将jar文件放在E:/MyWork/heritrix/heritrix-1.14-jar目录下,源码放在E:/MyWork/libs/heritrix/...

    heritrix-1.14.3

    在Heritrix-1.14.3的压缩包中,可能包含以下内容: - **源代码**:包括Java源文件和相关的构建脚本,用于编译和部署Heritrix。 - **配置文件**:默认的XML配置文件,定义了爬虫的基本行为。 - **文档**:可能包含...

    Heritrix1.14.3配置流程

    Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具

    Heritrix-User-Manual.rar_heritrix

    在Heritrix中,每个爬取任务被称为“CrawlerJob”。创建新任务需要定义种子URLs,这些是爬虫开始抓取的起点。你还需要配置爬取策略,比如设置爬取深度、遵循或忽略的链接模式、抓取频率等。此外,还可以设置过滤器...

    heritrix-1.14.4-docs.rar

    "heritrix-1.14.4-docs.rar"这个压缩包包含了该版本的文档,帮助用户理解和使用Heritrix。 文档通常包括用户手册、开发者指南、API参考等,这些内容对于熟悉Heritrix的架构、配置和编程接口至关重要。由于文件较大...

    heritrix的安装和配置[归纳].pdf

    - 将`heritrix-1.14.3.jar`中的`profiles`文件夹复制到`conf`目录下。 - 修改`conf`目录下的`heritrix.properties`文件,设置管理员用户名和密码: ```properties heritrix.cmdline.admin = admin:admin ...

    heritrix-1.14.0-src 网络爬虫

    6. **日志与监控**:Heritrix提供了详尽的日志系统,记录爬取过程中的各种事件,有助于调试和优化。同时,它还支持实时监控,显示爬虫的运行状态,如速度、已抓取页面数量等。 7. **数据存储**:Heritrix可以将抓取...

    heritrix 的详细配置 与 使用资料

    在配置过程中可能会遇到的错误是 `java.lang.UnsupportedClassVersionError`,这通常表示你的 Java 运行环境版本与 Heritrix 需要的版本不匹配。解决这个问题的方法是检查你的 JDK 版本,确保它与 Heritrix 的需求...

    Heritrix1.14.3配置流程[参考].pdf

    ### Heritrix 1.14.3 配置流程详解 #### 一、概述 Heritrix是一款开源网络爬虫工具,专为数字图书馆、档案馆等机构设计,用于采集网页数据并进行归档保存。Heritrix以其高度定制化和强大的功能,成为众多数字档案...

    Heritrix安装详细过程

    将`heritrix-1.14.4-src\lib`目录下的所有工具类库导入`MyHeritrix`工程中: - 将`heritrix-1.14.4-src`下的`lib`文件夹复制到`MyHeritrix`项目的根目录。 - 在`MyHeritrix`工程上右键单击选择“Build Path &gt; ...

    heritrix-1.14.0-src

    在解压后的`heritrix-1.14.0`目录中,通常会包含以下结构: - `src` 目录:存放源代码文件,包括主要的Java类和配置文件。 - `build.xml`:Ant构建文件,用于编译和打包项目。 - `README` 和 `LICENSE` 文件:提供...

Global site tag (gtag.js) - Google Analytics