`
xxtianxiaxing
  • 浏览: 691052 次
  • 性别: Icon_minigender_1
  • 来自: 陕西
社区版块
存档分类
最新评论

heritrix 1.14.3 源码部署 配置

阅读更多
关于搜索引擎书籍中国目前比较少,有过这方面了解的朋友一般都看过2007年人民邮电出版 lucene 2.0+heritrix 这本书吧。本人感觉还不错,理论知识较少点,具体步骤还比较详细。适合初学者。 

      简单介绍下heritrix: heritrix 是Java编写的开源爬虫。 扩展性比较好,但是配置适合的采集规则,比较复杂难理解。适合学习和研究。 

      此书中的heritrix在eclipse中的配置写的不够详细,我把自己成功的配置贡献给大家。 

首先要去官网下载最新版本的heritrix。下载地址为: 

http://sourceforge.net/project/showfiles.php?group_id=73833&package_id=73980
选择文件注意为zip后缀格式的,gz格式为linux下文件。 

选择这两个文件heritrix-1.14.3-src.zip   heritrix-1.14.3.zip 下载。 



       把下载好的文件解压。 



       配置过程: 

1、新建Java Project工程 

在Eclipse中新建一个Java Project工程(注意:一定是Java Project的工程,不是Web Project工程),工程名称为Heritrixproject。(名字可随便起) 

以我的为例,对应地,工程Heritrixproject在本地磁盘目录D:\eclipse-SDK-3.2.1-win32\workspace下面。 

可以在目录D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject下面看到:两个工程属性文件.classpath和.project、两个文件目录bin和src。 

删除掉两个文件目录bin和src。 

2、向新建的Java Project添加Heritrix-1.14.3文件 

(1) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\java\下面的三个目录:org、com、st一起拷贝到新建工程Heritrixproject目录下面(绝对路径为D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject)。 

(2) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\conf\下面的:三个目录(包括:modules、profiles、selftest),以及四个文件(包括:heritrix.properties、jmxremote.password.template、heritrix.cacerts、jndi.properties)一起拷贝到新建的工程Heritrixproject目录下面。 

(3) 将目录E:\Heritrix\heritrix-1.14.3-src\heritrix-1.14.3\src\resources\下面的三个文件(包括:arcMetaheaderBody.xsl、README.txt,其中README.txt没有用处是显而易见的)拷贝到新建的工程Heritrixproject目录下。 

(4) 将目录E:\Heritrix\heritrix-1.14.3\heritrix-1.14.3\下面的webapps目录拷贝到新建工程Heritrixproject目录下面(绝对路径为D:\eclipse-SDK-3.2.1-win32\workspace\Heritrix-1.14.3),这里,webapps目录下面有两个WAR包(即admin.war和selftest.war)。 

(5)将E:\Heritrix\heritrix-1.14.3\heritrix-1.14.3\下的lib文件夹拷贝到工程下。 

3、修改新建的Java Project工程的配置文件 

(1) 打开目录D:\eclipse-SDK-3.2.1-win32\workspace\Heritrixproject下面的.classpath文件,可以看到共有下面6行: 
<?xml version="1.0" encoding="UTF-8"?>
<classpath>
<classpathentry kind="src" path="src"/>
<classpathentry kind="con" path="org.eclipse.jdt.launching.JRE_CONTAINER"/>
<classpathentry kind="output" path="bin"/>
</classpath>


可以看到,新建Java Project工程之后,src是资源目录,所以在Eclipse开发平台上,在src下面新建的资源目录呈包结构组织。kind属性指定工程中显示的资源目录,path指定了在该path(Eclipse默认为src)下的资源目录都呈包结构组织。 

将上面的内容做很大的修改,修改内容如下所示:(注意:这个地方里面的lib下的jar就是拷贝到工程下lib里面的jar。如果你用的最新版本的可能与这个jar文件不一样,这个你就要做相应的修。此时的最新版本为heritrix-1.14.3) 



其中: 

上面的中,指定src为&quot;&quot;,这表示,只要在该工程的根目录下面建的目录资源都呈现表结构组织; 

上面的kind为lib,对应的就是我们拷贝到工程目录下面的lib,path的值就是该lib目录下面的所有的jar文件。 

4.配置外部jar包, 

      切换到eclipse窗口下,刷新下工程。 

右键单击工程,选择【Build Path】—&gt; 【Add External Archives】在弹出的窗口中选择添加目录heritrix-1.12.1-src\heritrix-1.12.1\lib。 

再次刷新下工程。没有错误提示了。 

5、修改heritrix.properties属性文件 

打开heritrix.properties属性文件,可以看到默认情况下,Heritrix-1.14.3的属性文件如下所示: 

############################################################################## 
# H E R I T R I X P R O P E R T I E S 
############################################################################## 

# Properties with 'heritrix.' or 'org.archive.crawler.' prefix get loaded 
# into System.properties on startup so available via System.getProperties. 

# Version is filled in by the maven.xml pregoal. It copies here the project 
# currentVersion property. 
heritrix.version = @VERSION@

# Location of the heritrix jobs directory. 
heritrix.jobsdir = jobs 

# Default commandline startup values. 
# Below values are used if unspecified on the command line. 
heritrix.cmdline.admin = 
heritrix.cmdline.port = 8080 
heritrix.cmdline.run = false 
heritrix.cmdline.nowui = false 
heritrix.cmdline.order = 
heritrix.cmdline.jmxserver = false 
heritrix.cmdline.jmxserver.port = 8081 

上面四行红色标识的代码行,一般来说,需要修改。 

第一行,heritrix.version指定了Heritrix的版本号,因为我们测试的是版本号为1.14.3,修改为: 

heritrix.version = 1.14.3 

第二行,heritrix.jobsdir指定了Heritrix在执行抓取任务时,抓取到的内容存放的目录,默认在工程下面的jobs目录下面。 

第三行,heritrix.cmdline.admin指定了登录WebUI时使用的帐号,默认为空,可以自己随意设定,设定需要按照一定的格式(用户名:密码),我们修改为: 

heritrix.cmdline.admin = admin:admin 

其中,用户名和密码使用“:”分隔。 

第四行,heritrix.cmdline.port指定了运行Heritrix后台程序,监听的WebUI使用的端口号,默认为8080端口,可以设置一个当前没有占用的端口号,比如我们修改为: 

heritrix.cmdline.port = 9090 

、启动Heritrix后台程序 

回到Eclipse平台窗口,找到新建的Java Project工程Heritrixproject中,资源包org.archive.crawler下面的Java类文件Heritrix.java,右键单击Heritrix.java文件,选择【Run As】—&gt; 【Java Application】选项,便看见Heritrix后台已经启动了,在Eclipse控制台【Console】中可以看到启动过程的详细信息,如下所示: 


7、登录WebUI 

现在,可以成功登录WebUI,设置抓取任务了。 

在浏览器地址栏中键入地址链接 http://localhost:9090,可以看到WebUI登录界面. 

至此heritrix的配置就完成了,以后就要开始抓起信息,后面我还会把heritrix的抓取配置分享给大家。 



本文来自CSDN博客,转载请标明出处:http://blog.csdn.net/lifesoftware/archive/2009/06/04/4238315.aspx

  • 大小: 63.5 KB
分享到:
评论

相关推荐

    Heritrix1.14.3配置流程

    Heritrix1.14.3配置流程 收索引擎配置 简单的抓包工具

    Heritrix1.14.3配置流程[参考].pdf

    本文将详细介绍Heritrix 1.14.3版本的配置流程,包括安装准备、环境搭建、配置文件调整等方面,帮助读者顺利部署和运行Heritrix。 #### 二、准备工作 1. **下载Heritrix** 首先,前往Heritrix的官方下载页面...

    heritrix正确完整的配置heritrix正确完整的配置

    1. **启动与安装**: 首先,你需要下载Heritrix的源码或预编译的二进制包,根据系统环境进行安装。安装完成后,通过命令行启动Heritrix,如在Java环境中使用`java -jar heritrix.jar`。 2. **配置文件结构**: ...

    heritrix-1.14.3-src.zip

    "heritrix-1.14.3-src.zip"是一个包含了Heritrix 1.14.3版本源代码的压缩文件,对于那些希望深入理解其工作原理或者想要自定义功能的开发者来说,这是一个宝贵的资源。 Heritrix的核心设计基于模块化架构,允许...

    heritrix3.2源码

    2. **可配置性**:Heritrix 提供了丰富的配置选项,用户可以通过XML配置文件来定义爬取策略,如设置并发度、爬取深度、URL黑白名单等。 3. **多线程处理**:Heritrix 使用多线程并行处理请求,提高了爬取效率。 4. *...

    heritrix-1.14.3

    - **源代码**:包括Java源文件和相关的构建脚本,用于编译和部署Heritrix。 - **配置文件**:默认的XML配置文件,定义了爬虫的基本行为。 - **文档**:可能包含用户手册、API参考和开发指南,帮助用户理解和使用...

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...

    heritrix1.14.4源码+项目

    这个“Heritrix1.14.4源码+项目”压缩包包含的是Heritrix 1.14.4版本的源代码和相关项目文件,对于学习和理解Web爬虫的工作原理,以及进行自定义开发是非常有价值的。 Heritrix的核心功能是通过模拟浏览器行为来...

    heritrix源码

    这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码,以及相关的学习资料,对于深入理解Heritrix的工作原理、定制爬虫功能以及进行二次开发非常有帮助。以下将详细介绍Heritrix的关键知识点。 1. **...

    heritrix1.14.4源码包

    heritrix1.14.4的源码包,包含heritrix1.14.4.zip和heritrix1.14.4-src.zip。heritrix是一种开源的网络爬虫,用于爬去互联网中的网页。如何配置和使用heritrix爬虫,请移步:...

    heritrix的安装和配置[归纳].pdf

    ### Heritrix的安装与配置详解 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具,由互联网档案馆(Internet Archive)开发。它主要用于网络资源的采集与归档,支持多种抓取策略和过滤规则,能够高效地收集...

    Heritrix1.14.4(含源码包)

    Heritrix 1.14.4是该软件的一个较早版本,包含了完整的源码,因此用户可以对其进行深度定制和调试。 在开始使用Heritrix 1.14.4之前,你需要了解以下几个核心知识点: 1. **爬虫基础**:Heritrix是一个Web爬虫,其...

    Heritrix的安装与配置

    在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的...

    lucene2.0+Heritrix配套源码

    1. **配置和定制(Configuration and Customization)**:Heritrix允许用户通过XML配置文件来定制爬取规则,如URL过滤、深度限制和下载策略。 2. **URL队列(URL Queuing)**:管理待抓取的URL,并根据策略决定抓取...

    Lucene+Heritrix 源码

    **Lucene 和 Heritrix 源码分析** 在IT领域,搜索引擎的开发是一项复杂而重要的任务,它涉及到大量的文本处理、索引构建以及高效的查询算法。Lucene 和 Heritrix 是两个开源工具,分别专注于搜索的核心算法和网页...

    Heritrix 配置

    它的配置和部署过程对于开发者来说是至关重要的,以下将详细讲解如何在Eclipse环境中配置Heritrix的开发环境。 首先,你需要下载两个压缩包:heritrix-1.14.3-src.zip和heritrix-1.14.3.zip。SRC包包含了源代码,...

    Heritrix 源码和Jar

    使用`heritrix-1.14.4.zip`构建自己的Heritrix实例,需要理解其配置文件、依赖管理和部署流程。这涉及到Java开发环境的设置、Maven或Ant的使用,以及如何启动和监控爬虫。 9. **最佳实践**: 在实际应用中,合理...

    heritrix-3.2.0 源码

    总之,Heritrix 3.2.0 的源码是一个丰富的学习资源,涵盖了网络爬虫开发的多个方面,包括网络编程、HTML解析、并发控制、配置管理等。深入学习和理解这些知识点,不仅可以提升你的编程技能,也有助于你构建自己的...

Global site tag (gtag.js) - Google Analytics