`

heritrix 下载、安装、配置、以及简单开发

阅读更多

heritrix下载及配置

一、下载:到www.sourceforge.net网站搜索heritrix,然后分别下载下来heritrix-1.14.0-RC1.zip,heritrix-1.14.0-RC1-src.zip

二、配置

     .在非开发环境下配置的步骤

        1.解压heritrix-1.14.0-RC1.zip,假设解压到了c盘根目录下并把解压后的文件夹命名为heritrix

        2.进入c:\heritrix\conf复制文件jmxremote.password.template到c:\heritrix下并把文件重新命名为jmxremote.password,

          然后修改其内容为下:

           monitorRole @123456789@ ->monitorRole admin (@于@之间设置的是密码,后面是->用户角色用户名)

           controlRole @123456789@ ->controlRole shi

          并设置文件jmxremote.password的属性为只读

        3.进入c:\heritrix\conf打开文件heritrix.properties,修改其中的几项key-value值

          heritrix.cmdline.admin = admin:770629 (用户名:密码)

          heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就不用改了)

        4.打开cmd,切换目录到c:\heritrix\bin

          然后敲入命令:heritrix --admin=admin:123456789

 

      .在eclipe中配置并启动的步骤

       1.首先解压heritrix-1.14.0-RC1.zip得到heritrix-1.14.0-RC1.jar,然后解压jar包,再解压heritrix-1.14.0-RC1-src.zip

        2.我把两个解压后的jar文件和heritrix-1.14.0-RC1-src.zip分别放在了E:\MyWork\heritrix\heritrix-1.14-jar目录下和

                E:\MyWork\libs\heritrix\heritrix-1.14.0-RC1-src\heritrix-1.14.0-RC1目录下

        3.创建一个动态Web工程

        4.把 E:\MyWork\heritrix\heritrix-1.14.0-RC1\lib目录下的所有jar文件导入工程,并且复制到工程下面的

            WebContent\WEB_INF下面,工程会自动把这些jar放在Web App Libraries里面

        5.把E:\MyWork\libs\heritrix\heritrix-1.14.0-RC1-src\heritrix-1.14.0-RC1\src\java下的com,org,st这三个目录都拷贝到

         工程src下面

        6.把 E:\MyWork\heritrix\heritrix-1.14-jar下的modules,arcMetaheaderBody.xsl,heritrix.properties,其修该内容是:

             heritrix.cmdline.admin = admin:770629 (用户名:密码)

             heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就不用改了)

             然后将其拷贝到工程src下面

        7.把 E:\MyWork\libs\heritrix\heritrix-1.14.0-RC1-src\heritrix-1.14.0-RC1\src下的webapps拷贝到工程目录下面

        8.在工程下面新建一个jobs文件夹,heritrix抓取的内容默认是放在该文件夹下面

        9.现在就可以运行主类Heritrix.java了,然后就可以以web的形式访问服务器了:http://localhost:8080/登录就ok了

1.登录界面:


2.登录后你会看到这个界面:


3.下面开始建立一个简单的抓取测试点击Jobs进入新建job界面

 

 

4点击defaul建立一个缺省抓取


5.点击Modules进行参数设置

 

除了以上两个组件外,还有五个队列要配置,这5个队列依次heritrix的处理器链

 

 

 

 

 

 

 

单击setting


      

进入setting的界面(只需要设置下面的两个参数就可以了,其他的不太了解了):

 

现在单击 Submitjob 再点击consol 然后点击start 抓取就开始了

 

下面是通过扩充框架来实现我们自己的抓取逻辑所要做的事情:

heritrix有多个扩展点,在这里我扩展了org.archive.crawler.FrontierScheduler

即写了一个类继承该类:

               覆盖 protected void schedule(CandidateURI caURI){

              //URL选择策略,只有符合这些条件的url才能进入等待抓取的队列

              //代码在此填充

        }

然后在Processor.Options内我们的类添加进来如:

ear.spider.postprocessor.FrontierSchedulerForPconlineMobile|FrontierSchedulerForPconlineMobile

表示把我们写的类添加到配置参数里

 

那么我们只需在抓取是选择我们自己抓取逻辑类就可以了。如图:

 

 

发表于 @ 2008年06月30日 16:41:00 | 评论( 8 ) | 编辑| 举报| 收藏

新一篇:java集合框架图
查看最新精华文章 请访问博客首页相关文章 liuminna 发表于2008年7月22日 18:30:02 IP:举报回复删除
在命令行输入 heritrix --admin=admin:admin
提示无法在后台启动heritrix,提示可能有以下原因:
a)login and password not been specified
b)another program uses the port for the web uI
c)jmx password file is missing or permissions not set correctly
新打开的窗口显示exception in thread "main" java.lang.NoClassDfFoundError:org/archive/crawler/heritrix
我设置的用户名密码都是按照你说的方法,请帮我找一下原因,谢谢!liuminna 发表于2008年7月22日 18:31:57 IP:举报回复删除
前面的操作“在非开发环境下配置的步骤

1.解压heritrix-1.14.0-RC1.zip,假设解压到了c盘根目录下并把解压后的文件夹命名为heritrix

2.进入c:\heritrix\conf复制文件jmxremote.password.template到c:\heritrix下并把文件重新命名为jmxremote.password,

然后修改其内容为下:

monitorRole @123456789@ ->monitorRole admin (@于@之间设置的是密码,后面是->用户角色用户名)

controlRole @123456789@ ->controlRole shi

并设置文件jmxremote.password的属性为只读

3.进入c:\heritrix\conf打开文件heritrix.properties,修改其中的几项key-value值

heritrix.cmdline.admin = admin:770629 (用户名:密码)

heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就不用改了)

”都进行了设置,不知问题在哪里

分享到:
评论

相关推荐

    heritrix下载及配置

    首先,Heritrix的下载过程非常简单。你可以访问www.sourceforge.net网站,搜索"heritrix",然后下载两个版本的文件:heritrix-1.14.0-RC1.zip(预编译版本)和heritrix-1.14.0-RC1-src.zip(源码版本)。下载完成后...

    Heritrix在windows下运行成功

    Heritrix的安装相对简单,下载Heritrix 1.12.0版本后,解压缩至指定目录,例如文中选择的是E盘根目录下的“heritrix”文件夹。Heritrix的安装并不需要复杂的步骤,主要是确保软件包中的所有文件都被正确放置。 ### ...

    Lucene+Heritrix(搜索引擎开发)

    值得注意的是,在使用Lucene和Heritrix开发搜索引擎时,我们还需要考虑系统架构、数据处理能力、存储解决方案以及系统的可扩展性与维护性。在设计之初,就要规划如何高效地处理和存储索引数据,以及如何应对搜索引擎...

    heritrix1.14.4源码+项目

    这个“Heritrix1.14.4源码+项目”压缩包包含的是Heritrix 1.14.4版本的源代码和相关项目文件,对于学习和理解Web爬虫的工作原理,以及进行自定义开发是非常有价值的。 Heritrix的核心功能是通过模拟浏览器行为来...

    Heritrix3手册翻译

    下载和安装Heritrix 3 可以从SourceForge或其他自动测试仓库获取。启动Heritrix 3 时,使用`bin/heritrix`脚本,并设置操作员密码。网络控制界面通过HTTPS协议在端口8443上提供服务。首次连接时,由于安全原因,...

    heritrix3.1 官方指导手册

    Heritrix 的安装过程相对简单,主要步骤如下: 1. **下载安装包**:从官方网站下载最新版本的安装包。 2. **解压文件**:将安装包解压到指定目录下。 3. **配置环境变量**:根据系统要求配置必要的环境变量,如 JAVA...

    heritrix-1.14.4爬虫框架及源码

    Heritrix支持多种策略和模块,如深度优先和广度优先的爬行策略,以及基于正则表达式或DOM结构的URL过滤器。此外,它还提供了丰富的接口,允许开发者编写自定义的模块,如新的爬行策略、内容处理器或存储适配器。这...

    lucene_heritrix 搜索引擎

    Lucene是一个高性能、全文本搜索库,由Apache软件基金会开发,它提供了一个简单的API来索引和搜索大量文本数据。Heritrix,另一方面,是一个开源的互联网档案爬虫,能够系统地抓取网页并保存为离线资源,以便于后续...

    Lucene2.0+Heritrix(源代码)

    Heritrix的强大之处在于其高度可配置性和扩展性,开发者可以通过自定义策略来控制爬取的行为,如深度优先或广度优先,以及选择性的抓取特定类型的资源。在源代码中,我们可以看到Heritrix如何处理HTTP请求,解析HTML...

    Heritrix网络爬虫

    Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...

    Heritrix developer_manual

    针对所有可配置模块的常见需求进行了说明,比如模块的定义、属性访问方式和如何组装一个简单模块。文档中还专门对URI类进行了介绍,说明了支持的协议(Scheme)、CrawlURI属性列表和记录流。 在编写自定义组件时,...

    《开发自己的搜索引擎-Lucene 2.0 Heritrix》cd(全)(下载地址)

    根据提供的文件信息,我们可以深入探讨与“开发自己的搜索引擎-Lucene 2.0 Heritrix”相关的知识点,主要包括Lucene 2.0和Heritrix的基本概念、特点以及如何利用它们来构建一个简单的搜索引擎。 ### 一、Lucene 2.0...

    搜索引擎Lucene+Heritrix(第二版)4

    此外,还可能涉及如何使用Lucene进行垂直搜索、自定义分析器和过滤器的开发,以及Heritrix的爬虫策略配置等。 6. **案例研究与实战**:书中的"ch13"可能包含了一些实际项目案例,指导读者如何将理论知识应用于实践...

    Heritrix user_manual.pdf

    Heritrix 是一款开源的、可扩展的、网络级别的、具有归档质量的网页抓取工具,它由 Internet Archive 开发。Heritrix 的用户手册提供了如何创建、配置和运行抓取任务的详细说明,适用于那些对网页抓取至少有基本了解...

    开发自己的搜索引擎--Lucene 2.0+Heritrix(爬虫)

    1. **Heritrix配置与设置**:如何启动和配置Heritrix爬虫,包括设置爬行规则、处理管道和爬行范围。 2. **Lucene索引构建**:详细讲解如何使用Lucene API创建索引,包括文档添加、删除和更新操作。 3. **数据分析与...

    Heritrix1.14.4

    总的来说,Heritrix1.14.4是一个功能全面且易用的网络爬虫工具,适合新手和专业开发人员进行网页数据的抓取和分析。其提供的网易扩展接口使得对特定网站的抓取更加简便,极大地提升了工作效率。如果你正在寻找一个...

    搜索引擎Lucene+Heritrix(第二版)2

    在《搜索引擎Lucene+Heritrix(第二版)2》中,你将学习如何配置和运行Heritrix,以及如何处理爬取过程中遇到的各种问题,比如网页编码、重定向和动态内容。 文件列表中的"ch7-9"可能指的是书籍的第七到第九章,这...

Global site tag (gtag.js) - Google Analytics