`

Heritrix简单又全面的入门

阅读更多
     最近开始接触Heritrix,听书说,配置很麻烦,一开始我也无从下手,上网找了下,很多都是超级无敌烦又多,不过我得感谢yeniu040209这位仁兄的资料,再加上我的一些经验,把我的入门配置与大家分享下:
  1)下载heritrix-1.14.3.zip和heritrix-1.14.3-src.zip
  2)解压,并在eclipse或者myEclipse中配置heritrix工程,不过要建java工程
  3)jdk1.5及以上,compliance level 1.5及以上
  4)文件配置如下,将heritrix-1.14.3下的src/conf和src/webapps目录放到工程目录下面
  5)修改conf目录下面的heritrix.properties文件,两个地方:
       @VERSION@ 改为 1.14.3(下载的版本号)
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm(自己喜欢,但账号和密码一定要用:隔开)
      heritrix.cmdline.port =  改为 heritrix.cmdline.port = 8080(自己喜欢,选择一个没有冲突的)
6)将conf目录下面的modules目录放到src/java目录下面
7)将heritrix-1.14.3-src\heritrix-1.14.3\src\java下的org和st两个文件夹放入工程的src目录下
7)运行该工程src下的org.archive.crawler.heritrix.java文件即可运行heritrix
如果运行出现如下:02:33:29.765 EVENT  Starting Jetty/4.2.23
02:33:29.921 EVENT  Started WebApplicationContext[/,Heritrix Console]
02:33:30.000 EVENT  Started SocketListener on 127.0.0.1:8090
02:33:30.000 EVENT  Started org.mortbay.jetty.Server@bf32c
Heritrix version: @1.14.3@,这表示成功。。。。。。。。。。。。。。。。。。。。在这我还要补充一下。。。。。。。。。。。。如果有人在运行WebUI时出现Bad version number in .class file。。。可以第一步先看看你在myeclipse里的tomcat的里的jdk用的是不是你本机的jdk还是myeclipse自带的,把自带的改为java里自带的那个,我就是这样解决的。
2 .在运行http://127.0.0.1:8080/ 时遇到以下错误,在页面中:
HTTP ERROR: 500 Unable+to+compile+class+for+JSP%0A%0AAn+error+occurred+at+line%3A+%   2D1+in+the+jsp+file%3A+null%0A%0AGenerated+servlet+error%3A%0A++++%5Bjavac%     5D+Compiling+1+source+file%0A%0A%0A

        你检查一下wegapps目录下面有没有 admin.war,selftest.war

      这两个文件, 需要将admin.war,selftest.war 复制到其下面.
。。哈哈
分享到:
评论
1 楼 tianwaishan 2010-02-05  
学习中   

相关推荐

    Heritrix的使用入门

    Heritrix是一个强大的开源Web网络爬虫,由Java编写,主要功能是从互联网上抓取数据,为搜索引擎提供丰富的资源。它的可扩展性是其一大亮点,允许开发者自定义组件以适应不同的抓取需求。Heritrix最初来源于...

    Heritrix3.0教程 使用入门(三) 配置文件crawler-beans.cxml介绍.docx

    Heritrix 3.0 是一个强大的网络抓取框架,其设计目的是为了高效、灵活地爬取互联网上的信息。在Heritrix 3.0中,`crawler-beans.cxml` 文件扮演着至关重要的角色,它是整个爬虫的配置中心,负责定义和管理爬虫的行为...

    很好的heritrix学习资料

    总的来说,这些资料提供了全面的Heritrix学习路径,从基础知识到实战经验,再到在Eclipse中的开发配置,对于想要深入理解和使用Heritrix的读者来说,是一套非常有价值的学习资源。通过深入研读并实践这些内容,读者...

    Heritrix安装详细过程

    ### Heritrix安装详细过程及配置指南 #### 一、Heritrix简介 Heritrix是一款开源的网络爬虫工具,被广泛应用于互联网资源的抓取与归档工作。相较于其他爬虫工具,Heritrix提供了更为精细的控制机制,能够帮助用户...

    Heritrix用户手册

    Heritrix用户手册,Heritrix简介与入门 Heritrix配置与开发指南

    heritrix-1.14.2.zip

    Heritrix 1.14.2 是一个开源的网络爬虫工具,它主要用于抓取互联网上的网页和其他在线资源。...尽管现在有更新的版本(如Heritrix 3.x系列)可用,但1.14.2版本仍具有很高的历史价值和学习价值,尤其适合初学者入门。

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    heritrix1.14.0jar包

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页数据。在IT行业中,爬虫是获取大量网络数据的重要手段,Heritrix因其灵活性、可扩展性和定制性而备受青睐。标题...

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...

    Heritrix(windows版)

    Heritrix是一款开源的网络爬虫软件,专为大规模网页抓取而设计。这款工具主要用于构建互联网档案馆、搜索引擎的数据源以及其他需要大量网页数据的项目。Heritrix由Internet Archive开发,支持高度可配置和扩展,能够...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是部署和调试Heritrix的理想平台。 安装Heritrix在MyEclipse中的基本步骤通常包括: 1. 解压缩"heritrix-1.14.4.zip"到本地目录。 2. ...

    Heritrix搭建好的工程

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页内容。这款工具被设计为可扩展和高度配置的,允许用户根据特定需求定制爬取策略。在本工程中,Heritrix已经被预...

    heritrix-3.1.0 最新jar包

    Heritrix 3.1.0 是一个强大的网络爬虫工具,主要用于抓取和存档互联网上的网页。这个最新版本的jar包包含了Heritrix的核心功能,为用户提供了一个高效的网页抓取框架。Heritrix的设计理念是模块化和可配置性,使得它...

    Heritrix3手册翻译

    它在2009年12月发布了3.0.0版本,并随着时间的推移不断更新,提供了3.0.1补丁版和3.2.0版,增加了新的特性和功能,比如更简单的使用方式、持续爬行以及处理大规模爬行任务的能力。Heritrix 3 的文档包括用户指南和...

    Heritrix使用详解与高级开发应用

    Heritrix是一个强大的Java开发的开源网络爬虫,主要用于从互联网上抓取各种资源。它由www.archive.org提供,以其高度的可扩展性而著称,允许开发者自定义抓取逻辑,通过扩展其内置组件来适应不同的抓取需求。本文将...

    Heritrix部署直接能运行的项目

    Heritrix是IA的开放源代码,可扩展的,基于整个Web的,归档网络爬虫工程 Heritrix工程始于2003年初,IA的目的是开发一个特殊的爬虫,对网上的 资源进行归档,建立网络数字图书馆,在过去的6年里,IA已经建立了400...

    heritrix源码

    Heritrix是互联网档案(Internet Archive)开发的一款开源网络爬虫工具,用于系统地抓取、存储和归档网页。这个“Heritrix源码”压缩包可能包含了Heritrix项目的完整源代码,以及相关的学习资料,对于深入理解...

    heritrix正确完整的配置heritrix正确完整的配置

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取和保存网页。它的配置是整个爬虫工作的关键,确保Heritrix正确完整地配置对于实现高效、有针对性的网络抓取至关重要。以下将...

Global site tag (gtag.js) - Google Analytics