`
liuli3163
  • 浏览: 3337 次
  • 性别: Icon_minigender_1
  • 来自: 厦门
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

我的经历指———让heritrix爬起来

阅读更多
     这几天没事就在折腾hertrix,因为毕设就是做搜索引擎的。以前也没接触过这方面的东西,所以就按指导老师的推荐借了几本搜苏引擎的书在家看。然后首先就按《开发自己的搜苏引擎Lucene2.0+Hertrix》来玩Heritrix来抓。首先想偷懒就直接在verycd上找了那本书的光碟直接把作者配置好的heritrix项目导到自己的Myeclipse里运行,然后完全按着书上的步骤一步一步配置,结果配置好了点start,抓取总是显示30 queued等了半个小时还没抓到一个网页。    。到了第二晚上又继续奋战,去网上找别人的配置过程,然后每个每个的试,但还是出现那老问题。我怀疑可能原书配置好的heritrix可能有问题。就直接去官网下了个1.14.3版本(我用软件一般不会用最新版,怕不稳定)

然后去网上找了很多别人的配置过程,最后我把配置成功的几篇过程转过来然后加些自己的补充,希望对你们又帮助:


1、下载heritrix-1.14.3-src.zip和heritrix-1.14.3.zip两个压缩包,并解压,以后分别简称SRC包和ZIP包;

2、在Eclipse下新建Java项目,取名Heritrix;(如我打开Eclipse的工作区在D:\eclipse\workplace下,当我建了项目Heritrix后,我就可以找到D:\eclipse\workplace\Heritrix文件夹.其中包含两个工程属性文件.classpath 和.project和两个文件夹src和bin,接着把bin文件夹删掉)
3、复制SRC包下面src/java文件夹下org、com、st三个文件夹到项目根目录下的src文件夹下(即D:\eclipse\workplace\Heritrix\src);
4、复制SRC包下src下resources和conf文件夹到项目根目录(D:\eclipse\workplace\Heritrix);
5、复制SRC包下lib文件夹到项目根目录(即D:\eclipse\workplace\Heritrix);

6、复制ZIP包下webapps文件夹到项目根目录(D:\eclipse\workplace\Heritrix);
      补充1点:(将项目conf文件夹下的modules文件夹剪切到bin目录下),否则后面可能在配置抓取种子时,在Modules选项出现没有下拉框给你选。

做好了以上,在Eclipse中Heritrix项目右击刷新一下,就可以看到刚才所复制的包了。
7、在Eclipse中修改项目conf下heritrix.properties文件(
修改内容至少两个两个地方:
       @VERSION@ 改为 1.14.3
      heritrix.cmdline.admin = 改为 heritrix.cmdline.admin = admin:xxm (这里是用户名与密码,可任读者设定.)
      heritrix.cmdline.port = 改为 heritrix.cmdline.port = 8080 (注默认是8080的如果你已占用了这个端口号的话,要设另一个才行,虽然我电脑上的tomcat、
端口也是8080但我试了下只要你不开tomcat这里默认的8080还是能用,但我还是改为了8088)

接下来配置myeclipse下的conf文件下的Heritrix.properties,主要配置四项:如下红色部分所示

##############################################################################

# Properties with prefixes 'heritrix.', 'org.archive.', or 'system.' prefix
# get copied into System.properties on startup so available via
# System.getProperties. (For 'system.' properties, that prefix is stripped.
# (See Heritrix.loadProperties()).

# Version is filled in by the maven.xml pregoal. It copies here the project
# currentVersion property.
heritrix.version = 1.14.3

# Location of the heritrix jobs directory.
heritrix.jobsdir = jobs

# Default commandline startup values.
# Below values are used if unspecified on the command line.
heritrix.cmdline.admin = admin:admin
heritrix.cmdline.port = 8088
heritrix.cmdline.run = false
heritrix.cmdline.nowui = false
heritrix.cmdline.order =
heritrix.cmdline.jmxserver = false
heritrix.cmdline.jmxserver.port = 8081

##############################################################################

改好了以上的,别忘了保存一下哦.
8、在项目Heritrix上右键选择构建路径->配置构建路径->库选项卡->添加Jar,将lib目录下的所有.jar文件选中,点击完成!

9.将conf文件夹下改好的heritrix.properties 文件复制一份到src文件夹(这一步不知道是不是必须的,我是在别人博客说这样好些)

10.将myeclipse的Hertrix项目的src文件夹改名为sourcefolder(我开始没这样做后来报了异常,开始还没太在意,仍然如数http://localhost:8088:

错误:“null”
致命错误:“无法编译样式表”
12/24/2008 10:34:05 +0000 严重 org.archive.crawler.framework.WriterPoolProcessor getFirstrecordBody Failed transform javax.xml.transform.TransformerConfigurationException: 无法编译样式表
12/24/2008 10:34:05 +0000 严重 org.archive.io.arc.ARCWriter getMetadataLength Unsupported metadata type: null
12/24/2008 10:34:15 +0000 严重 org.archive.io.arc.ARCWriter getMetadataLength Unsupported metadata type: null

然后在进去heritrix后的Modules页面也会不会出现那些change和add按钮让选择,当你配置完了后运行还会警告。

13.在Eclipse下启动Heritrix,找到项目src下的org.archive.crawler包下的主类Heritrix.java鼠标右键->运行。等成功看到heritrix版本信息后就说明你运行成功了。
然后接下来进去后配置抓取网站的信息网上很多,那个也很简单我也就不太啰嗦了。
分享到:
评论

相关推荐

    heritrix爬虫安装部署

    ### Heritrix爬虫安装部署知识点详解 #### 一、Heritrix爬虫简介 Heritrix是一款由互联网档案馆(Internet Archive)开发的开源网络爬虫框架,它使用Java语言编写,支持高度定制化的需求。Heritrix的设计初衷是为了...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)_随书光盘.rar

    《开发自己的搜索引擎——Lucene+Heritrix(第2版)_随书光盘.rar》是一个包含资源的压缩包,主要用于帮助读者深入理解并实践搜索引擎的开发。Lucene和Heritrix是两个重要的开源工具,它们在构建搜索引擎的过程中起着...

    开发自己的搜索引擎——Lucene+Heritrix

    《开发自己的搜索引擎——Lucene+Heritrix》是一本深入探讨如何构建自定义搜索引擎的书籍,结合了Apache Lucene和Heritrix两个强大的开源工具。Lucene是Java开发的全文检索库,而Heritrix则是一款功能丰富的网络爬虫...

    网络爬虫Heritrix1.14.4可直接用

    Heritrix是一款强大的开源网络爬虫工具,由互联网档案馆(Internet Archive)开发,主要用于抓取和保存网页内容。Heritrix 1.14.4是该软件的一个较早版本,但依然具有广泛的适用性,尤其对于学习和研究网络爬虫技术...

    heritrix爬虫工具的使用

    Heritrix是一款开源的网络爬虫工具,由互联网档案馆(Internet Archive)开发,用于抓取互联网上的网页和资源。这个强大的工具允许用户自定义抓取策略,以便于构建自己的网络数据采集系统。Heritrix提供了高度可配置...

    Heritrix爬虫处理方案V1.0

    安装部署好的Heritrix爬虫总共有28个jar包(不包括系统jar包)。关于Heritrix的安装配置及使用方法在文档末尾给出网址链接。在Eclipse中安装配置完成后,运行Heritrix.java启动爬虫,在浏览器地址栏中输入:...

    heritrix爬虫,安装tomcat

    Heritrix是一个基于Java的爬虫框架,支持深度爬取、断点续爬、URL过滤和内容处理等功能。它的灵活性和扩展性使得开发者可以根据需求定制各种爬取策略。 1. **下载与安装Heritrix** - 访问Heritrix的官方网站或...

    Heritrix 网络爬虫

    Heritrix is the Internet Archive's open-source, extensible, web-scale, archival-quality web crawler project. Heritrix (sometimes spelled heretrix, or misspelled or missaid as heratrix/heritix/ heretix...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)_含书(PDF)和光盘

    《开发自己的搜索引擎——Lucene+Heritrix(第2版)》是一本深入探讨如何构建搜索引擎的专著,其中包含了Lucene和Heritrix两个关键工具的详细使用指南。这本书旨在帮助开发者理解搜索引擎的工作原理,并提供实践性的...

    [开发自己的搜索引擎——Lucene.Heritrix(第2版)[CD资源包]].Lucene.rar

    《开发自己的搜索引擎——Lucene.Heritrix(第2版)[CD资源包].Lucene.rar》这个压缩包文件,显然包含的是与构建自定义搜索引擎相关的资源,主要聚焦于两个核心工具:Lucene和Heritrix。这两者在信息技术领域,特别是...

    开发自己的搜索引擎——Lucene+Heritrix(第2版)光盘内容

    总的来说,"开发自己的搜索引擎——Lucene+Heritrix(第2版)光盘内容"提供了一个完整的解决方案,涵盖了从数据抓取到搜索引擎构建的整个流程。通过学习和实践,开发者可以掌握构建高效、功能丰富的搜索引擎的技术,这...

    heritrix网络爬虫

    Heritrix是一个开源,可扩展的web爬虫项目。用户可以使用它来从网上抓取想要的资源。Heritrix设计成严格按照robots.txt文件的排除指示和META robots标签。其最出色之处在于它良好的可扩展性,方便用户实现自己的抓取...

    开发自己的搜索引擎——Lucene+Heritrix(第2版).part1.rar

    开发自己的搜索引擎 Lucene Heritrix 第2版

    heritrix1.14.0jar包

    标题中的"heritrix1.14.0jar包"指的是Heritrix的1.14.0版本的Java档案文件(JAR),这是运行或构建Heritrix爬虫项目所必需的库。 Heritrix的工作原理是通过模拟浏览器行为,逐个访问网页并按照预设的策略下载页面。...

    Heritrix爬虫源码

    首先,让我们深入了解一下Heritrix的核心概念和技术特点: 1. **模块化架构**:Heritrix基于组件模型构建,包括种子管理、URL过滤、HTTP请求处理、内容解析等多个模块。每个模块都可以独立配置和替换,以满足特定的...

    Heritrix安装详细过程

    ### Heritrix安装详细过程及配置指南 #### 一、Heritrix简介 Heritrix是一款开源的网络爬虫工具,被广泛应用于互联网资源的抓取与归档工作。相较于其他爬虫工具,Heritrix提供了更为精细的控制机制,能够帮助用户...

    Heritrix构建特定站点爬虫

    ### Heritrix构建特定站点爬虫 #### 一、Heritrix概述 Heritrix是一款由Java语言开发的开源网络爬虫工具,以其强大的可扩展性和灵活性受到开发者的青睐。这款工具不仅支持从互联网上抓取指定的网页,还允许用户...

    Heritrix网络爬虫

    Heritrix是一款强大的开源网络爬虫工具,由Internet Archive开发并维护,被广泛用于数据挖掘、网站备份和学术研究等领域。这款爬虫以其高度可配置性和模块化设计著称,允许用户根据需求定制爬取策略。 Heritrix的...

Global site tag (gtag.js) - Google Analytics