`
yuanyu5237
  • 浏览: 163669 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

heritrix下载,安装,使用

 
阅读更多
1.下载
到官网http://sourceforge.net/projects/archive-crawler/下载最新版,heritrix每个版本都提供4个下载文件(tar.gz, src.tar.gz,zip, src,zip)。我下载了:
heritrix-1.14.4.zip
heritrix-1.14.4-src.zip
两个文件。
2.安装
第一种是直接在命令行中配置,解压heritrix-1.14.4.zip到C盘根目录,并更名为heritrix,复制C:\heritrix\conf目录下的jmxremote.password.template文件到目录下,并更名为jmxremote.password,并像下面一样修改其内容(最后两行):
monitorRole @123456789@ ->monitorRole admin  (@于@之间设置的是密码)
controlRole @123456789@ ->controlRole shi    (后面是:->用户角色 用户名)
然后进入c:\heritrix\conf打开文件heritrix.properties,修改其中的几项key-value值
heritrix.cmdline.admin = admin:770629 (用户名:密码)
heritrix.cmdline.port = 8080 (heritrix服务器默认端口号8080,保证该端口不被占用就行了)
最后.打开cmd,切换目录到c:\heritrix\bin,敲入命令:heritrix --admin=admin:123456789
启动时,可能出现warning:
WARNING: It's currently not possible to run Heritrix in background
         on Windows. It was just started minimized in a new Window
         and will be shut down as soon as you log off.
不用管,我也不知道什么意思。
第2种是在eclipse(或myeclipse)中导入源码,运行。我在myeclipse中配置,首先,新建一个web project,解压之前下载的src.zip文件,从src中复制java文件夹下的org和st目录到工程的src目录下,复制src中conf文件夹到工程根目录下,复制src中lib目录下的所有jar文件到工程的WEB-INF目录下,从第一种方法中的heritrix目录中的webapps目录下复制admin.war和selftest.war到工程的WebRoot目录下,然后,修改conf文件夹下的heritrix.properties文件,如第一种方法所述即可。导入源码的过程中可能报一个错,找到错误,删除override注解即可。由于我使用的是myeclipse,所以还需要修改Heritrix.java中的getWarsdir()方法,修改其中的webapps为WebRoot即可。还可能报错,找不到tlds-alpha-by-domain.txt文件,从src中的resource目录下找到该文件,拷贝到相应位置即可。最后,运行Heritrix.java文件,即可启动heritrix。
3.使用
启动heritrix后,从浏览器http://127.0.0.1:8080/进入web UI界面,输入用户名密码。
第1个界面:

点击jobs进入第2个界面:

点击with defaults进入第3个界面,在seeds处输入要爬取的网站根域名:

点击modules进入第4个界面,如图倒数第3项,选择org.archive.crawler.writer.MirrorWriterProcessor:

点击setting进入第5个界面,如图,其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。

最后,点击sunmit job,在console界面就可以start程序了,启动程序后,heritrix会将爬取到的网页放在jobs目录下。
  • 大小: 53.8 KB
  • 大小: 42.8 KB
  • 大小: 54.9 KB
  • 大小: 73.3 KB
  • 大小: 18.2 KB
分享到:
评论

相关推荐

    网络爬虫Heritrix1.14.4可直接用

    8. **安全性与伦理**:使用Heritrix进行网络爬虫时,必须遵守网站的robots.txt规则,并尊重网站的版权。此外,合理的设置爬取速率和并发数,避免对目标服务器造成过大的压力。 9. **扩展与定制**:Heritrix是用Java...

    heritrix爬虫安装部署

    #### 二、Heritrix下载、安装与配置 ##### 2.1 下载 - **下载地址**: 通常可以从Heritrix的官方网站或GitHub仓库获取最新版本。 - **版本选择**: 根据给定的信息,选择了版本1.14.4进行安装。 ##### 2.2 安装 - **...

    Heritrix的安装与配置

    在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的源代码版本,文件名为`heritrix-1.14.4-src.zip`。选择源代码版本的...

    Heritrix的使用入门

    在开始使用Heritrix之前,首先要了解如何下载和运行它。Heritrix的最新版本可以在SourceForge的下载页面找到。下载完成后,将其解压缩到本地目录,并注意其结构,包括`lib`目录,其中包含了Heritrix运行所需的类库,...

    heritrix系统使用.ppt

    用户需要下载Heritrix源码,然后按照提供的指南进行编译和安装。配置主要包括设定爬取范围,这可以通过修改`Modules`、`Submodules`和`Settings`来完成。例如,你可以使用正则表达式来限定抓取的URL模式,确保只抓取...

    Heritrix使用详解与高级开发应用

    首先,为了开始使用Heritrix,你需要从其官方下载页面获取最新版本的软件包。Heritrix的目录结构包括lib目录,存储了所有必要的类库,以及一个名为heritrix-1.10.1.jar的核心JAR文件。此外,conf目录下的heritrix....

    heritrix 的详细配置 与 使用资料

    首先,要开始配置 Heritrix,你需要从官方网站下载源码包(如 heritrix 1.12.1-src.zip)和预编译的二进制包(如 heritrix 1.12.1.zip)。这两个文件是必需的,因为源码包包含了构建项目所需的 Java 源代码,而二...

    heritrix的安装和配置[归纳].pdf

    ### Heritrix的安装与配置详解 #### 一、Heritrix简介 Heritrix是一款开源的网页爬虫工具,由互联网档案馆(Internet Archive)开发。它主要用于网络资源的采集与归档,支持多种抓取策略和过滤规则,能够高效地收集...

    Heritrix-1.4.4.src.zip +Heritrix-1.4.4.zip

    "Myeclipse下安装说明及常见问题.txt" 文件提供了在MyEclipse集成开发环境中安装和运行Heritrix的步骤和可能遇到的问题的解决方案。MyEclipse是一种强大的Java EE集成开发环境,对Java项目的支持非常全面,因此它是...

    heritrix 下载方法

    ### Heritrix下载方法详解 #### 一、Heritrix简介 Heritrix是一款非常出色的开源网络爬虫工具,主要用于互联网资源的抓取与归档。它由互联网档案馆(Internet Archive)开发,并且得到了广泛的使用和支持。Heritrix...

    Heritrix在windows下运行成功

    Heritrix的安装相对简单,下载Heritrix 1.12.0版本后,解压缩至指定目录,例如文中选择的是E盘根目录下的“heritrix”文件夹。Heritrix的安装并不需要复杂的步骤,主要是确保软件包中的所有文件都被正确放置。 ### ...

    heritrix爬虫工具的使用

    在实际使用中,你可能需要先下载Heritrix的源码,然后通过构建工具(如Maven)编译并安装。在配置文件中设定好爬虫参数后,可以通过命令行启动爬虫。在运行过程中,可以通过日志和监控工具观察爬取进度,必要时调整...

    Heritrix Eclipse下环境配置

    首先,访问Heritrix官方网站或其他可靠来源下载Heritrix源码包。本文提到的版本是`heritrix-1.14.4-src.zip`,该版本包含完整的源代码,非常适合用于二次开发。 2. **安装Eclipse IDE** 确保已安装最新版本的...

    网络爬虫(heritrix)代码

    1. **下载源码**:你可以从Heritrix的官方网站获取最新版本的源代码。在提供的文件列表中,`wherespider_1.0.4.0_source`可能就是这个源码包。 2. **构建项目**:安装Java开发环境(如JDK),然后使用Maven或Ant等...

    Heritrix1.14.4(含源码包)

    5. **使用教程**:描述中提到的链接是一个CSDN博客文章,提供了Heritrix的安装、配置和使用指南。在这个教程中,你将学习如何设置运行环境,配置Heritrix的配置文件,启动爬虫,以及监控和管理爬虫的运行状态。 6. ...

    很好的heritrix学习资料

    它可能涵盖了Heritrix的基本概念、安装步骤、启动和运行爬虫的基本流程,以及一些常见的问题和解决方法。对于新接触Heritrix的人来说,这份资料将是宝贵的起点。 "Heritrix1_14_1在Eclipse下的配置总结 - Java - ...

    heritrix-3.2.0

    - **多线程处理**:Heritrix 使用多线程模型,高效地并发处理多个网页抓取任务。 - **内容解析**:Heritrix 支持多种网页格式,包括HTML、XML、PDF等,能解析并提取出有价值的信息。 - **存储与归档**:抓取的...

    heritrix-1.10.1

    用户可以通过解压并按照文档说明进行安装和配置,然后启动Heritrix来开始自己的爬网项目。如果需要进一步了解Heritrix 1.10.1的具体特性,建议查看官方文档和变更日志,以获取关于新功能和改进的详细信息。

    Heritrix搭建好的工程

    “readMe.txt”文件通常包含了工程的说明和使用指南,包括如何启动、配置和使用Heritrix。这个文件对于初学者来说是非常有价值的资源,因为它提供了关于如何操作这个预配置工程的具体步骤。 总的来说,Heritrix工程...

Global site tag (gtag.js) - Google Analytics