1 安装
1.1 首要条件
使用Windows XP / 2003 均可。必须有JAVA环境,请自行安装J2SE jre/jdk。我使用的版本是JAVA SE 1.6.0_02。
1.2 下载Heritrix
Heritrix的主页:http://crawler.archive.org/
下载页面:http://crawler.archive.org/downloads.html,在此页面中选择 Sourceforge Downloads进入下载列表,选择一个版本的ZIP压缩包进行下载。当前最新的版本是Heritrix-1.12.1。
1.3 安装、配置Heritrix
1、将得到的Heritrix压缩包直接解压缩到某一目录,我选择的是D:\Heritrix。
2、将 \Heritrix 目录中的heritrix-1.12.1.jar文件解包,把 profiles\default 下的两个文件order.xml和seeds.txt复制到 \heritrix\conf 目录。
3、以文本编辑方式打开 \heritrix\conf 下的heritrix.properties文件,在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码,用“:”分割,如:
heritrix.cmdline.admin = admin:pwd1234
4、复制 \heritrix\conf 下的jmxremote.password.template文件到主目录\Heritrix 下,并更名为jmxremote.password。编辑此文件,更改最后两行"monitorRole @PASSWORD@"、"controlRole @PASSWORD@"中的"@PASSWORD@"为管理员密码。如:
monitorRole pwd1234
controlRole pwd1234
2 运行
2.1 系统自带脚本运行
在目录 \heritrix\bin 下可见“heritrix.cmd”脚本文件,这就是heritrix的运行脚本文件。直接双击运行则命令窗口会一闪而过,并没有启动起来。这里其实需要带参数才能运行。可在 \heritrix\bin 目录下建立一个脚本文件,如 run.cmd 包含内容如下:
heritrix.cmd --admin=admin:pwd1234
双击此脚本,至此Heritrix即运行起来。
在XP下,此方法运行时会产生两个窗口,第一个窗口即脚本窗口,在第一次运行时候会显示提示“需要更改jmxremote.password属性为只读,是否更改?Y,N”,请选择Y。第二个窗口显示Heritrix运行状况。运行成功后前一个窗口会自动关闭,第二个窗口中显示Heritrix版本号。内容见图1。
而在2003std版本下运行此脚本文件并不会有更改文件只读属性的提示,Heritrix启动起来后脚本命令窗体关闭,仅保留Heritrix运行状况窗体。
2.2 自写命令运行
另外一种方法是自己建立一个脚本文件运行heritrix。在 \heritrix\bin 目录下建立文件run.bat,脚本内容如下[参考文献1]:
java -Xmx512m -Dheritrix.home=D:\\heritrix -cp "D:\\heritrix\\lib\\commons-codec-1.3.jar;
D:\\heritrix\\lib\\commons-collections-3.1.jar;D:\\heritrix\\lib\\dnsjava-2.0.3.jar;
D:\\heritrix\\lib\\poi-scratchpad-2.0-RC1-20031102.jar;
D:\\heritrix\\lib\\commons-logging-1.0.4.jar;D:\\heritrix\\lib\\commons-httpclient-3.0.1.jar;
D:\\heritrix\\lib\\commons-cli-1.0.jar;D:\\heritrix\\lib\\mg4j-1.0.1.jar;
D:\\heritrix\\lib\\javaswf-CVS-SNAPSHOT-1.jar;D:\\heritrix\\lib\\bsh-2.0b4.jar;
D:\\heritrix\\lib\\servlet-tomcat-4.1.30.jar;D:\\heritrix\\lib\\junit-3.8.2.jar;
D:\\heritrix\\lib\\jasper-compiler-tomcat-4.1.30.jar;D:\\heritrix\\lib\\commons-lang-2.3.jar;
D:\\heritrix\\lib\\itext-1.2.0.jar;D:\\heritrix\\lib\\poi-2.0-RC1-20031102.jar;
D:\\heritrix\\lib\\jetty-4.2.23.jar;D:\\heritrix\\lib\\commons-net-1.4.1.jar;
D:\\heritrix\\lib\\libidn-0.5.9.jar;D:\\heritrix\\lib\\ant-1.6.2.jar;
D:\\heritrix\\lib\\fastutil-5.0.3-heritrix-subset-1.0.jar;D:\\heritrix\\lib\\je-3.2.23.jar;
D:\\heritrix\\lib\\commons-pool-1.3.jar;D:\\heritrix\\lib\\jasper-runtime-tomcat-4.1.30.jar;
D:\\heritrix\\heritrix-1.12.1.jar" org.archive.crawler.Heritrix
此方法运行Heriterx不会有任何提示和其他窗口,直接显示Heritrix运行状况窗体。
图1 Heritrix运行状况窗体
3 任务
3.1 登录
通过以上步骤Heritrix已经运行起来,可通过浏览器访问其WebUI。在浏览器地址栏中输入地址:http://127.0.0.1:8080/,出现Heritrix的登录界面,如图2:
输入前面我们设置的用户名及密码登录,登录成功后界面如图3:
图3 Heritrix WebUI 登录成功后进入的界面
3.2 建立抓取任务
3.2.1 新建任务
单击图3所显示的WebUI中的“Jobs”菜单进入任务设置页面,如图4:
点选图4中所示的“With defaults”,按照默认的设置创建一个新的抓取任务。可如图5所示进行设置:
任务名字可随便起,种子地址可以添加多个,但需要是包含http和最后的斜杠在内的完整网址,这里测试使用百度的网址。之后点击左下角的Modules按钮,进入处理链设置页面。
3.2.2 处理链的设置
具体设置不再进行说明,可参见参考书目1中的内容(CSDN有免费试读),设置如图6:
设置方法很简单,就是在下拉列表中选择好,点击Add添加即可。之后的设置可参考图中内容,要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用,这里不再描述,需要中文的请看参考书目1。
3.2.3 运行参数设置
处理链设置完成后,点击图7中所示菜单的“Settings”项,进行运行参数的设置。
图7 选择Jobs菜单的“Settings”项进入运行参数设置页面
进入运行参数设置页面后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮助信息。最简单的可只更改“HTTP-Header”项中的内容,更改其属性值“user-agent”和“from”。修改内容如图8:
图8 运行参数设置中的“HTTP-Header”项
图8中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。
设置完成后,点击如图9所示任务提交菜单项,即完成全部任务的建立工作。
图9 任务提交菜单
3.3 运行任务
通过提交设定好的任务,页面返回到Jobs的主菜单,可看到如图10画面:
在图10中,我们可以看到红色字说明一个任务已经被建立,在页面下方有任务的一些信息和设置菜单。此时点击左上角的“Console”菜单,返回主页面,看到如图11:
按照图11中的红色说明,点击“Start”可以开始任务。如图12:
图12 已经激活的任务
点击左下角红色框标出的“Refresh”选项,可以刷新任务状态。图13是刚刚开始的任务状态:
图13 刚刚开始的任务
在图13中,我们可以看到,要暂停当前任务可点击任务状态旁的选项“Pause”。图14是已经运行了两分钟左右的工作:
图14 运行了两分钟的任务
从图14中我们可以看到,抓取速度是很快的,之前“Settings”选项中的抓取线程使用了默认的100线,此时全部已经使用,抓取速度达到了195KBs,每秒7.7个URIs。
抓取后的网站结构和文件保存如图15:
图15 抓取后的网站和文件保存结构
图15中可以看到,每一个站点的URL地址即为保存的目录名称,其文件和对应的服务目录结构被保存到此目录下面。这样方便搜索引擎的使用。不过也从此处看出,Heritrix更像一个强大的网站下载工具。
至此,Heritrix的简单抓取任务设置描述完毕。希望对大家有所帮助。
分享到:
相关推荐
其在Windows环境下成功运行的过程及配置细节,涉及到了Java环境的搭建、Heritrix软件的安装与配置、以及运行参数的设置,以下是对这些知识点的详细解析: ### 一、Java环境搭建 Heritrix基于Java平台运行,因此...
在Windows环境下运行Heritrix,需要了解一些关键步骤和配置,以便顺利进行网络抓取。 1. **环境准备**: 在Windows上运行Heritrix,首先需要安装Java Development Kit (JDK)。Heritrix是用Java编写的,因此需要JDK...
在使用Heritrix时,你需要了解以下几个关键概念: - **爬行策略**:Heritrix支持多种爬行策略,如广度优先、深度优先等,可以根据需求选择合适的策略。 - **爬行范围**:通过种子URL和排除规则来控制爬行范围,防止...
虽然主要在Linux平台上测试,但在Windows和MacOS上也有成功运行的案例。如果需要从源代码编译Heritrix 3,需要Maven 2。 下载和安装Heritrix 3 可以从SourceForge或其他自动测试仓库获取。启动Heritrix 3 时,使用`...
1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...
Heritrix 支持自动备份功能,可以在任务执行过程中定期保存当前状态,以便在出现异常中断后能够快速恢复。 #### 十、主控制台页面 主控制台页面是 Heritrix 用户界面的核心,提供了对所有正在进行的抓取任务的概览...
3. **readme.txt**:这个文件通常包含关于如何安装、配置和运行Heritrix的基本指南。它可能还会包括版本信息、版权声明和开发者注意事项等内容。确保仔细阅读此文件以获取正确操作Heritrix的指导。 4. **heritrix-...
2. **配置Heritrix**:参照上述配置指南,确保Heritrix正确安装并在Eclipse中配置好。 3. **编写扩展代码**:根据需求编写代码,例如使用Heritrix提供的API来过滤链接,确保仅抓取北京林业大学网站内的页面。 4. **...
打开命令行工具或者终端窗口,切换到Heritrix安装目录下的bin文件夹,运行相应启动脚本(如`heritrix.bat`或`heritrix.sh`)即可启动Heritrix。 ##### 4. 使用向导 启动后,Heritrix会提供一个图形界面供用户进行...
本文将详细介绍Heritrix 1.14.3版本的配置流程,包括安装准备、环境搭建、配置文件调整等方面,帮助读者顺利部署和运行Heritrix。 #### 二、准备工作 1. **下载Heritrix** 首先,前往Heritrix的官方下载页面...
1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...
1.光盘中所附代码的运行环境 服务器Tomcat5.5版本 数据库采用MySQL 5.0 版本 JDK采用1.5.0 Spring采用1.2.8版本 DWR采用1.1.3版本 Windows平台 Tomcat 插件TomcatPlugin(下载地址:...
综上所述,Heritrix作为一种强大的网络爬虫工具,在安装、配置及使用过程中需要注意多个细节,尤其是JDK的正确安装与环境变量的配置至关重要。通过实践,可以熟练掌握Heritrix的操作方法,并利用其高效地完成网页...
1. **操作系统**:学员将学习Windows和Linux操作系统的基础知识,了解不同操作系统在软件开发中的应用场景和管理技巧。 2. **中间件**:Tomcat和JBoss是两种重要的Java应用服务器,学员将学习如何配置、管理和优化...