`
Eric_2007
  • 浏览: 25005 次
  • 性别: Icon_minigender_1
  • 来自: 辽宁
社区版块
存档分类
最新评论

heritrix的启动与设置收藏

阅读更多
heritrix的启动与设置收藏
新一篇: EPC901安装XP | 旧一篇: Heritrix使用笔记——Heritrix运行脚本
转自http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html,很好的介绍了heritrix的启动与设置


初步学习了Heritrix,这个网络小爬虫,以下是对其运行和任务设置的学习总结.

1.关于安装:

我使用的版本号为1.12.1,官网地址为 http://crawler.archive.org/。常规安装,即解压到相关目录,我选择的是D:\heritrix(之前确定Java环境已经配置好)。
2.配置管理帐户:

(1) 将 D:\heritrix\heritrix-1.12.1.jar 解压,拷贝profiles\default 下的两个文件order.xml和seeds.txt复制到 \heritrix\conf 目录下,

(2) 拷贝 D:\heritrix\conf\jmxremote.password.template 到 D:\heritrix下,并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分:

monitorRole @PASSWORD@ ==> monitorRole admin
controlRole @PASSWORD@ ==> controlRole admin

修改完毕之后,保存该文件。并且需要将该文件的属性改为“只读”。

(3) 打开 \heritrix\conf 下的heritrix.properties文件,在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码,用“:”分割,如:
heritrix.cmdline.admin = admin:admin

我在此处将管理员账户和密码都设置为admin.

3.运行Heritrix:
[1] 将cmd定位到 D:\heritrix\bin,执行 "heritrix --admin=admin:admin" 命令,即可启动 heritrix,




有一点需要注意,heritrix默认使用8080端口,要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080 使用 heritrix 提供的WUI,即Web管理端。并且使用"admin/admin"登录。








[2]选Jobs选项,设置抓取页为http://news.sohu.com 具体设置如图:



图1: 处理链设置
设置方法很简单,就是在下拉列表中选择好,点击Add添加即可。之后的设置可参考图中内容,要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用.

[3] 选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后,有很多可以设定的参数,对于需要了解详情的设置,请点击设置框左边的“?”号,可看到弹出的帮助信息。最简单的可只更改 “HTTP-Header”项中的内容,更改其属性值“user-agent”和“from”。修改内容如图2:


图2 运行参数设置中的“HTTP-Header”项

图2中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址,“from”中设置自己的合法email地址,这两项设置其实可随便设置,只要格式规则合法即可。图中的@VERSION@设置为1.12.1,即1.12.1版本的。
[4] 设置完成后,点击如图3所示任务提交菜单项,即完成全部任务的建立工作。


设置完成后,点击如图9所示任务提交菜单项,即完成全部任务的建立工作。

图3 任务提交菜单
[5]运行任务
通过提交设定好的任务,页面返回到Jobs的主菜单,可看到如图4画面:


图4 任务已经建立
在图4中,我们可以看到红色字说明一个任务已经被建立,在页面下方有任务的一些信息和设置菜单。此时点击左上角的“Console”菜单,返回主页面,看到如图5:


图4 等待开始的任务
按照图5中的红色说明,点击“Start”可以开始任务。如图5:


图5已经激活的任务
点击左下角红色框标出的“Refresh”选项,可以刷新任务状态。图6是刚刚开始的任务状态:


图6 刚刚开始的任务

在图6中,我们可以看到,要暂停当前任务可点击任务状态旁的选项“Pause”。

抓取页面会存放在我的工作目录下的mirror文件夹内,如图7:





图7抓取后的网站和文件保存结构


图7中可以看到,每一个站点的URL地址即为保存的目录名称,

其文件和对应的服务目录结构被保存到此目录下面。此处看出,Heritrix更像一个强大的网站下载工具。


至此,Heritrix的简单抓取任务设置描述完毕,呵呵。。。


补充:为了在抓取时不保存其他无关页面,可扩展FrontierScheduler来抓取特定的内容。

打包成新的heritrix-1.12.1.jar 文件,运行cmd执行此操作

方法一:将多个文件打包

D:\heritrix\heritrix-1.12.1>jar cvf heritrix-1.12.1.jar com modules my org profi
les selftest st heritrix.properties jndi.properties arcMetaheaderBody.xsl warcin
fobody.xsl

方法二:将整个文件目录打包

D:\heritrix\heritrix-1.12.1>jar cvf heritrix-1.12.1.jar heritrix-1.12.1


分享到:
评论

相关推荐

    Heritrix安装详细过程

    完成以上步骤后,就可以启动Heritrix并设置具体的抓取任务了: 1. **启动Heritrix** 找到`org.archive.crawler`包中的`Heritrix.java`文件,这是Heritrix爬虫启动的入口,右键单击选择“Run As > Java ...

    Heritrix使用详解与高级开发应用

    这个命令设置了最大内存限制为512MB,并设置了Heritrix的安装路径。`-cp`参数后面跟着的是类路径,包含了lib目录下的所有依赖JAR文件。注意,实际运行时需要根据你的Heritrix安装路径调整这个命令。 运行Heritrix后...

    Heritrix的安装与配置

    Heritrix是一个开源的互联网档案爬虫,用于抓取网页并保存为离线存档。在本文中,我们将深入探讨如何安装和配置Heritrix 1.14.4版本,这是一个基于Java的爬虫工具。 首先,我们需要从SourceForge网站下载Heritrix的...

    网络爬虫Heritrix1.14.4可直接用

    3. **Heritrix运行与配置**:在`Heritrix1/src/org/archive/crawler/Heritrix.java`文件中启动Heritrix后,服务会在本地的8089端口监听。通过访问`https://localhost:8089`,我们可以使用内置的Web管理界面进行配置...

    heritrix爬虫安装部署

    - 设置`heritrix.cmdline.port`为Heritrix服务器的默认端口,例如8080。 - **启动服务**: - 打开命令提示符(cmd),切换到`C:\heritrix\bin`目录。 - 输入命令`heritrix --admin=admin:123456`启动服务。 ##### ...

    Heritrix运行和任务设置

    1. **启动Heritrix**:首先,需要下载并安装Heritrix,然后通过命令行或控制台启动服务。确保Java环境已配置妥当,因为Heritrix是基于Java的。 2. **配置文件(CrawlJob)**:Heritrix的工作是以“CrawlJob”进行的...

    Heritrix3手册翻译

    然而,Heritrix 3.0当前存在一些限制,例如,所有预启动的配置编辑都需要通过文件或网络UI的文本区域进行,而且在运行中的爬虫进行配置更改会影响当前爬行的状态,不会自动反映在后续启动中。日志处理也有一定的局限...

    heritrix正确完整的配置heritrix正确完整的配置

    1. **启动与安装**: 首先,你需要下载Heritrix的源码或预编译的二进制包,根据系统环境进行安装。安装完成后,通过命令行启动Heritrix,如在Java环境中使用`java -jar heritrix.jar`。 2. **配置文件结构**: ...

    Heritrix搭建好的工程

    在本工程中,Heritrix已经被预配置好,可以直接在Eclipse集成开发环境中运行,无需额外设置环境。 首先,让我们详细了解Heritrix的基本概念和功能。Heritrix的核心是工作流模型,它将爬取过程分为多个阶段,如URL...

    heritrix1.14.0jar包

    1. **bin**:存放可执行脚本,如启动和停止Heritrix的命令。 2. **conf**:包含默认配置文件,用户可以根据实际需求进行修改。 3. **lib**:存放jar包,这是Heritrix运行的基础,包括了Heritrix自身的类库和其他依赖...

    heritrix 的详细配置 与 使用资料

    在配置过程中可能会遇到的错误是 `java.lang.UnsupportedClassVersionError`,这通常表示你的 Java 运行环境版本与 Heritrix 需要的版本不匹配。解决这个问题的方法是检查你的 JDK 版本,确保它与 Heritrix 的需求...

    heritrix抓取的操作和扩展

    1. **安装与配置**:首先,从官方站点下载最新版本的Heritrix并解压缩。核心配置文件`heritrix.properties`位于`conf`目录下,其中包含了Heritrix运行所需的许多参数,如WebUI登录信息、日志格式等。首次启动时,需...

    heritrix源码

    3. **配置与策略**:Heritrix通过XML配置文件定义爬取行为,如设置种子URL、选择爬取策略、过滤规则等。策略可以定制,比如深度优先、广度优先、基于链接关系的爬取等。 4. **链接管理**:Heritrix使用Crawler-...

    heritrix-1.14.2.zip

    编译完成后,可以通过命令行启动Heritrix,并指定相应的配置文件。运行过程中,Heritrix将按照配置进行网络爬行,抓取的网页会被存储在本地或者指定的存储位置。 对于学习网络爬虫技术的人来说,Heritrix提供了一个...

    Heritrix的使用入门

    这个文件包含了Heritrix运行时的各种参数,比如Web界面的启动设置、日志格式等。初次运行时,你需要设置WebUI的登录名和密码,这可以在`heritrix.properties`中进行修改。 Heritrix的启动有多种方式,但最常见的是...

    很好的heritrix学习资料

    它可能涵盖了Heritrix的基本概念、安装步骤、启动和运行爬虫的基本流程,以及一些常见的问题和解决方法。对于新接触Heritrix的人来说,这份资料将是宝贵的起点。 "Heritrix1_14_1在Eclipse下的配置总结 - Java - ...

    Heritrix(windows版)

    Heritrix的配置文件允许你定制爬虫的行为,比如设置爬取深度、定义过滤规则以及指定目标URL。 2. **heritrix-3.1.0-src.zip**:这个文件包含了Heritrix的源代码,适合开发者或者希望对软件进行定制的用户。通过源...

    heritrix-3.1.0 最新jar包

    - **URL管理**:Heritrix使用URL队列来管理待抓取的链接,并且可以设置URL过滤规则,避免重复抓取或不符合条件的URL。 - **内容解析**:Heritrix内置了HTML、XML、PDF等多种格式的解析器,可以解析网页内容并提取出...

Global site tag (gtag.js) - Google Analytics