heritrix的启动与设置收藏

Eric_2007

浏览: 25342 次
性别:
来自: 辽宁

最近访客更多访客>>

gigi_112

sutine

hdby_0532

teisnowbin

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

XSL 配置管理 XP 脚本工作

heritrix的启动与设置收藏
新一篇: EPC901安装XP | 旧一篇: Heritrix使用笔记——Heritrix运行脚本
转自http://hi.baidu.com/syimiaoa/blog/item/999e29f7934cdd26720eec84.html，很好的介绍了heritrix的启动与设置

初步学习了Heritrix，这个网络小爬虫，以下是对其运行和任务设置的学习总结．

1.关于安装：

我使用的版本号为1.12.1，官网地址为 http://crawler.archive.org/。常规安装，即解压到相关目录，我选择的是D:\heritrix（之前确定Java环境已经配置好）。
2.配置管理帐户：

(1) 将 D:\heritrix\heritrix-1.12.1.jar 解压，拷贝profiles\default 下的两个文件order.xml和seeds.txt复制到 \heritrix\conf 目录下，

(2) 拷贝 D:\heritrix\conf\jmxremote.password.template 到 D:\heritrix下，并且重命名为"jmxremote.password"。之后编辑该文件内容关于密码的部分：

monitorRole @PASSWORD@ ==> monitorRole admin
controlRole @PASSWORD@ ==> controlRole admin

修改完毕之后，保存该文件。并且需要将该文件的属性改为“只读”。

(3) 打开 \heritrix\conf 下的heritrix.properties文件，在“heritrix.cmdline.admin = ” 项的后面加入你所要设定的管理员账户和密码，用“:”分割，如：
heritrix.cmdline.admin = admin:admin

我在此处将管理员账户和密码都设置为admin.

3.运行Heritrix：
［１］将cmd定位到 D:\heritrix\bin，执行 "heritrix --admin=admin:admin" 命令，即可启动 heritrix，

有一点需要注意，heritrix默认使用8080端口，要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080 使用 heritrix 提供的WUI，即Web管理端。并且使用"admin/admin"登录。

［２］选Jobs选项，设置抓取页为http://news.sohu.com 具体设置如图：

图1: 处理链设置
设置方法很简单，就是在下拉列表中选择好，点击Add添加即可。之后的设置可参考图中内容，要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用.

［３］选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后，有很多可以设定的参数，对于需要了解详情的设置，请点击设置框左边的“？”号，可看到弹出的帮助信息。最简单的可只更改 “HTTP-Header”项中的内容，更改其属性值“user-agent”和“from”。修改内容如图2：

图２运行参数设置中的“HTTP-Header”项

图2中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址，“from”中设置自己的合法email地址，这两项设置其实可随便设置，只要格式规则合法即可。图中的＠VERSION＠设置为1.12.1，即1.12.1版本的。
［４］设置完成后，点击如图３所示任务提交菜单项，即完成全部任务的建立工作。

设置完成后，点击如图9所示任务提交菜单项，即完成全部任务的建立工作。

图３任务提交菜单
［５］运行任务
通过提交设定好的任务，页面返回到Jobs的主菜单，可看到如图４画面：

图４任务已经建立
在图４中，我们可以看到红色字说明一个任务已经被建立，在页面下方有任务的一些信息和设置菜单。此时点击左上角的“Console”菜单，返回主页面，看到如图５：

图４等待开始的任务
按照图５中的红色说明，点击“Start”可以开始任务。如图５：

图５已经激活的任务
点击左下角红色框标出的“Refresh”选项，可以刷新任务状态。图６是刚刚开始的任务状态：

图６刚刚开始的任务

在图６中，我们可以看到，要暂停当前任务可点击任务状态旁的选项“Pause”。

抓取页面会存放在我的工作目录下的mirror文件夹内，如图７：

图７抓取后的网站和文件保存结构

图７中可以看到，每一个站点的URL地址即为保存的目录名称，

其文件和对应的服务目录结构被保存到此目录下面。此处看出，Heritrix更像一个强大的网站下载工具。

至此，Heritrix的简单抓取任务设置描述完毕，呵呵。。。

补充：为了在抓取时不保存其他无关页面，可扩展FrontierScheduler来抓取特定的内容。

打包成新的heritrix-1.12.1.jar 文件，运行cmd执行此操作

方法一：将多个文件打包

D:\heritrix\heritrix-1.12.1>jar cvf heritrix-1.12.1.jar com modules my org profi
les selftest st heritrix.properties jndi.properties arcMetaheaderBody.xsl warcin
fobody.xsl

方法二：将整个文件目录打包

D:\heritrix\heritrix-1.12.1>jar cvf heritrix-1.12.1.jar heritrix-1.12.1

分享到：

垂直搜索引擎

2008-10-17 14:43
浏览 2758
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论