使用Heritrix WebUI创建一个新的抓取任务

neolimeng

浏览: 84288 次
性别:
来自: 北京

最近访客更多访客>>

fmbobin

sealinesu

YeSuiYuZou

zhb2016

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Heritrix

工作 Web Blog

heritrix默认使用8080端口，要保证系统端口没有冲突。之后便可以访问 http://127.0.0.1:8080 或http://localhost:8080 使用 heritrix 提供的WUI，即Web管理端。并且使用"admin/admin"登录。

［２］选Jobs选项，设置抓取页为http://news.sohu.com 具体设置如图：

图1: 处理链设置

设置方法很简单，就是在下拉列表中选择好，点击Add添加即可。之后的设置可参考图中内容，要注意每一项处理器设置都是有顺序关系的。每一项的名称其实都揭示了其作用.

［３］选择Jobs菜单的“Settings”项进入运行参数设置页面 . 进入运行参数设置页面后，有很多可以设定的参数，对于需要了解详情的设置，请点击设置框左边的“？”号，可看到弹出的帮助信息。最简单的可只更改“HTTP-Header”项中的内容，更改其属性值“user-agent”和“from”。修改内容如图2：

图２运行参数设置中的“HTTP-Header”项

图2中红色框内是修改前后对照。其中“user-agent”中的“PROJECT_URL_HERE”对应自己的完整URL地址，“from”中设置自己的合法email地址，这两项设置其实可随便设置，只要格式规则合法即可。图中的＠VERSION＠设置为1.12.1，即1.12.1版本的。
［４］设置完成后，点击如图３所示任务提交菜单项，即完成全部任务的建立工作。