文章列表
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-1.html
Heritrix3.0.0在2009年底发布,但资料甚少.我这里就先抛砖引用,以前也分析过Heritrix1.4.3,但只是源码,不系统.这里就系统的介绍Heritrix的使用,源码分析和借鉴.先介绍Heritrix的下载与使用吧.
1.下载,下载地址:http://sourceforge.net/projects/archive-crawler/files/heritrix3/ .下载后的截图为
这里大家可以看下README.TXT文件.这里面有对Herit ...
本博客属原创文章,转载请注明出处:http://www.yun5u.com/articles/heritrix3-2.html
上一篇博客介绍了,Heritrix3.0的下载,安装以及启动,可以通过UI去配置,和控制抓取任务.这一篇博将讲述,如何在Heritrix上创建抓取任务(CrawlJob)并运行.
首先创建抓取,本可以通过WEB界面来创建,但有时会出现一些莫名奇妙的问题,我这里通过手工创建的方式.上一篇我的Heritrix所在目录为 D:\heritrix\heritrix-3.0.0,所有的抓取任务默在jobs目录下.这里我们手动在jobs目录下创建一个目录,我这里取名为 te ...