heritrix在原有基础上抓取 -

wangwei3

浏览: 123295 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

heritrix在原有基础上抓取

博客分类：

heritrix

多线程 XML thread F#

抓取的时候死机或者意外停止时很正常的事情
不过遇到这类问题不用担心,heritrix提供了一个方法，就是Based on a recovery
这个就是在原有的基础上继续抓取，可是他又一个缺点
就是每次抓取都是一个新的job统计起来确实很麻烦！！
原理大家也都知道，heirtrix把所有获取的链接都放入recover.gz这个文件，里面存储了不同的格式

"F+ 进入调度器里的URL，还待处理。如果恢复的话，会重新将该URL放入调度器
"Fd "
"Fe "从BDB数据库里排放URI，然后用于去抓取
"Ff " 失败了的url
"Fr "重新调度的URL，在日志里申明它
"Fs " 已经成功的url

恩，每次启动的时候就会加载gz到处理链，

恩，贴一段代码吧，Based on a recovery ，却让他在本job继续抓取的代码

public class HeritrixStart extends Thread{

private HeritrixStart() {
}

private static HeritrixStart instance = new HeritrixStart();

public static HeritrixStart getInstance() {
return instance;
}

private static CrawlController controller = null;
private static CrawlStatusListener listener = null;

/**
* 控制类路径
*/
public static void getController() {
if (controller == null) {
String crawlUrl = "F:/searcher/heritrix/jobs/default-20100311114044312/order.xml";
// CrawlStatusListener listener = null;
File file = new File(crawlUrl);
XMLSettingsHandler handler;
try {
handler = new XMLSettingsHandler(file);
handler.initialize();
controller = new CrawlController();
controller.initialize(handler);
} catch (InvalidAttributeValueException e) {
// TODO Auto-generated catch block
e.printStackTrace();
} catch (InitializationException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}

}
}

/**
* 启动爬虫
*/
public static void Start() {
getController();
if (listener != null) {
controller.addCrawlStatusListener(listener);
}
controller.requestCrawlStart();

while (true) {
if (controller.isRunning() == false) {
break;
}
try {
Thread.sleep(1000);
} catch (InterruptedException e) {
// TODO Auto-generated catch block
e.printStackTrace();
}
}

controller.requestCrawlStop();
}

/**
* 关闭爬虫
*/
public static void Stop() {
controller.requestCrawlStop();
}

/**
* 多线程启动
*/
public void run() {
Start();
}

public static void main(String[] args) {
Start();
// Stop();
}
}

恩，启动的话，最后把controller对象放入application，这样就可以很方便的用界面启动，暂停，继续爬虫了

分享到：

继续抓取的一些问题及解决方案 | job配置经验分享

2010-04-02 11:23
浏览 1485
评论(6)
分类:互联网
查看更多

6 楼 zzzz3621 2011-12-17

wangwei3 写道

zzzz3621 写道

：博主
Based on a recovery是根据recovery文件继续抓取，我也把里面的内容看了，就是有个疑惑。
recovery文件里存的是日志吧？根据这个文件怎么才能做到原有基础上抓取？
因为本来我们自己建立一个job，设了种子的话，爬虫是抓下这个网页，解析出URL，去重后，把URL入队，就是这么个过程吧？
recovery文件里存的是日志，那么只有一些抓了和入队没还没抓的信息，那么要解析出新的URL是从什么地方出发呢？
然后他只是存了这些URL信息，是不是还是要重新获取网页的呀？

create on recover job,好像是这个。。。他会读取日志文件，重新生成去重库和把为抓取的种子加入队列。继续抓取

我用eclipse启动的，在order.xml里配置了recover文件的路径，启动以后发现仍然把抓过的抓了呀？

5 楼 zzzz3621 2011-12-17

wangwei3 写道

zzzz3621 写道

create on recovery job,好像是这个。。。他会读取日志文件，重新生成去重库和把为抓取的种子加入队列。继续抓取

我用的是1.14.0，有点理解了，就是重新生成了抓过和没抓的队列，再由调度器调度到处理器，就这样继续。。。。那岂不是要有个处理recovery的类吧？那些队列里应该也有相应的方法吧？

4 楼 wangwei3 2011-12-16

zzzz3621 写道

create on recovery job,好像是这个。。。他会读取日志文件，重新生成去重库和把为抓取的种子加入队列。继续抓取

3 楼 zzzz3621 2011-12-15

2 楼 wangwei3 2010-11-17

wqiuliapril 写道

请问博主，您提供的这个类是要写在哪个包下呢？需要在其他地方引用吗？我是初学者，麻烦多多指教啊

这个是在order.xml中修改的，或者在配置的时候选base on exist

1 楼 wqiuliapril 2010-08-16

请问博主，您提供的这个类是要写在哪个包下呢？需要在其他地方引用吗？我是初学者，麻烦多多指教啊

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix在原有基础上抓取

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix在原有基础上抓取

评论

发表评论

相关推荐

出售分布式网络爬虫程序

Heritrix中的SURT和SurtPrefixedDecideRule

heritrix设计详解(一) 总述

spider技术综述

Heritrix源码之 处理链

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

爬虫基本原理及概念

heritrix 下载不通过服务器缓存

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略