浏览 5157 次
锁定老帖子 主题:Java爬虫框架(三)--模块设计之二
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (2)
|
|
---|---|
作者 | 正文 |
发表时间:2011-08-18
6. FilterFilter可以对解析好的新Task,进行过滤。
7. HandlerHandler对解析好的内容进行进一步处理,异步化处理和爬取解析。处理主要是将爬取的数据入库和索引。
一、 Task队列Task队列,存放还没有被处理的新任务。
二、 Visited表Visited表的判断其实是TaskFilter的一种,只是TaskFilter用了VisitedTable来存储已经爬取过的任务。
VisitedTaskFilter:判断Task是否已经被处理过 VisitedTable:存储已经被爬取过的任务 声明:ITeye文章版权属于作者,受法律保护。没有作者书面许可不得转载。
推荐链接
|
|
返回顶楼 | |
发表时间:2011-08-19
爬虫?这个爬出来的索引放在什么地方呢?
|
|
返回顶楼 | |
发表时间:2011-08-19
建议去看一下heritrix 的源码, 看上去设计跟heritrix 很类似,
|
|
返回顶楼 | |
发表时间:2011-08-19
如何进行通用的数据挖掘才是关键,比如AI什么的
|
|
返回顶楼 | |
发表时间:2011-08-19
这样的共享精神挺好,即能让部分朋友学习些东西,也能从其他朋友的交流中完善自己设计及提高自己。向楼主学习,有机会也会学习着将些设计开放出来,一起交流。
|
|
返回顶楼 | |
发表时间:2011-10-19
楼主,你的架构写的非常好。我现在正在做爬虫的程序,你能否将源码发我邮箱里。地址是:jim8757@163.com。多谢。
|
|
返回顶楼 | |