论坛首页 Java企业应用论坛

Java爬虫框架(三)--模块设计之二

浏览 5152 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (2)
作者 正文
   发表时间:2011-08-18  

 6.      Filter

Filter可以对解析好的新Task,进行过滤。



 

7.      Handler

Handler对解析好的内容进行进一步处理,异步化处理和爬取解析。处理主要是将爬取的数据入库和索引。

 

一、        Task队列

Task队列,存放还没有被处理的新任务。



 

二、        Visited

Visited表的判断其实是TaskFilter的一种,只是TaskFilter用了VisitedTable来存储已经爬取过的任务。



 

VisitedTaskFilter:判断Task是否已经被处理过

VisitedTable:存储已经被爬取过的任务

  • 大小: 9.3 KB
  • 大小: 17.5 KB
  • 大小: 15.9 KB
  • 大小: 25.3 KB
   发表时间:2011-08-19  
爬虫?这个爬出来的索引放在什么地方呢?
0 请登录后投票
   发表时间:2011-08-19  
建议去看一下heritrix 的源码, 看上去设计跟heritrix 很类似,
0 请登录后投票
   发表时间:2011-08-19  
如何进行通用的数据挖掘才是关键,比如AI什么的
0 请登录后投票
   发表时间:2011-08-19  
这样的共享精神挺好,即能让部分朋友学习些东西,也能从其他朋友的交流中完善自己设计及提高自己。向楼主学习,有机会也会学习着将些设计开放出来,一起交流。
0 请登录后投票
   发表时间:2011-10-19  
楼主,你的架构写的非常好。我现在正在做爬虫的程序,你能否将源码发我邮箱里。地址是:jim8757@163.com。多谢。
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics