论坛首页 Java企业应用论坛

分享一个自己写的爬虫框架

浏览 11058 次
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
作者 正文
   发表时间:2013-08-02  
如何处理URL的更新呢? 比如抓取电视剧,昨天更新到11集,今天是12集,难道每次抓取的时候,完全覆盖以前的记录么?还是搞增量更新?求解
0 请登录后投票
   发表时间:2013-08-02  
我觉得可以分成两部分:
一部分是页面,可能每个URL每天内容会更新,那么在更新后重新抓一次好了,具体做法可以给URL设置一个过期时间,过期之后重新进入抓取池;
一部分是数据,例如今天抓了11集,那么其实可以用11集作为索引进行存储;明天抓了12集,那么再存储的就是12集了。数据没有必要跟着页面或者URL走。当然,如果没有明显特征的数据,去重倒是有点麻烦。
fisher123 写道
如何处理URL的更新呢? 比如抓取电视剧,昨天更新到11集,今天是12集,难道每次抓取的时候,完全覆盖以前的记录么?还是搞增量更新?求解
0 请登录后投票
论坛首页 Java企业应用版

跳转论坛:
Global site tag (gtag.js) - Google Analytics