锁定老帖子 主题:分享一个自己写的爬虫框架
精华帖 (0) :: 良好帖 (0) :: 新手帖 (0) :: 隐藏帖 (0)
|
|
---|---|
作者 | 正文 |
发表时间:2013-08-02
如何处理URL的更新呢? 比如抓取电视剧,昨天更新到11集,今天是12集,难道每次抓取的时候,完全覆盖以前的记录么?还是搞增量更新?求解
|
|
返回顶楼 | |
发表时间:2013-08-02
我觉得可以分成两部分:
一部分是页面,可能每个URL每天内容会更新,那么在更新后重新抓一次好了,具体做法可以给URL设置一个过期时间,过期之后重新进入抓取池; 一部分是数据,例如今天抓了11集,那么其实可以用11集作为索引进行存储;明天抓了12集,那么再存储的就是12集了。数据没有必要跟着页面或者URL走。当然,如果没有明显特征的数据,去重倒是有点麻烦。 fisher123 写道 如何处理URL的更新呢? 比如抓取电视剧,昨天更新到11集,今天是12集,难道每次抓取的时候,完全覆盖以前的记录么?还是搞增量更新?求解
|
|
返回顶楼 | |