heritrix 下载不通过服务器缓存 -

wangwei3

浏览: 123443 次
性别:
来自: 北京

最近访客更多访客>>

jeffkuang

蔚蓝之天空

whut0503

lincolnlee1982

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

heritrix 下载不通过服务器缓存

博客分类：

heritrix

百度 Socket Google HTML

最近爬虫下载论坛时出现了一些奇怪的问题。
1.下载一半就无法下载
2.下载了很多空页面，提示说页面不存在

问题一：原因分析，由于网站对一个IP在一个时间片内访问太频繁，导致封IP。
解决方案：减缓爬虫下载间隔，多个网站一起下载，而且网站越多越好，可以错开下载。

问题二：初步分析，下载的页面是html的，怎么可能有这个问题？因为下载的论坛是开源的discuz，我们都知道discuz有一个缓存机制，管理员可以删除帖子，可是被删除的帖子还存在服务器缓存中，由此可以证明那些html都是伪静态的页面，而且爬虫下载是通过服务器缓存的。通过日志可以发现：类似于百度,google这类的大网站，他们的爬虫都是不通过服务器缓存的。

爬虫也是通过 URLConnection 啊那什么HTTPURLConnection 还是 httpclient 都继承这个建立连接服务器返回给你什么就是什么，做了缓存服务器就返回给你缓存

爬虫通过URL建立Socket，和服务器通信，获取资源即可。所以抓不抓后台，在于服务器给它什么资源.爬虫是不知道什么后台不后台的。都是服务器给它资源，也就是InputStream

分享到：

工厂模式和原型模式的区别 | 设计模式之工厂模式factory

2010-08-08 19:53
浏览 1147
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix 下载不通过服务器缓存

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

heritrix 下载不通过服务器缓存

评论

发表评论

相关推荐

出售分布式网络爬虫程序

Heritrix中的SURT和SurtPrefixedDecideRule

heritrix设计详解(一) 总述

spider技术综述

Heritrix源码之 处理链

Heritrix源码分析(十三) Heritrix的控制中心(大脑)CrawlController(二)

爬虫基本原理及概念

转 互联网反爬虫策略

爬虫被封原因

网站防爬虫

Heritrix 学习笔记1.Heritrix defined codes

Heritrix去重

heritrix无法抓取中文URL的问题解决方案

heritrix 多个job合并的方案

继续抓取的一些问题及解决方案

heritrix在原有基础上抓取

job配置经验分享

elfhash多线程抓取

heritrix入门及配置

最近访客更多访客>>

Heritrix源码之处理链

转互联网反爬虫策略