ssx5210

浏览: 3183 次

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

2012-06 ( 1)
更多存档...

本文主要通过查找网上资料，简单总结一下禁止搜索引擎爬虫抓取网站的方法。一般情况，大家都是希望搜索引擎爬虫尽可能多的抓取自己的网站，但有时也需要告诉爬虫不要抓取，比如，不要抓取镜像页面等。搜索引擎抓取自己的网站有它的好处，也存在许多常见问题： 1.网络堵塞丢包严重（上下行数据异常，排除DDOS攻击，服务器中毒。异常下载，数据更新） 2.服务器负载过高，CPU几乎跑满（针对相应的服务配置而定）； 3.服务基本瘫痪，路由瘫痪； 4.查看日志发现大量的异常访问日志一、先查看日志以下以ngnix的日志为例 cat logs/www.ready.log |grep spider -c (看有爬虫 ...

2012-06-27 15:16
浏览 3183
评论(0)
分类:互联网

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

禁止搜索引擎爬虫抓取网站方法小结

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

禁止搜索引擎爬虫抓取网站方法小结

最近访客更多访客>>