- 浏览: 3183 次
最新评论
文章列表
本文主要通过查找网上资料,简单总结一下禁止搜索引擎爬虫抓取网站的方法。
一般情况,大家都是希望搜索引擎爬虫尽可能多的抓取自己的网站,但有时也需要告诉爬虫不要抓取,比如,不要抓取镜像页面等。
搜索引擎抓取自己的网站有它的好处,也存在许多常见问题:
1.网络堵塞丢包严重(上下行数据异常,排除DDOS攻击,服务器中毒。异常下载,数据更新)
2.服务器负载过高,CPU几乎跑满(针对相应的服务配置而定);
3.服务基本瘫痪,路由瘫痪;
4.查看日志发现大量的异常访问日志
一、先查看日志
以下以ngnix的日志为例
cat logs/www.ready.log |grep spider -c (看有爬虫 ...