先贴一个以前写的热热身
写道
以前自己发的,今天转到blog这里来了,。。。。
今天很生气 , 早晨收到 lunarpages 的一封信 , 说我的程序 占用了 那个 机器 的100% cpu ,给停了 。。。。
Top Process %CPU 59.3 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 32.1 /usr/local/bin/ruby ***/dispatch.fcgi
Top Process %CPU 21.7 /usr/local/bin/ruby ***/dispatch.fcgi
这个看这挺暴力的吧 !!!
打开日志一查 , 都T**是来自 124.115.*.* 的 soso 的 spider ,
soso 你来就来吧 , 拜托你参考 一下 robots.txt , 结果 这哥全不管这一套 , 页面上该搜的不改搜的全都招呼 。。。。。
全招呼就全招呼吧 , 您总得慢点吧 , 一堆链接 , 搜得速度那叫一个快 ,,,
拜托 soso大哥 你有点专业精神 , 你以为把我的cpu 用成 100% 就能超过 baidu google 了 ?????
以上完全属实 , 所以日志 我都备份了 。。。。。。。。。 , soso 你不要说我诽谤你 。。。。。。。。
也不要怪我这样屏蔽你 deny from 124.115.
你不要来了! 马化腾 , 你叫我怎么尊敬你。。。。。。。
令一个不爽的就是 就是 lunarpages 的 IT Team , 感觉怎么跟 soso 那么业余呢 ?????
让他们干还不如让我来 , 只好自己动手了,。。。。。。
呵呵 ,以前那个soso 的 spider 给屏蔽了
最近又发现一个 Spider , 比上面的还不要face , 为啥呢各位看看吧!
写道
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /ialbum/422/4 HTTP/1.1" 200 722 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "HEAD /incoming/all/4 HTTP/1.1" 200 722 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:52 -0700] "GET /album/66/12 HTTP/1.1" 200 4413 "http://www.bujiande.com/album/66/12" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /ialbum/422/4 HTTP/1.1" 200 4560 "http://www.bujiande.com/ialbum/422/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
58.61.164.42 - - [15/Aug/2008:08:25:53 -0700] "GET /incoming/all/4 HTTP/1.1" 200 7847 "http://www.bujiande.com/incoming/all/4" "Mozilla/4.0 (compatible; MSIE 6.0; Windows NT 5.1)"
居然连自己是爬虫 都不标一下 , 装MSIE的孙子 , 有没有点儿职业道德呀!
给大家看个正经的爬虫, 挑个Baidu 的 吧, 比较下:
写道
220.181.32.26 - - [15/Aug/2008:08:32:05 -0700] "GET /incoming/cartoon HTTP/1.1" 200 8603 "-" "Baiduspider+(+http://www.baidu.com/search/spider.htm)"
这个 58.61访问密度大 , 访问强度高 跟 soso 有一拼了 , 我站上也没有什么内容呀!
这个共享的机器 , 不想给别人找麻烦 , 求求你 , 别来了 , 也不想给机器填那么多的负担 对了 , 他是机器人 , 还是听不懂人话的机器人 , 还是我自己动手吧!
deny from 58.61 , 从此 , 世界又可以清静一下了,
后来问了一下 ,这些还是腾讯的机器人们 , 化腾兄 , 强人呀 , 您的机器人都那么华腾!
突然有个恶念 , 要是所有的网站都如我这样 , 这些 华腾的 spiders 该如何呢 :)
<Files 403.shtml>
order allow,deny
allow from all
</Files>
deny from 124.115.
deny from 58.61.164.
分享到:
相关推荐
本项目基于golang开发,是一个开放的垂直领域的爬虫框架,框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 本项目将爬虫的各个功能流程区分成Spider模块(主控),...
[爬虫框架 (golang)] An awesome Go concurrent Crawler(spider) framework. The crawler is flexible and modular. It can be expanded to a Individualized crawler easily or can only use the default crawl ...
本项目基于 golang 开发,是一个开放的垂直领域的爬虫框架.框架中将各个功能模块区分开,方便使用者重新实现子模块,进而构建自己垂直方方向的爬虫。 执行过程简述: Spider模块从Scheduler模块中获取包含待抓取url...
本篇文章将深入探讨一个基于Go语言的爬虫项目,名为"golang-crawler",通过分析其源码,来学习和理解Go语言在爬虫开发中的应用。 一、项目结构 在解压后的文件夹`golang-crawler-master`中,我们可以看到项目的...
1. **Go语言**:Go语言,又称Golang,是Google开发的一种静态类型的、编译型的、并发型且具有垃圾回收功能的编程语言。Go语言以其简洁的语法、高效的性能和良好的并发支持,成为构建网络爬虫的理想选择。 2. **网络...
go run spider.go (当然也可以编译后运行,此时config.ini记得也复制到编译后的文件目录下,然后运行) 直接下载编译好的使用 下载适合自己系统的版本 修改config.ini配置文件,并且放到程序运行的目录下 linux: chmod...
GoFilm 是一个开源多播放源自动采集在线影视网站。项目包含了影视站前端、后端的公共影视...项目缺省预置了几个采集站,在 server/plugin/spider/Spider.go 中。由于目前缺省管理后台功能,后期此处应该变为可配置的。
"github.com/ddliu/go-spider" // Import a lot of useful pipes "github.com/ddliu/go-spider/pipes" ) func main () { // Create a spider s := spider . NewSpider () // Config it s . Concurrency = 3 ...
在本项目中,"spider.zip" 包含了一个使用 Go 语言编写的网络爬虫,主要用于抓取新版正方教务系统的成绩信息。以下是基于提供的文件名和描述的详细知识点解析: 1. **Go 语言**: Go 语言是 Google 推出的一种静态...
高朗(Golang)作为一门系统级编程语言,以其并发性能强、内存管理高效以及丰富的标准库等特点,成为了构建分布式爬虫的理想选择。本项目“distributed-spider”正是基于Golang实现的一个分布式爬虫系统。 首先,...
在本项目中,"concurrent_spider.rar" 是一个使用 Go 语言(Golang)编写的并发爬虫程序。Golang 以其强大的并发处理能力和简洁的语法被广泛应用于网络爬虫开发。通过这个项目,我们可以深入理解 Golang 中的并发...
leetcode-spider-go 使用 Go 编写的 leetcode 解题源码爬虫.爬取你自己的 leetcode 解题源码. 如果你也想把你在 上提交且 accepted 的解题代码爬下来,那么本工具就是为此需求而生!爬下来的代码可以放在 github 上...
Gospider是一个轻量友好的的Go爬虫框架。 Gospider在管理网络请求方面使用了Goreq。 这样分割项目使功能划分更加明确,Gospider负责管理调度任务,Goreq负责处理网络请求。 在Gospider中的goreq.Request、goreq....
article-spider是一个用go编写的爬取文章工具。安装git clone 开始使用爬取文字package mainimport ("article-spider/fileTypes""article-spider/form""article-spider/spider")func main() {f := form.Form{Host: ...
【标题】中的“Golang + Sqlite 实现的一款采集系统,可编写采集规则,抓取绝大多少网站数据”揭示了这个项目的核心技术栈:Go语言(Golang)和SQLite数据库,以及它具备的网页数据采集功能。这个系统允许用户自定义...
在IT领域,编程语言Go(Golang)以其高效、简洁和并发能力强大而备受推崇,尤其在构建网络爬虫方面,Go语言表现出色。本文将深入探讨如何利用Golang开发一个图片爬虫程序,以及涉及的相关知识点。 首先,我们要了解...
基于colly的go语言爬虫开发 基于grpc的分布式服务调用和任务分配 项目主要目的是对自己的技能的总结和部分想法的实现。目前项目部署实例为部署方式为部署中以kubernete容器方式进行部署。采用到的kubernetes资源有 ...
总的来说,"spider_lib"是Pholcus爬虫框架的重要组成部分,它提供了丰富的爬虫规则模板,简化了用户开发爬虫的复杂性,使得在Go语言环境下构建网络爬虫变得更加便捷高效。用户通过学习和利用这个规则库,可以快速...
推荐《crawl your data spider technology》 名称: 爬取你要的数据:爬虫技术 作者: crifan 推荐理由: 系统全面: 该书系统地介绍了爬虫技术的各个方面,从基础概念到高级应用,涵盖了常见的爬虫框架和编程语言实现...
【标题】中的“go简单实现的网票网 票房采集模块,数据库为Mysql,用协程简单封装了API批量调用(以前都是用加锁实现)”揭示了一个基于Go语言的网络爬虫项目,它专注于从网票网抓取票房数据,并将这些数据存储到...