爬虫的境界，原来可以如此。。。 -

zfjoy520

浏览: 1103 次
性别:
来自: 成都

最近访客更多访客>>

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1)

社区版块

存档分类

爬虫的境界，原来可以如此。。。

Ruby CentOS 脚本 Ubuntu Oracle

最近搞了个新站(id86.com)，技术型论坛，想了想数据来源是个问题，于是乎花了两三天的下班时间搞了几个爬虫，针对wenwen.soso.com的

ruby, js, css ,php, ubuntu, centos, mysql, oracle，相关的帖子都是通过这个爬虫从soso那边抓过来的。

感觉用ruby写爬虫相当给力啊，是迄今为止遇到过写采集最方便的，当然是对比脚本语言这一系列来说的

这里面包含一些小的细节：

(1) 通过ruby以用户管理员身份登录网站，创建新用户

discuz X的数据系统确实不敢深究，虽然知道他的一部分机理，比如ucenter_members, common_member这一堆表的用法，但最终还是采用的是通过post请求的方式来添加需要的用户，没敢去尝试用ruby脚本改数据库。虽然之前迁移过80万用户、700万帖子的论坛。

(2) 通过ruby脚本改数据库，发表主题，发贴

(3) 通过ruby脚本结合imagemaigck给用户搞头像。

地址是: www.id86.com。现在除了抓过来的数据，其他啥也没有。相当于一个垃圾桶吧。哈哈。

分享到：

打算将自己的博客迁到自己的PC服务器上去。

2011-05-26 09:54
浏览 689
评论(19)
论坛回复 / 浏览 (19 / 11775)
分类:编程语言
查看更多

19 楼 zfj.rails 2011-06-01

现在soso有防爬机制，如果是爬文章列表，一般sleep 2秒就OK。

不过，后面搞内容的时候，我加了其他的操作，比如增加用户，这个要花个一两秒，所以就没有sleep了，soso上面的那个用户名简直不敢恭维，太非主流了。

最近在写taobao的图片爬虫，有防盗链设置，整起来要费事一些。呵呵

代码一会上班我贴出来，写得不是很好

18 楼 zfj.rails 2011-06-01

HOHO!。居然这么多人关注

17 楼 caizi12 2011-05-31

prettyinsight 写道

caizi12 写道

prettyinsight 写道

LZ楼主的爬虫是不是从别的网站抓取帖子，然后导入到自己网站。
这是赤裸裸的偷窃啊，有木有？

算是木有。那么多搜索引擎不都在抓东西。加上版权说明就木有。

还要假惺惺的加上版权说明，太假了！有木有有木有

怎么假了，不明白，很多网站不都写着如果转载请注明原出处，版权之类的。他这只是变相的转载而已。

16 楼 liuyupy 2011-05-31

brucewei777 写道

网站里一般都有个robot.txt文件，说明了该网站允许哪些机器人爬内容

不经允许的爬内容，似乎不妥

似乎不妥就妥了。。。有哪几个爬虫遵循这个规范呃。。。更何况是自己整的。

15 楼 brucewei777 2011-05-31

网站里一般都有个robot.txt文件，说明了该网站允许哪些机器人爬内容

不经允许的爬内容，似乎不妥

14 楼 JLK 2011-05-31

LZ在打广告吗？

13 楼 ericjoe 2011-05-31

id86.com使用什么搭建的？

12 楼 starmb 2011-05-30

源码贴来瞅瞅吧，楼主。。

11 楼 prettyinsight 2011-05-30

caizi12 写道

prettyinsight 写道

LZ楼主的爬虫是不是从别的网站抓取帖子，然后导入到自己网站。
这是赤裸裸的偷窃啊，有木有？

算是木有。那么多搜索引擎不都在抓东西。加上版权说明就木有。

还要假惺惺的加上版权说明，太假了！有木有有木有

10 楼 neverforget 2011-05-30

你爬的数据好像不多我曾一天一夜让它爬过50万条记录 SOSO的后来没几天SOSO发现了开始间隔时间限制了

贫僧有罪！

9 楼 neverforget 2011-05-30

问问从去年10月份开始防采集的有时间间隔限制

你怎么处理的

8 楼 caizi12 2011-05-30

prettyinsight 写道

LZ楼主的爬虫是不是从别的网站抓取帖子，然后导入到自己网站。
这是赤裸裸的偷窃啊，有木有？

算是木有。那么多搜索引擎不都在抓东西。加上版权说明就木有。

7 楼 prettyinsight 2011-05-30

LZ楼主的爬虫是不是从别的网站抓取帖子，然后导入到自己网站。
这是赤裸裸的偷窃啊，有木有？

6 楼 jerry 2011-05-30

以为你要发布一下你的爬虫代码呢。原来是显摆帖。

5 楼 hcyoo 2011-05-30

很多用户的头像都是重复的

4 楼 diddyrock 2011-05-30

请问大仙爬问问的时候时间间隔设置的是多少啊

3 楼 181054867 2011-05-30

完全不知在说什么，垃圾文章

2 楼 Hooopo 2011-05-26

ruby做定向爬虫还是很方便的

1 楼 zfj.rails 2011-05-26

发错号了。摘了两个iteye号。悲催。

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

爬虫的境界，原来可以如此。。。

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

爬虫的境界，原来可以如此。。。

评论

发表评论

相关推荐

最近访客更多访客>>