- 浏览: 1103 次
- 性别:
- 来自: 成都
最近访客 更多访客>>
最新评论
-
zfj.rails:
现在soso有防爬机制,如果是爬文章列表,一般sleep 2秒 ...
爬虫的境界,原来可以如此。。。 -
zfj.rails:
HOHO!。居然这么多人关注
爬虫的境界,原来可以如此。。。 -
caizi12:
prettyinsight 写道caizi12 写道prett ...
爬虫的境界,原来可以如此。。。 -
liuyupy:
brucewei777 写道网站里一般都有个robot.txt ...
爬虫的境界,原来可以如此。。。 -
brucewei777:
网站里一般都有个robot.txt文件,说明了该网站允许哪些机 ...
爬虫的境界,原来可以如此。。。
文章列表
最近搞了个新站(id86.com),技术型论坛,想了想数据来源是个问题,于是乎花了两三天的下班时间搞了几个爬虫,针对wenwen.soso.com的
ruby, js, css ,php, ubuntu, centos, mysql, oracle,相关的帖子都是通过这个爬虫从soso那边抓过来的。
感觉用ruby写爬虫相当给力啊,是迄今为止遇到过写采集最方便的,当然是对比脚本语言这一系列来说的
这里面包含一些小的细节:
(1) 通过ruby以用户管理员身份登录网站,创建新用户
discuz X的数据系统确实不敢深究,虽然知道他的一部分机理,比如ucenter_membe ...
租了个入门PC。几百块钱一个月。到底干点啥呢。累喔。
先后搞了两个网站框架上去。先放着吧。
先把博客迁过去再说。
以后欢迎大家常来哈。
我的个人博客新地址: http://blog.esotang.com
另外,我的两个小网站的入口 :
易搜堂: http://www.esotang.com
易搜妹: http://www.esomei.cc