`
zfjoy520
  • 浏览: 1103 次
  • 性别: Icon_minigender_1
  • 来自: 成都
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

爬虫的境界,原来可以如此。。。

阅读更多
最近搞了个新站(id86.com),技术型论坛,想了想数据来源是个问题,于是乎花了两三天的下班时间搞了几个爬虫,针对wenwen.soso.com的


ruby, js, css ,php, ubuntu, centos, mysql, oracle,相关的帖子都是通过这个爬虫从soso那边抓过来的。

感觉用ruby写爬虫相当给力啊,是迄今为止遇到过写采集最方便的,当然是对比脚本语言这一系列来说的


这里面包含一些小的细节:

(1) 通过ruby以用户管理员身份登录网站,创建新用户

     discuz X的数据系统确实不敢深究,虽然知道他的一部分机理,比如ucenter_members, common_member这一堆表的用法,但最终还是采用的是通过post请求的方式来添加需要的用户, 没敢去尝试用ruby脚本改数据库。虽然之前迁移过80万用户、700万帖子的论坛。

(2) 通过ruby脚本改数据库,发表主题,发贴

(3) 通过ruby脚本结合imagemaigck给用户搞头像。

地址是: www.id86.com。现在除了抓过来的数据,其他啥也没有。相当于一个垃圾桶吧。哈哈。
分享到:
评论
19 楼 zfj.rails 2011-06-01  
现在soso有防爬机制,如果是爬文章列表,一般sleep 2秒就OK。

不过,后面搞内容的时候,我加了其他的操作,比如增加用户,这个要花个一两秒,所以就没有sleep了,soso上面的那个用户名简直不敢恭维,太非主流了。

最近在写taobao的图片爬虫,有防盗链设置,整起来要费事一些。呵呵

代码一会上班我贴出来,写得不是很好
18 楼 zfj.rails 2011-06-01  
HOHO!。居然这么多人关注
17 楼 caizi12 2011-05-31  
prettyinsight 写道
caizi12 写道
prettyinsight 写道
LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?


算是木有。那么多搜索引擎不都在抓东西。加上版权说明就 木有。


还要假惺惺的加上版权说明,太假了!有木有 有木有


怎么假了,不明白,很多网站不都写着如果转载请注明原出处,版权之类的。他这只是变相的转载而已。
16 楼 liuyupy 2011-05-31  
brucewei777 写道
网站里一般都有个robot.txt文件,说明了该网站允许哪些机器人爬内容

不经允许的爬内容,似乎不妥

似乎不妥就妥了。。。有哪几个爬虫遵循这个规范呃。。。更何况是自己整的。
15 楼 brucewei777 2011-05-31  
网站里一般都有个robot.txt文件,说明了该网站允许哪些机器人爬内容

不经允许的爬内容,似乎不妥
14 楼 JLK 2011-05-31  
LZ在打广告吗?
13 楼 ericjoe 2011-05-31  
id86.com使用什么搭建的?
12 楼 starmb 2011-05-30  
源码贴来瞅瞅吧,楼主。。
11 楼 prettyinsight 2011-05-30  
caizi12 写道
prettyinsight 写道
LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?


算是木有。那么多搜索引擎不都在抓东西。加上版权说明就 木有。


还要假惺惺的加上版权说明,太假了!有木有 有木有
10 楼 neverforget 2011-05-30  
你爬的数据好像不多 我曾一天一夜让它爬过50万条记录 SOSO的 后来没几天SOSO发现了 开始间隔时间限制了


贫僧有罪!

9 楼 neverforget 2011-05-30  
问问从去年10月份开始防采集的 有时间间隔限制

你怎么处理的
8 楼 caizi12 2011-05-30  
prettyinsight 写道
LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?


算是木有。那么多搜索引擎不都在抓东西。加上版权说明就 木有。
7 楼 prettyinsight 2011-05-30  
LZ楼主的爬虫是不是从别的网站抓取帖子,然后导入到自己网站。
这是赤裸裸的偷窃啊,有木有?
6 楼 jerry 2011-05-30  
以为你要发布一下你的爬虫代码呢。原来是显摆帖。
5 楼 hcyoo 2011-05-30  
很多用户的头像都是重复的
4 楼 diddyrock 2011-05-30  
请问大仙爬问问的时候时间间隔设置的是多少啊
3 楼 181054867 2011-05-30  
完全不知在说什么,垃圾文章
2 楼 Hooopo 2011-05-26  
ruby做定向爬虫还是很方便的
1 楼 zfj.rails 2011-05-26  
发错号了。摘了两个iteye号。悲催。

相关推荐

    网站图片爬虫小工具 网站图片爬虫小工具

    网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...

    闲鱼爬虫,可以爬取商品

    非常简单的一个闲鱼爬虫,可以爬取自己要求的价格区间的商品

    爬虫_爬虫_医院数据爬虫_

    描述中提到,"主要从医院和其他网站获取数据是完全合法的",这指的是在遵循《中华人民共和国网络安全法》和相关法律法规的前提下,爬虫技术可以合法地用于数据采集。但需要注意的是,数据抓取必须尊重网站的robots....

    爬虫程序 可以运行的

    在这个"可以运行的"爬虫程序中,我们可以假设它是一个基本的Python实现,因为它是一种常用且灵活的语言,适合编写爬虫。 爬虫的工作原理通常包括以下几个步骤: 1. **URL管理**:首先,爬虫需要一个起始URL,这...

    反爬虫策略反爬虫手段

    通过这个文件,网站可以告诉爬虫哪些页面可以抓取,哪些应该避免访问。例如,敏感信息、用户隐私数据或服务器压力大的页面通常会被限制访问。对于爬虫开发者来说,遵循robots协议是一种基本的网络礼仪,也是避免被...

    简单的闲鱼爬虫.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    网络爬虫爬虫软件

    需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server ...

    TVBoxOSC 服务端爬虫 .zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    本人多年使用的爬虫与反爬虫经验

    本人多年使用的爬虫与反爬虫经验 原理+中间件+源代码 各种爬虫技术+针对各种爬虫而开发的反爬虫技术

    网络爬虫.论文答辩PPT

    在PPT中提到了Redis作为缓存,用于分布式爬虫的协调,它可以在节点间共享状态信息,提高爬虫的并发性和整体性能。 4. **自动化渲染请求**:有些网站使用JavaScript动态加载内容,这需要爬虫能够处理和渲染...

    语雀爬虫 可以保存整个语雀知识库为Markdown格式 (包含完整目录结构和索引).zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    python 爬虫学习笔记

    代理(Proxy)是爬虫中的一种技术,它可以用来隐藏爬虫的 IP 地址,避免被反爬虫检测。爬虫可以使用代理来发送 HTTP 请求,避免被检测。 Cookie 模拟登录 Cookie 是一种小型文本文件,用于存储用户的会话信息。...

    python爬虫代码源码.rar

    因此,只要为一个页面开发了爬虫程序,爬虫程序也可以对基于同一模板生成的不同页面进行爬取内容。 比如要调研一家电商公司,想知道他们的商品销售情况。这家公司声称每月销售额达数亿元。如果你使用爬虫来抓取公司...

    主题爬虫|定向爬虫

    主题爬虫和定向爬虫是网络爬虫技术的两种重要类型,它们在互联网信息的抓取和处理中扮演着至关重要...通过深入研究和应用这些代码,我们可以更好地理解和掌握网络爬虫的高级技巧,并能够构建出高效的网络信息获取系统。

    秀人网爬虫 55156爬虫.zip

    这些URL可以通过链接分析、站点地图、搜索引擎等方式获取。 请求网页: 爬虫使用HTTP或其他协议向目标URL发起请求,获取网页的HTML内容。这通常通过HTTP请求库实现,如Python中的Requests库。 解析内容: 爬虫对...

    CSDN爬虫(一)——爬虫入门+数据总览

    【标题】"CSDN爬虫(一)——爬虫入门+数据总览"涉及到的是一篇关于使用webMagic框架进行网页...通过学习和实践,读者不仅可以了解爬虫的基本原理,还能掌握一种实用的爬虫工具,进一步提升自己的数据获取和处理能力。

    网络爬虫技术 爬虫技术

    网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫技术 爬虫技术网络爬虫...

    Python爬虫

    描述中提到的“可以爬取百度百科若干个页面”,这表明爬虫的实现可能包括对百度百科的URL分析,如通过构造URL模式来遍历不同页面。同时,爬虫通常需要处理动态加载的内容,可能需要用到如Selenium这样的自动化测试...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    Python爬虫技术是数据获取和分析领域的重要工具,尤其在互联网信息海量的今天,爬虫可以帮助我们自动化地从网站上抓取大量数据。以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫...

Global site tag (gtag.js) - Google Analytics