`
zhangzhenjj
  • 浏览: 27855 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

一、关于爬虫的一点想法

阅读更多
                    
                      
关于爬虫的一点想法(一)


小弟毕业后参加工作的过程中在iteye汲取了很多营养,一直想写点什么回报这种无私共享的精神,之前策划了一篇文章《论工作的那些事》由于比较长,还需等一段时间.

关于爬虫的一点想法:
爬虫的大致业务流程是:下载、解析、存储,不断重复(任务调度),那么想提高爬虫的运行效率是不是可以从以下几个方面着手.这个系统的上下文大概是这样的,网络、服务器(cpu、cache、disk)、爬虫程序
1、爬虫对网络带宽要求较高,在有限的资源下,我们能做的就是提高带宽的利用率,那么这里的话我们就可以尽量增加同一时刻执行下载线程的数量(不是一味的多就好),但是由于linux系统的特性,所有对其的调用都是文件的操作(大概是这意思,之前在一本书上看到的,非专业),linux对文件打开数量有限制,即使可以修改参数,所以对于一个大规模的爬虫增加服务器是必要的也是必然的,这样就涉及分布式,涉及分布式就涉及任务的调度,实现一个无延迟的任务调度需要思考,在数据结构上可能disruptor比较适合,另外jdk的blockqueue(需要理解内部机制)也不错。DNS解析耗费大量不必要的时间,可以在本地增加DNS缓冲池,之前测过一般我们要访问一台www服务器一般要经过2~3个路由器,更远的可能3~5个。linux下可以使用tracert命令进行路由的跟踪。
2、提高cache的工作效率。Java不同于C可以为任务指定cpu执行,这里有个非常关键的问题,就是CPU伪共享问题,现在pc都有了三级缓存,但大多树都是cpu共享的,这样就产生了伪共享问题,例如cpu1访问cache段C1的A字节,同时CPU2访问cache段C1中的B字节,实际上A和B毫无关系,但是由于CPU寻址的问题,他每次都是加载16字节,所以就造成CPU2需要重新去内存加载B的内容,而B没有变更,造成了无形的效率问题,redis中有这个的解决方案,就是在自己的变量前后各添加16字节的byte数组。
3、disk问题。爬虫服务器没必要弄个ssd,基本都是机械硬盘,机械硬盘的特点是顺序读写比较好,整个数据操作的过程中磁头寻道的时间是主导,所以有效减少磁盘寻道时间会比较有效,这里有两种解决方案:A,优化程序尽量按磁盘块大小进行操作,当然jdk已经考虑到这个问题,buffer大小默认好像是4K ,这个和磁盘块大小是一致的,我也写过简单程序测试过。
B,添加raid卡,不过这个成本好像比较高。添加了raid卡的一个磁盘阵列,具有多个磁头,理论上相当于磁盘效率正比例提高了,因为同一时刻可以多个磁头同时工作。
C,尽量顺序操作。虽然现在linux对磁盘的随机读写有优化,例如,预读策略,但这应该是最后一个关卡,我们可以通过程序尽量避免随机操作。
4、cpu+数据总线+磁盘的工作方式,这个之前在《大话处理器》上看到的,没见过类似的具体应用。cpu读取数据的过程cpu是不参与的,而是通过数据总线,在数据从磁盘加载到内存中间的操作是由数据总线完成的,这段时间cpu是空闲的,是否有某些方法可以充分利用这段时间。这里就跟操作系统的cpu调度策略有关了。
5、多线程的合理运用,不是开的越多越好。线程主要解决是阻塞问题,不论是锁还是资源等待都会造成这个问题,下面从这两个方面写。
A,资源等待。在爬虫系统中大量运行时间都花在网络资源获取上,这个可能是由于带宽问题或服务器超出了打开最大文件数限制引起(httpclient运用不好就会造成这个bug),之前看过一篇文章,大概意思是系统要运行一个任务T,T运行时间=T资源等待时间+T处理时间,程序为这个任务开的任务数同CPU有个比例函数关系。大概是线程数=(T处理时间/T等待时间+1)*CPU内核数(可能不准确)。
B,锁问题。锁是影响程序执行性能的一大问题,能不用就不用,jdk也自带了current包。举个例子,disruptor是一个无锁的高效队列,非常适合生产者/消费者问题,并且支持消费者层级关系,即消费者A处理完由消费者B处理。数据结构模型也不复杂。
6、对象缓存运用,apache有开源实现。java是个面向对象的语言,现在开发程序更是无所不用其及,想法用面向对象的思想,一切都是对象,有利有避,开发/维护简单了,运行效率就不好说了,大量的GC不但会影响程序性能,同时其自身也有个bug----GC回收不及时,这个平常可能很少见,但是对于淘宝那样的高并发,他们就曾经遇到过这个问题,最后是由他们的jvm团队修改jvm代码解决的。apache这个开源的实现包不大,使用也比较简单,简单的说有一个对象池,每次对特定对象的操作都需要找这个池去要,使用完归还,途径这个池时可以进行对对象的处理,例如初始化、挂起、激活、销毁等动作。对于爬虫这样大量对象的操作我认为对象缓存是必要的。我们的微薄采集程序用了,我们是采用api调用的方式处理的,在每次通过api获取数据时都可以指定页数,例如我要获取JERRY的新浪微薄数据,因为jerry刷微薄都是在一个很短的时间段完成的,大部分时间没有更新,所以每次只请求很少的记录条数,减少网络传输的数据,我们将api的请求参数封装成一个对象Query,请求是调用toString()即可,这个方法用反射将query对象的成员变量和值组成url形式返回,并且进行了缓存,通过去重机制判断是否有下一页,如果有下一页就对这个query进行一个深拷贝,形成一个子任务返回给调度器,并且设置启动时间为立即。
7、NIO的运用,最新的httpclient包已经支持NIO。
8、JVM参数配置。我们一般都将jvm设置成server模式,虽然启动会慢,但有一个显著的性能提升,尤其明显的是对方法的调用提高很多很多,当然jvm自身也会判断该工作在client模式还是server模式。jvm还有很多参数,一般我们都关心内存,对于jvm的内存模型,也许有必要深入研究,尤其是几个区的分配,避免自动扩增,之前也看了一遍《深入理解JVM》,但基本没应用到工作也没记住多少。
9、JDK版本的选择,如果你对内存的大小没太大要求,还是用32位的比较好,如果需要大量内存那只能用64位的了,对于JDK的32位和64位有过这么一个测试,前者运行效率全面超过后者。JDK64位有个自动补全机制。
10、nosql的运用。heritrix是个特别好的单机开源爬虫框架,内部有很多好的思想,其内部运用了BDB做为其内存数据库。现在key-value类型的nosql比较多,redis比较好用,之前看memlink正在研发,是基于redis的,官方说实现了完全的读写分离。


非常愿意和大家一起讨论,谢谢!!!!
分享到:
评论
1 楼 SE_XiaoFeng 2013-07-30  
表示只看懂了一半.

相关推荐

    CSDN爬虫(一)——爬虫入门+数据总览

    【标题】"CSDN爬虫(一)——爬虫入门+数据总览"涉及到的是一篇关于使用webMagic框架进行网页抓取的教程。在IT行业中,爬虫技术是获取网络数据的重要手段,尤其在数据分析、信息挖掘等领域中扮演着关键角色。...

    网络爬虫爬虫软件

    需要加载一个字典文件,此字典文件在爬虫程序中要求放在此目录结构下: c:\dictionary\dictionary.txt,词典默认认为是按照词语长到短的顺序排列的 2、此爬虫程序爬到的网页内容存储到数据库中,运用的是SQL Server ...

    爬虫设计文档 关于网络爬虫设计的文档

    网络爬虫设计是信息技术领域中一个重要的实践环节,主要用于自动化地从互联网上抓取大量信息。本篇文章将探讨网络爬虫设计的一些核心概念和策略,包括URL标准化、防止陷入网络陷阱、遵循漫游拒绝访问规则,以及两种...

    一个爬虫代码

    一个 爬虫 代码 python

    一个图片爬虫和音乐爬虫

    在IT领域,爬虫是一种非常重要的技术,尤其对于数据挖掘和信息分析来说。"一个图片爬虫和音乐爬虫"的项目,正如标题所示,涵盖了两种不同类型的网络爬虫,分别用于抓取互联网上的图像资源和音乐文件。下面将详细解释...

    网站图片爬虫小工具 网站图片爬虫小工具

    网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具网站图片爬虫小工具...

    爬虫_爬虫_医院数据爬虫_

    在IT领域,爬虫是一种广泛使用的工具,用于自动地从互联网上抓取大量信息。"爬虫_爬虫_医院数据爬虫_"这个标题暗示了我们将会探讨的是一个专门针对医院数据的网络爬虫项目。这类爬虫的目标是收集医疗行业的相关数据...

    web爬虫一个WEB爬虫的实例——JAVA.

    标题:"Web爬虫一个WEB爬虫的实例——JAVA." 描述:"web技术爬虫可用很犀利" 标签:"爬虫技术" 部分代码内容分析与详细解释: 该Java代码展示了一个简单的Web爬虫(SearchCrawler)类,用于在指定的网站上搜索...

    一个简单的c++ 爬虫

    【标题】:“一个简单的C++ 爬虫” 在编程领域,爬虫是一种自动化程序,用于从互联网上抓取信息,通常用于数据挖掘、搜索引擎索引等任务。本项目涉及的“一个简单的C++ 爬虫”是利用C++语言实现的一个基础网络爬虫...

    反爬虫策略反爬虫手段

    在互联网世界中,爬虫与反爬虫是一场持续的博弈。爬虫,作为一种自动抓取网页信息的程序,被广泛用于数据挖掘、市场分析、搜索引擎优化等领域。然而,随着爬虫技术的发展,网站所有者也开始采取各种反爬虫策略以保护...

    TVBoxOSC 服务端爬虫 .zip

    爬虫(Web Crawler)是一种自动化程序,用于从互联网上收集信息。其主要功能是访问网页、提取数据并存储,以便后续分析或展示。爬虫通常由搜索引擎、数据挖掘工具、监测系统等应用于网络数据抓取的场景。 爬虫的...

    一个国外爬虫demo

    在IT行业中,爬虫是一种非常重要的技术,尤其对于数据挖掘、数据分析和自动化信息获取等领域。这个"国外爬虫demo"的资源提供了一个学习和实践爬虫技术的机会。下面,我们将详细探讨爬虫的基本概念、工作原理以及如何...

    用python编写网络爬虫教程合集+一个爬虫框架

    用python编写网络爬虫教程合集+一个爬虫框架 爬虫入门 网络爬虫 爬虫精华 web scraper框架

    一个爬虫脚本

    一个Python爬虫脚本,可以使用他下载一些图片什么的,

    一个抓取web网页爬虫软件

    【标题】:“一个抓取Web网页爬虫软件” 在信息技术领域,网络爬虫(Web Crawler)是一种自动化程序,用于浏览互联网并收集信息。它按照一定的规则遍历网页,抓取其中的数据,常用于搜索引擎的索引构建、数据分析、...

    # 第一个爬虫示例,爬取百度页面 import requests #导入爬虫的库,不然调用不了爬虫的函数 response =

    # 第一个爬虫示例,爬取百度页面 import requests #导入爬虫的库,不然调用不了爬虫的函数 response = requests.get("http://www.baidu.com") #生成一个response对象 response.encoding = response.apparent_encoding...

    主题爬虫|定向爬虫

    在这个压缩包文件"network_spider"中,我们很可能会找到关于这两种爬虫技术的实现代码和相关工具。 首先,让我们详细探讨一下“主题爬虫”。主题爬虫是一种特定类型的网络爬虫,它的目标是围绕一个或多个特定的主题...

    python爬虫,拉勾网爬虫

    python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫python爬虫,拉勾网爬虫...

    81个Python爬虫源代码+九款开源爬虫工具.doc

    以下是一些关于Python爬虫的知识点,以及提到的一些开源爬虫工具: 1. **Python爬虫源代码**: - Python爬虫源代码通常涉及到requests库用于发送HTTP请求,BeautifulSoup或lxml库解析HTML或XML文档,可能还会使用...

Global site tag (gtag.js) - Google Analytics