第一类:分布式爬虫
爬虫使用分布式,主要是解决两个问题:
2)网速
1)Nutch是为搜索引擎设计的爬虫,大多数用户是需要一个做精准数据爬取(精抽取)的爬虫。Nutch运行的一套流程里,有三分之二是为了搜索引擎而设计的。对精抽取没有太大的意义。也就是说,用Nutch做数据抽取,会浪费很多的时间在不必要的计算上。而且如果你试图通过对Nutch进行二次开发,来使得它适用于精抽取的业务,基本上就要破坏Nutch的框架,把Nutch改的面目全非,有修改Nutch的能力,真的不如自己重新写一个分布式爬虫框架了。
3)Nutch虽然有一套插件机制,而且作为亮点宣传。可以看到一些开源的Nutch插件,提供精抽取的功能。但是开发过Nutch插件的人都知道,Nutch的插件系统有多蹩脚。利用反射的机制来加载和调用插件,使得程序的编写和调试都变得异常困难,更别说在上面开发一套复杂的精抽取系统了。而且Nutch并没有为精抽取提供相应的插件挂载点。Nutch的插件有只有五六个挂载点,而这五六个挂载点都是为了搜索引擎服务的,并没有为精抽取提供挂载点。大多数Nutch的精抽取插件,都是挂载在“页面解析”(parser)这个挂载点的,这个挂载点其实是为了解析链接(为后续爬取提供URL),以及为搜索引擎提供一些易抽取的网页信息(网页的meta信息、text文本)。
5)很多人说Nutch2有gora,可以持久化数据到avro文件、hbase、mysql等。很多人其实理解错了,这里说的持久化数据,是指将URL信息(URL管理所需要的数据)存放到avro、hbase、mysql。并不是你要抽取的结构化数据。其实对大多数人来说,URL信息存在哪里无所谓。
所以,如果你不是要做搜索引擎,尽量不要选择Nutch作为爬虫。有些团队就喜欢跟风,非要选择Nutch来开发精抽取的爬虫,其实是冲着Nutch的名气(Nutch作者是Doug Cutting),当然最后的结果往往是项目延期完成。
第二类:JAVA单机爬虫
这里把JAVA爬虫单独分为一类,是因为JAVA在网络爬虫这块的生态圈是非常完善的。相关的资料也是最全的。这里可能有争议,我只是随便扯淡。
对于爬虫的功能来说。用户比较关心的问题往往是:
不支持多线程、不支持代理、不能过滤重复URL的,那都不叫开源爬虫,那叫循环执行http请求。
2)爬虫可以爬取ajax信息么?
如果我已经可以生成我所需要的ajax请求(列表),如何用这些爬虫来对这些请求进行爬取?
3)爬虫怎么爬取要登陆的网站?
4)爬虫怎么抽取网页的信息?
5)爬虫怎么保存网页的信息?
6)爬虫被网站封了怎么办?
7)网页可以调用爬虫么?
8)爬虫速度怎么样?
9)明明代码写对了,爬不到数据,是不是爬虫有问题,换个爬虫能解决么?
10)哪个爬虫可以判断网站是否爬完、那个爬虫可以根据主题进行爬取?
至于根据主题爬取,爬虫之后把内容爬下来才知道是什么主题。所以一般都是整个爬下来,然后再去筛选内容。如果嫌爬的太泛,可以通过限制URL正则等方式,来缩小一下范围。
设计模式纯属扯淡。说软件设计模式好的,都是软件开发完,然后总结出几个设计模式。设计模式对软件开发没有指导性作用。用设计模式来设计爬虫,只会使得爬虫的设计更加臃肿。
所以对于JAVA开源爬虫,我觉得,随便找一个用的顺手的就可以。如果业务复杂,拿哪个爬虫来,都是要经过复杂的二次开发,才可以满足需求。
第三类:非JAVA单机爬虫
先说python爬虫,python可以用30行代码,完成JAVA 50行代码干的任务。python写代码的确快,但是在调试代码的阶段,python代码的调试往往会耗费远远多于编码阶段省下的时间。使用python开发,要保证程序的正确性和稳定性,就需要写更多的测试模块。当然如果爬取规模不大、爬取业务不复杂,使用scrapy这种爬虫也是蛮不错的,可以轻松完成爬取任务。
还有一些ruby、php的爬虫,这里不多评价。的确有一些非常小型的数据采集任务,用ruby或者php很方便。但是选择这些语言的开源爬虫,一方面要调研一下相关的生态圈,还有就是,这些开源爬虫可能会出一些你搜不到的BUG(用的人少、资料也少)
[/align]
分享到:
相关推荐
PHPSpider是一款基于PHP的网页爬虫框架,专为开发者设计,用于高效地抓取互联网上的数据。这个框架在《我用爬虫一天时间“偷了”知乎一百万用户,只为证明PHP是世界上最好的语言》一文中被提及,展现了PHP在处理网络...
【标题】"开源爬虫java文件.zip" 涉及的主要知识点是Java编程语言和开源爬虫技术。Java是一种广泛使用的面向对象的编程语言,以其跨平台性、安全性以及高效性能而闻名。在这个压缩包中,我们可以看到与Java相关的...
icrawler是一个基于Python的开源爬虫框架,专为高效地抓取和下载网页图像而设计。它以其内置的多种图像下载引擎和多线程支持而脱颖而出,使得大规模图像抓取任务变得更加便捷和高效。 ### 一、icrawler框架核心特点...
今天我们要分享的是一款基于Node.js开发的爬虫框架——Crawl-pet,它简化了爬虫的开发流程,使得新手也能快速上手。 首先,安装Crawl-pet框架非常简单。开发者需要确保本地已安装Node.js环境,然后通过npm(Node.js...
Cola是一个分布式的爬虫框架,用户只需编写几个特定的函数,而无需关注分布式运行的细节。任务会自动分配到多台机器上,整个过程对用户是透明的。pip install pyyaml安装下载或者用git clone源码,假设在目录/to/...
在本资源包中,我们主要关注的是一...同时,对于那些想要扩展其爬虫功能或对开源爬虫框架感兴趣的开发者,提供的文档也将是一份宝贵的参考资料。总的来说,这是一份全面的学习材料,适合初学者和有一定经验的C#开发者。
前段时间工作上需要一些JD信息,我就从网上找了个开源的爬虫框架WebMagic,使用简单,易配置,功能也很强大,当然了也有些网站的数据不适合使用。前前后后写了不下十几个,慢慢的就想是不是可以把这些爬虫代码再抽象...
例如,在文中提到的Nutch爬虫框架,它是一个基于Java的开源网页爬取系统,其设计目标是提供一个可扩展的平台用于网络上的大规模数据收集。Nutch支持网页爬取、页面内容分析、索引和搜索,还具有良好的扩展性和可定制...
在熟练运用Python语言的基础上,更加深入的掌握开源的爬虫框架Scrapy,为后续其他与爬虫相关的业务奠定理论基础和数据基础;进一步理解分布式的概念,为大数据的相关研究和硬件条件奠定基础;熟练掌握Python搭建网站...
文档提到了几个广泛使用的Python爬虫框架和库,包括Scrapy、PySpider、BeautifulSoup、lxml、urllib等。这些框架和库各具特色,例如Scrapy是一个快速的高级爬虫框架,适合复杂的网页;BeautifulSoup库能够解析HTML和...
### 利用开源工具搭建小型搜索引擎 #### 一、搜索引擎基础知识 **1.1 搜索引擎的分类** 搜索引擎根据其工作方式和数据处理的特点可以分为以下几类: - **目录索引类**: 这类搜索引擎主要依靠人工或者半自动的...
1. **Scrapy框架**:Scrapy是一款基于Python的开源爬虫框架,具有以下特点: - **高效**:支持异步处理,能够同时处理多个请求,提高爬取效率。 - **灵活**:提供了丰富的API,方便扩展和定制。 - **易用**:内置...
- **GitHub**:有许多开源爬虫项目可供学习和参考。 - **Stack Overflow**:解答爬虫开发过程中的技术问题。 - **在线课程**:如Coursera、Udacity等提供爬虫相关的系统学习资源。 综上所述,"爬虫大全.zip"中的...
SiteCrawler是一个基于Java的网页爬虫框架,设计用于自动化地浏览和抓取网站内容。通过自定义配置,它能够按照指定规则遍历网页,提取所需数据,非常适合进行网站分析、内容挖掘或数据采集项目。 SiteCrawler的...
文中提到的Scrapy是一个开源的Python框架,它专门用于爬取网页数据并提取结构性数据,是目前最流行的网络爬虫框架之一。Scrapy之所以受到青睐,是因为它不仅易于使用,而且具有很高的灵活性和可扩展性。开发者可以只...
做最 NB 的开源社区系统,预计几年以后 82% 的社区都将是 Sym 搭建的 作者技痒,炫技之作,Ruby/Python/Node.js/(特别是)PHP 怎么能比得过 Java 案例 个人维护: 黑客派 宽客网 贵州IT 超级产品经理 ...
4. Scrapy爬虫框架的应用:Scrapy是一个基于Python的爬虫框架,能够高效地抓取和处理大量数据。本系统使用Scrapy爬虫框架来实时采集疫情相关数据,并对数据进行处理和可视化呈现给用户。 5. 分布式爬虫的应用:对于...
【网络爬虫的基本原理】 网络爬虫,也称为Spider,是一种自动检索Web文档的软件工具。按照定义,网络爬虫可以分为广义和狭义两...在实际应用中,开发者可以根据项目的规模、目标和资源限制来选择合适的网络爬虫框架。