`
loveczp
  • 浏览: 4327 次
  • 性别: Icon_minigender_1
  • 来自: 武汉
最近访客 更多访客>>
社区版块
存档分类
最新评论

基于hadoop的网络爬虫设计1.0

阅读更多

一。用hadoop作网络爬虫的原因

爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoop是首选。

hadoop提供了自动的集群管理,任务分配,负载平衡。因此在hadoop之上构建爬虫程序可以省略这部分代码,这将极大的减少代码量。

二。主要思路

1.遍历整个网络的算法:网页之间是通过link连接起来的,link把所有的页面连接成了一个网,这个网可以用数据结构里的图来表示,用遍历图的算法就可以遍历整个网络了。

2任务切分:以站点为单位来切分爬取工作,每个站点对应一个map任务。系统要维护一个全局站点表,站点表用来记录那些站点已经爬取过,那些尚未爬取,那些正在爬取,并且还要向其中加入新发现的站点。

3.map阶段:每个map完成一个站点的爬取任务,同时把发现的新站点加入到全局站点表。生成的<k,v>就是<url ,url对应的页面数据>。此时要维护一个url的hashtable用来记录已经爬取到的页面,并防止相同的页面被重复爬取。

4.reduce阶段:主要任务是把所有的<url ,url对应的页面数据>存储到hdfs货hbase种去。

三。心得

爬虫程序并不是hadoop典型应用场景。hadoop一般应用于海量数据分析和挖掘,这种场景中首先存在着海量输入数据,并且最终得产出物事一个数据量很小的分析数据,在map过程中对海量数据进行划分成小块并进行分布式处理,在reduce的过程中将大量的中间数据进行合并,并最终得到较小的分析结果。

爬虫程序几乎没有输入,并且最终的产出物是海量数据,这和hadoop的典型应用完全是相反的。在爬虫程序的应用场景中reduce阶段几乎是多余的,几乎可以把reduce阶段的工作放到map的末尾来做。

虽然不符合hadoop的典型应用场景,但爬虫程序一样可以从hadoop上获得极大的好处(自动的集群管理,任务分配,负载平衡)。

 

分享到:
评论

相关推荐

    基于大数据挖掘的网络舆情智能分析系统关键技术研究.pdf

    主题爬虫技术在网络舆情智能分析系统中扮演了至关重要的角色。通过这种技术,系统能够自动采集互联网上的舆情数据。对于采集到的数据,需要进行文本过滤,以便合并相似的数据,并进行特征抽取。特征抽取的过程往往...

    大数据平台及在推荐广告的应用20(ppt版).ppt

    结合短期和长期数据,以及网络爬虫和知识库,构建用户画像以实现更精准的广告定向。 10. **广告定向投放** 广告系统通过用户画像、兴趣标签、关键词匹配等手段进行定向投放,并通过检索、统计、监控和计费系统(如...

    debugNutchWithEclipse

    Nutch是一款开源的网络爬虫框架,它能够抓取、索引互联网上的网页,并支持多种插件扩展。对于开发人员来说,在IDE环境中进行调试可以极大地提高开发效率,特别是在处理复杂的代码逻辑时。 #### 准备工作 - **Nutch...

    nutch学习笔记之第一天初学

    它基于Hadoop,能够高效地处理大量数据,并且支持自定义抓取策略和索引机制。对于希望深入了解网络爬虫技术或构建自己搜索引擎的人来说,Nutch是一个非常好的起点。 #### 二、环境搭建与配置 **1. JDK配置** ...

    Nutch入门资料PDF格式

    - **Nutch**: 开源网络爬虫项目,基于Apache Hadoop构建,能够抓取和索引大量网络数据,广泛应用于搜索引擎开发。 - **环境搭建**: - **配置中文API文档**: - 将中文API文档配置到Tomcat服务器上,并确保可以通过`...

    大数据平台及在推荐广告的应用20.pptx

    网络爬虫引擎和知识库则支持对非结构化数据的挖掘和理解,推动平台的自我学习和智能化。 最后,推荐广告的投放和效果评估涉及广告联盟、搜索推广、广告主业务平台等多方面的合作。通过精准定向投放、检索统计、监控...

    大数据平台及在推荐广告的应用.pptx

    用户画像体系结合基本维度(如性别、年龄)和商业维度(如品类、品牌)等信息,利用网络爬虫引擎、知识库自我学习等手段,对非结构化数据进行深度挖掘和结构化处理,以实现更精准的推荐。 在推荐广告的业务实践中,...

    nutch分布是详解

    它基于Hadoop平台,利用MapReduce来处理大规模数据集。Nutch的核心组件包括Injector、Generator、Fetcher和Parser等。其中Injector负责将初始URL导入数据库,Generator则根据数据库中的信息生成待抓取的URL列表。 #...

Global site tag (gtag.js) - Google Analytics