一。用hadoop作网络爬虫的原因
爬虫程序的海量计算特性要求必须要用分布式方式来实现。一般爬虫爬取的是整个互联网上的所有或部分数据,这个数据量一般是P byte级,至少也是T byte级,因此用分布式的方式来获取这是不二之选。在众多的分布式计算框架里hadoop绝对是个中翘楚,从hadoop的用户名单中可以看出hadoop的应用范围已经非常广泛,hadoop本身已经接近成熟。因此hadoop是首选。
hadoop提供了自动的集群管理,任务分配,负载平衡。因此在hadoop之上构建爬虫程序可以省略这部分代码,这将极大的减少代码量。
二。主要思路
1.遍历整个网络的算法:网页之间是通过link连接起来的,link把所有的页面连接成了一个网,这个网可以用数据结构里的图来表示,用遍历图的算法就可以遍历整个网络了。
2任务切分:以站点为单位来切分爬取工作,每个站点对应一个map任务。系统要维护一个全局站点表,站点表用来记录那些站点已经爬取过,那些尚未爬取,那些正在爬取,并且还要向其中加入新发现的站点。
3.map阶段:每个map完成一个站点的爬取任务,同时把发现的新站点加入到全局站点表。生成的<k,v>就是<url ,url对应的页面数据>。此时要维护一个url的hashtable用来记录已经爬取到的页面,并防止相同的页面被重复爬取。
4.reduce阶段:主要任务是把所有的<url ,url对应的页面数据>存储到hdfs货hbase种去。
三。心得
爬虫程序并不是hadoop典型应用场景。hadoop一般应用于海量数据分析和挖掘,这种场景中首先存在着海量输入数据,并且最终得产出物事一个数据量很小的分析数据,在map过程中对海量数据进行划分成小块并进行分布式处理,在reduce的过程中将大量的中间数据进行合并,并最终得到较小的分析结果。
爬虫程序几乎没有输入,并且最终的产出物是海量数据,这和hadoop的典型应用完全是相反的。在爬虫程序的应用场景中reduce阶段几乎是多余的,几乎可以把reduce阶段的工作放到map的末尾来做。
虽然不符合hadoop的典型应用场景,但爬虫程序一样可以从hadoop上获得极大的好处(自动的集群管理,任务分配,负载平衡)。
分享到:
相关推荐
主题爬虫技术在网络舆情智能分析系统中扮演了至关重要的角色。通过这种技术,系统能够自动采集互联网上的舆情数据。对于采集到的数据,需要进行文本过滤,以便合并相似的数据,并进行特征抽取。特征抽取的过程往往...
结合短期和长期数据,以及网络爬虫和知识库,构建用户画像以实现更精准的广告定向。 10. **广告定向投放** 广告系统通过用户画像、兴趣标签、关键词匹配等手段进行定向投放,并通过检索、统计、监控和计费系统(如...
Nutch是一款开源的网络爬虫框架,它能够抓取、索引互联网上的网页,并支持多种插件扩展。对于开发人员来说,在IDE环境中进行调试可以极大地提高开发效率,特别是在处理复杂的代码逻辑时。 #### 准备工作 - **Nutch...
它基于Hadoop,能够高效地处理大量数据,并且支持自定义抓取策略和索引机制。对于希望深入了解网络爬虫技术或构建自己搜索引擎的人来说,Nutch是一个非常好的起点。 #### 二、环境搭建与配置 **1. JDK配置** ...
- **Nutch**: 开源网络爬虫项目,基于Apache Hadoop构建,能够抓取和索引大量网络数据,广泛应用于搜索引擎开发。 - **环境搭建**: - **配置中文API文档**: - 将中文API文档配置到Tomcat服务器上,并确保可以通过`...
网络爬虫引擎和知识库则支持对非结构化数据的挖掘和理解,推动平台的自我学习和智能化。 最后,推荐广告的投放和效果评估涉及广告联盟、搜索推广、广告主业务平台等多方面的合作。通过精准定向投放、检索统计、监控...
用户画像体系结合基本维度(如性别、年龄)和商业维度(如品类、品牌)等信息,利用网络爬虫引擎、知识库自我学习等手段,对非结构化数据进行深度挖掘和结构化处理,以实现更精准的推荐。 在推荐广告的业务实践中,...
它基于Hadoop平台,利用MapReduce来处理大规模数据集。Nutch的核心组件包括Injector、Generator、Fetcher和Parser等。其中Injector负责将初始URL导入数据库,Generator则根据数据库中的信息生成待抓取的URL列表。 #...