MapReduce框架适合用来处理大数据量计算和分析工作,但实际应用中许多任务并不能表示成单个MapReduce Job。
比如K均值聚类,SVM等迭代式的算法,仅执行一次Job是不可能完成计算。而MapReduce框架,包括Hadoop最初设计成解
决批处理任务的,用它来实现这种迭代式的算法时,只能在每次迭代后,由reducer将临时结果写入HDFS的文件;在下次迭
代中,由mapper读入。这样需执行大量IO操作,开销很大,编程也比较麻烦些。如果MapReduce框架能支持类似于管道的
方式,可将上一个Job的输出直接输入到下一个Job的mapper中,不仅可以节省大量IO的开销,对于众多迭代式的机器学习算法的实现将是莫大的福音。
UC Berkly的博士生
Tyson Condie
,在他的一篇论文MapReduce Online中,提出了Pipelining Hadoop的想法,并实
现了一个原型 HOP
- Hadoop Online Prototype project。
最初的MapReduce为简化容错处理,mapper和reducer都先将输出写入磁盘。HOP(Hadoop Online Prototype)在
保留Hadoop的容错性前提下,使数据在各个任务间以管道的方式交互,可增加任务的并发性,缩短响应时间,而且拓宽了
MapReduce框架的应用领域。
管道化同时面临一些设计上的挑战:
(1)需改进MapReduce简单容错机制以适应管道
中间结果写入磁盘简化了容错,任何任务失败后,JobTracker仅需简单的再分配一个新节点重新执行相同的任务即可,因为任务执行中并未输出任何数据。
(2)管道要求消费者“贪心”地获取生产者产生的数据,
这与MapReduce中的Combiner相冲突。Combiner与Mapper运行在同一节点,通常执行本地的数据压缩和运算,以减少网络通信量。
(3)管道需要解决生产者和消费者的并发和互斥问题。
HOP的设计策略:修改mapper任务,使其产生输出后将数据“推”给reducer
分享到:
相关推荐
- 研究还提出了Hadoop MapReduce框架的在线版本,即Hadoop Online Prototype (HOP),支持连续查询。 - 连续查询允许MapReduce程序为事件监控和流处理等应用编写,而无需修改用户定义的MapReduce程序。 3. **技术...
Hadoop Online Prototype (HOP)是这个理念的具体实现,它在保持原有Hadoop编程接口和容错机制不变的前提下,实现了数据管道。HOP通过在实体化的同时周期性发送数据给消费者,解决了容错问题。为了解决管道中的贪婪...
Case studies from the previous editions can now be found online. Many corrections, updates, and improvements have been made to existing chapters to bring them up to date with the latest releases of ...
分布式计算产品如GFS、Bigtable、Megastore、Spanner、MapReduce、Hadoop Online等,都是为了处理海量数据而设计。其中,MapReduce作为最知名的分布式计算模型,其设计简单但功能强大,主要特点包括本地性、单作业内...
标题与描述均提到“Hadoop权威”,这表明文章或资源主要聚焦于Hadoop技术的深入讲解与权威解读。Hadoop是一种开源软件框架,用于分布式存储和处理大型数据集。它由Apache基金会维护,广泛应用于大数据处理领域。以下...
### MapReduce Online 译文PDF知识点总结 #### 摘要 本文介绍了一种改进的MapReduce体系结构,即MapReduce Online(MRO),旨在通过允许数据在操作间使用管道传输来增强传统的MapReduce编程模型。这种方法不仅简化...
4. 大数据处理:了解SAS在处理大数据环境中的解决方案,如SAS Viya和Hadoop集成,以及如何使用SAS High-Performance Analytics处理分布式数据。 三、SAS认证考试准备 1. 题型分析:熟悉SAS认证考试的题型,包括...
很抱歉,但根据您给出的信息,"DWFS-ONLINE-70-源码.rar" 和 "DWFS-ONLINE-70-源码.zip" 都是文件名,它们本身并不提供足够的上下文来生成一篇超过1000字的详细IT知识文章。DWFS可能代表“Distributed File System”...
Online advertising allows advertisers to only bid and pay for measurable user responses, such as clicks on ads. As a consequence, click prediction systems are central to most online advertising ...
接下来,OLTP(On-Line Transaction Processing)与OLAP(On-Line Analytic Processing)是两种不同的数据处理概念。OLTP是面向日常交易处理的,如银行转账等,强调的是快速响应和事务完整性;而OLAP则面向复杂的...
分布式在线(Online)与离线(Offline)设计是大数据处理领域中的重要概念,它们主要针对大规模数据处理的不同场景和需求。本讲座的slides主题为"分布式online与offline设计",结合提供的标签“源码”和“工具”,...
3. "5WD-10-OLB-2003-09.pdf":可能涉及在线分析处理(OLAP)和业务智能,OLB可能代表Online Business,讨论如何用SQL进行多维数据分析以支持决策制定。 4. "5WD-03-CLI-2003-09.pdf":CLI可能指Command Line ...
《基于Java实现的Eve Online游戏聊天频道监控软件》 这个项目是一个利用Java语言开发的Eve Online游戏聊天频道监控软件。Eve Online是一款大型多人在线太空科幻游戏,玩家在游戏中进行星际探索、战斗、贸易等活动,...
根据提供的文件信息,我们可以推断出这是一份关于获取《Hadoop实战》一书PDF版本的...- **本地下载**:访问网站 [http://www.xwood.net/xwood-gw/on-line/?sp=p4&ep=1&jumpUrl=/cdn/docs/Hadoop_shizhan_20181009.pdf]...
Maven在Eclipse中远程调试hadoop2.6.0项目 1.系统环境 调试:Win7,64bit Cluster: Linux, Centos 2.创建hadoop项目命令 mvn archetype:generate -DarchetypeGroupId=org.apache.maven.archetypes -DgroupId=org....
从2006年Hadoop的诞生到现在,Hadoop已经经历了十多年的发展历程,经历了从 Offline 到 Online、从 Batch 到 Real-time、从计算到存储的演变。 在阿里云平台上,Hadoop的发展也经历了多个阶段,从早期的阿里云梯到...