`
younglibin
  • 浏览: 1214216 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hadoop中Map任务的执行框架

阅读更多

在这博文章中(http://www.linuxidc.com/Linux/2012-01/50854.htm),我重点讲述了Task被TaskTracker调度执行的原理及过程,但是在详细的介绍执行Task的过程细节之前,我想先来认真的讨论一下Map Task和Reduce Task的执行框架。当然本文主要集中在Map Task上,至于Reduce Task的相关内容,我会在下一篇博文中谈到。在这篇文章中,我将尽量给出一个最抽象的Map模型

Hadoop的MapRduce中,Map任务最重是交给Map任务执行器org.apache.hadoop.mapreduce.Mapper来执行的,在底层必定会采用JDK的泛型编程的。还是来了解一下与Map任务执行器相关的Mapper类吧。

对于上面与Map任务执行框架相关的类,我想我不得不详细的解释一下。任何Map任务在Hadoop中都会被一个MapTask对象所详细描述,MapTask会最终调用Mapper的run方法来执行它对应的Map任务,当然Mapper要执行Map任务,就必须要有相关的所有输入输出信息,而这些信息都包含在了Map任务对应的Context中了,也就是说Mapper从Context中获得一系列的输入数据记录,然后又将这些处理后的记录写入Context中,同时输入、输出的数据格式都是交由用户来实现/设置的。那么,Context的输入数据有来自哪个地方,又将处理后的数据写往何处呢?其实,Context是通过RecordReader来获取输入数据,通过RecordWriter保存被Mapper处理后的数据。至此,Map任务的真个执行框架我们可以这样来抽象:

关于上面我抽象出来的这个Map任务执行框架,还需要补充的是,在Map任务对应的上下文执行环境Context中有个任务报告器TaskReporter,它被用来不断的向这个Map任务的TaskTracker报告任务的执行进度(这个精度只是一个估计值,不一定很准确)。另外,有人可能会问这个Map任务的输入文件和结果输出文件的有关信息Context是如何获悉的?其实,Map任务的输入文件文件保存在InputSplit中,这个InputSplit保存了文件的路径、范围、位置;Map任务的输出文件信息是在执行过程中动态生成的,因为Map任务的结果输出实际上就是Reduce任务的输入,它相当于只是全局作业中的一个中间过程,所以这个Map任务的输出结果的保存对于用户来说是透明的,而用户往往也只关心Reduce任务的最后汇总结果。

下面再来看看这个框架具体的执行步骤:

本文所介绍的只是抽象的Map任务执行框架,至于MapReduce内部是如何具体实现的,我还会在以后进行详细的阐述。(上文都是本人的一些个人见解,若有不当或错误之处尽请指出,以便帮助我学习进步,谢谢!)

分享到:
评论

相关推荐

    hadoop中map/reduce

    在大数据处理领域,Hadoop是不可或缺的核心框架,其核心组件MapReduce则是分布式计算的重要实现方式。MapReduce的设计理念源于Google的同名论文,它通过将大规模数据处理任务分解为两个阶段:Map(映射)和Reduce...

    hadoop map-reduce turorial

    **任务执行与环境**:Map-Reduce框架提供了丰富的API,允许用户监控任务的执行状态,包括任务进度、错误日志、内存使用情况等,有助于及时发现和解决执行过程中的问题。 **作业提交与监控**:用户可通过Hadoop...

    Hadoop源代码分析(MapTask)

    Hadoop的MapTask类是Hadoop MapReduce框架中的一部分,负责执行Map任务。MapTask类继承自Task类,是MapReduce框架中的一个重要组件。本文将对MapTask类的源代码进行分析,了解其内部机制和实现细节。 MapTask类的...

    Hadoop任务调度器

    Hadoop任务调度器是Hadoop分布式计算框架中的核心组件之一,负责管理和分配集群资源,以实现任务的高效执行。Hadoop的作业调度过程可以划分为几个主要阶段,这些阶段涉及到从作业提交到任务分配的各个环节。下面详细...

    hadoop教程

    Hadoop 的 JobTracker 是 Map/Reduce 框架中的一个核心组件,负责调度和监控作业的执行,并重新执行已经失败的任务。 TaskTracker 是 Map/Reduce 框架中的一个组件,负责执行 JobTracker 指派的任务,并将执行结果...

    分布式计算开源框架Hadoop入门实践.pdf

    2. **Map阶段**:HDFS中的数据块被Map任务读取,执行用户定义的Map函数,生成中间键值对。 3. **Shuffle和Sort**:Map任务产生的中间结果按键排序,并传输到Reduce任务。 4. **Reduce阶段**:Reduce任务接收来自多个...

    hadoop map reduce 中文教程

    每个案例都详细列出了实践步骤,包括如何编写 Map 和 Reduce 函数、如何配置 Hadoop 环境、如何运行 MapReduce 任务等。 #### 六、总结 Hadoop MapReduce 是一种非常强大的分布式数据处理工具,它通过简单的编程...

    hadoop手册-分布式框架介绍

    2. **Map任务执行**:每个Map任务读取输入分片中的记录,对每条记录调用用户定义的Map函数,将输出结果缓存在内存中。 3. **中间结果排序**:Map任务结束后,其输出结果会被排序并分区,为Reduce阶段做准备。 4. **...

    Hadoop Map Reduce教程

    该框架将任务分解为一系列较小的任务(Map 和 Reduce),并在集群中的多台计算机上并行执行这些任务。 - **应用场景**:适用于大数据分析、搜索引擎索引构建、日志文件分析等场景。 #### 二、MapReduce 工作原理 1...

    Windows平台下Hadoop的Map/Reduce开发

    在Windows平台上进行Hadoop的Map/Reduce开发可能会比在Linux环境下多一些挑战,但通过详细的步骤和理解Map/Reduce的工作机制,开发者可以有效地克服这些困难。以下是对标题和描述中涉及知识点的详细说明: **Hadoop...

    最高气温 map reduce hadoop 实例

    总结起来,这个“最高气温 map reduce hadoop 实例”展示了如何利用Hadoop MapReduce框架处理和分析大量气温数据,寻找全局的最高气温。通过理解MapReduce的工作流程,以及如何编写和运行对应的Mapper和Reducer代码...

    Linux提交hadoop任务

    开发者在Linux终端中通过命令行交互,执行Hadoop相关的操作,如上传、提交和监控任务。 2. **Hadoop**:Hadoop是Apache软件基金会的一个开源项目,它提供了一个分布式文件系统(HDFS)和一个并行处理框架MapReduce...

    Hadoop数据挖掘并行算法框架.pdf

    例如,K-Means聚类算法和SVM分类算法通过Map/Reduce编程框架进行并行化处理后,能在Hadoop云平台上高效运行,从而提高了大规模数据挖掘任务的加速比。 综上所述,Hadoop数据挖掘并行算法框架在处理大数据集时展现出...

    基于Hadoop-Map Reduce的算法.zip

    Hadoop是一个开源框架,专为分布式存储和大规模数据分析设计,而其中的MapReduce编程模型则是其核心组成部分。本篇文章将深入探讨基于Hadoop的MapReduce算法,揭示其在人工智能领域的应用。 MapReduce是Google提出...

    第02节:hadoop精讲之map reduce原理及代码.pdf

    3. Shuffle阶段:Hadoop框架将所有Map任务输出的中间键值对进行排序和分组,以便所有具有相同键的值被发送到同一个Reduce任务。 4. Reduce阶段:Reduce任务对具有相同键的中间值进行归约操作,最终输出结果数据。 5....

    Hadoop框架下的容灾系统研究

    这种模型非常适合大规模并行处理,因为每个Map或Reduce任务都是独立的,并且可以在多台机器上同时执行。 ##### 1.2 HDFS (Hadoop Distributed File System) HDFS是一种分布式文件系统,专为存储大量数据而设计。它...

    Hadoop大数据期末考试重点

    1. **JobTracker与TaskTracker的角色**:在早期的Hadoop版本中,JobTracker负责任务调度和资源管理,而TaskTracker执行实际的任务。但描述中的错误指出TaskTracker执行JobTracker分配的任务,实际上应该是相反的。 ...

    Hadoop-MindMap 技术全解

    任务执行环境包括了子主题1和子主题2,虽然在给出的内容中没有具体说明,但可以推测涉及任务调度、资源管理等高级特性。 Hadoop I/O方面讨论了数据检查和数据恢复。数据检查主要通过校验和(如CRC-32)来确保数据的...

Global site tag (gtag.js) - Google Analytics