`
flyingdutchman
  • 浏览: 359573 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop深入学习:Mapper组件详解

阅读更多
        本节我们主要学习MapReduce编程接口模型中的Mapper组件,主要是学习其中一些的方法,如setup()、map()和cleanup()等方法地使用。
        我们先来看一下新版本中的Mapper代码:
public class Mapper<KEYIN, VALUEIN, KEYOUT, VALUEOUT> {

  public class Context 
    extends MapContext<KEYIN,VALUEIN,KEYOUT,VALUEOUT> {
    public Context(Configuration conf, TaskAttemptID taskid,
                   RecordReader<KEYIN,VALUEIN> reader,
                   RecordWriter<KEYOUT,VALUEOUT> writer,
                   OutputCommitter committer,
                   StatusReporter reporter,
                   InputSplit split) throws IOException, InterruptedException {
      super(conf, taskid, reader, writer, committer, reporter, split);
    }
  }
  
  /**
   * 在Map Task任务开始执行的时候首先会调用该方法,只执行一次
   * 主要用于全局变量或重量级的操作的初始化,如集成HBase的时候,生成HTablePool
   * 如pool = new HTablePool();
   * 开发者一般可以不override该方法
   * Called once at the beginning of the task.
   */
  protected void setup(Context context
                       ) throws IOException, InterruptedException {
    // NOTHING
  }

  /**
   * 开发者在该方法中来处理自己需要关注业务逻辑
   * Called once for each key/value pair in the input split. Most applications
   * should override this, but the default is the identity function.
   */
  @SuppressWarnings("unchecked")
  protected void map(KEYIN key, VALUEIN value, 
                     Context context) throws IOException, InterruptedException {
    context.write((KEYOUT) key, (VALUEOUT) value);//context.write()执行后开始map断的shuffle处理过程。    
  }

  /**
   * Called once at the end of the task.
   * 在Map Task任务执行结束的时候调用该方法,且只执行一次
   * 该方法用于释放在setup()中初始化的一些重量级的资源
   * 一般情况下,开发者可以不用override该方法
   */
  protected void cleanup(Context context
                         ) throws IOException, InterruptedException {
    // NOTHING
  }
  
  /**
   * 该方法由框架调用,对于初级的Hadoop开发者而言,可以不需要修改该方法,但是对于
   * 资深的Hadoop开发者来说,可以重写该方法以达到完全精确控制整个Mapper的处理流程 
   * Expert users can override this method for more complete control over the
   * execution of the Mapper.
   * @param context
   * @throws IOException
   */
  public void run(Context context) throws IOException, InterruptedException {
    //Map Task执行流程的第一步
    setup(context);
    //第二步,循环调用map()方法来专注于开发者的业务逻辑处理
    while (context.nextKeyValue()) {
      map(context.getCurrentKey(), context.getCurrentValue(), context);
    }
    //第三步,清除Task的上下文信息或释放全局的重量级的资源
    cleanup(context);
  }
}
        

        我们再来看一看Mapper的处理流程:

       
        在整个Map Task的处理流程中,由几点需要特别注意:
        1)、Map处理的中间结果会以临时数据文件方式被保存在linux的本地文件系统上,而非HDFS文件系统上。
        2)、Map Task处理过的数据会溢写超过内存缓冲区阀值的数据,经排序、spill、和合并操作,经所有的临时的中间数据文件合并成一个大文件和一个索引文件,具体过程详见MapTask详解
  • 大小: 39.7 KB
0
5
分享到:
评论

相关推荐

    Apache Hadoop2.x 安装入门详解 PDF

    Hadoop的核心由两个主要组件构成:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,能存储和处理海量数据;MapReduce是并行处理模型,用于处理和生成大数据集。 二、Hadoop 2.x的...

    Hadoop应用开发技术详解

    2. HDFS详解:HDFS设计目标是能够在普通硬件上运行,具有高度容错性。它将大文件分割成块,分散存储在多台机器上,保证数据的冗余和可用性。了解HDFS的数据读写流程、命名节点(NameNode)和数据节点(DataNode)的...

    hadoop源代码存档

    【Hadoop源代码存档详解】 Hadoop是Apache软件基金会的一个开源项目,它是一个分布式文件系统,旨在提高数据处理和存储的效率。这个"hadopp源代码存档"包含了Hadoop项目的完整源代码,供开发者深入理解其内部机制,...

    hadoop-2.7.1:Hadoop源码分析

    3. MapReduce框架详解: - JobTracker:在Hadoop 2.x之前的角色,负责任务调度和资源管理。 - YARN(Yet Another Resource Negotiator):Hadoop 2.x引入的新资源管理系统,分离了任务调度和资源管理。 - ...

    最新Hadoop学习笔记

    **Hadoop学习笔记详解** Hadoop是一个开源的分布式计算框架,由Apache基金会开发,主要用于处理和存储海量数据。它的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,两者构成了大数据处理的基础...

    《Hadoop开发者》

    - 分布式存储:深入学习HDFS的工作原理,包括数据块、副本策略、故障恢复机制。 - 分布式计算:了解MapReduce编程模型,包括Mapper和Reducer阶段,以及 Shuffle和Sort过程。 2. Hadoop开发实践: - Hadoop开发...

    hadoop学习笔记.rar

    《Hadoop学习笔记详解》 Hadoop,作为大数据处理领域中的核心框架,是Apache软件基金会下的一个开源项目,主要用于分布式...通过深入学习这些笔记,读者可以逐步掌握Hadoop的精髓,为应对大数据时代的挑战做好准备。

    Hadoop 官方文档(中文版)

    - 配置文件详解:如core-site.xml, hdfs-site.xml, mapred-site.xml等,这些配置文件是搭建和管理Hadoop集群的关键。 - NameNode和DataNode:NameNode是HDFS的元数据管理节点,DataNode则是存储数据的节点,理解...

    hadoop实战开发PDF

    《Hadoop实战开发》PDF是针对大数据处理领域中核心组件Hadoop的一份详细教程,旨在帮助读者深入理解和熟练运用Hadoop进行数据处理和分析。Hadoop是一个开源的分布式计算框架,由Apache基金会维护,它允许在廉价硬件...

    Hadoop-Programs:Hadoop-MapReduce

    在2015年的夏季,通过对《Hadoop权威指南》的深入学习,我们可以理解MapReduce的基本工作原理及其编程模型。 **MapReduce的基本概念** 1. **Map阶段**: 在Map阶段,输入数据被分割成多个块,并在集群中的多台机器...

    hadoop-course:从 code.google.comphadoop-course 自动导出

    对于初学者,建议先了解分布式系统的基本概念,然后深入学习HDFS和MapReduce的工作原理。接下来,通过编写简单的MapReduce程序,熟悉Hadoop编程。最后,尝试解决实际问题,例如数据清洗、分析或预测,以巩固所学知识...

    Hadoop应用开发详解

    本篇文章将深入探讨Hadoop应用开发的关键概念、组件以及如何利用Hadoop进行实际的开发工作。 Hadoop的基石是两个主要组件:Hadoop Distributed File System (HDFS) 和 MapReduce。HDFS是一种分布式文件系统,它将...

    Hadoop进行分布式计算的入门资料

    Hadoop的核心组件包括HDFS(Hadoop Distributed File System)和MapReduce。HDFS是一种分布式文件系统,能够存储大量数据并保证其高可用性和容错性。MapReduce则是一种编程模型,用于处理和生成大数据集,它将大型...

    Hadoop实战.Hadoop.in.Action.Chuck.Lam.文字版

    ##### 1.3 Hadoop组件详解 - **HDFS**:Hadoop的分布式文件系统,用于存储数据。 - **MapReduce**:Hadoop的核心计算框架,负责执行数据处理任务。 - **YARN**:资源管理和调度系统,自Hadoop 2.0版本引入。 - **...

    hadoop原理介绍

    ### Hadoop原理与应用知识点详解 #### 一、Hadoop简介 - **定义**:Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。它能够高效地处理PB级别的数据,具有高度可靠性和可扩展性。 - **背景**:Hadoop的...

    尚硅谷大数据技术之Hadoop

    【尚硅谷大数据技术之Hadoop】是一门深入探讨大数据处理技术的课程,主要聚焦于开源框架Hadoop。...在大数据领域,Hadoop是不可或缺的一部分,深入学习Hadoop对于任何想要在这个领域发展的人来说都是至关重要的。

    hadoop_deploy

    在IT行业中,Hadoop是一个广泛使用的开源框架,用于处理和存储大规模数据。它基于分布式计算模型,能够高效地运行在由...通过深入学习和实践,我们可以利用Hadoop处理海量数据,挖掘隐藏的业务洞察,推动企业的发展。

Global site tag (gtag.js) - Google Analytics