`

hadoop 源码分析

阅读更多

 

先贴一张hadoop的部分类图

hadoop resource class

 

如图所示,组要的过程都在LocalJobRunable的内部类Job中,主要当然是map/reduce(MapTask和ReduceTask)。

 

1.TaskSplitMetaInfo 把job分解为几个task,并返回task头信息

 

2.MapTask中 

 

    计算map task数量

    运行map --  遍历执行task 将mapper循环给context

                      结束map之后,统一执行quickSort

 

3.进入reduce准备 -- 将map的输出转为reduce的输入copy file

                              对输入进行排序sort file(小文件优先在前)

 

4.运行reduce -- 循环遍历调用reduce,并在遍历valueIterator的时候,调用GroupComparator决定iterator的                                hasnext方法的返回,决定哪些key在一起,给同一个reduce

 

 

 

 

分享到:
评论

相关推荐

    Hadoop源码分析(完整版)

    Hadoop源码分析是深入理解Hadoop分布式计算平台原理的起点,通过源码分析,可以更好地掌握Hadoop的工作机制、关键组件的实现方式和内部通信流程。Hadoop项目包括了多个子项目,其中最核心的是HDFS和MapReduce,这两...

    Hadoop源码分析视频下载

    这个"Hadoop源码分析视频下载"提供了一种深入理解Hadoop内部工作原理的途径,这对于开发者、系统管理员以及对大数据技术感兴趣的人来说是非常有价值的。接下来,我们将详细探讨Hadoop的核心组件、其设计哲学、源码...

    Hadoop源码分析 完整版 共55章

    ### Hadoop源码分析知识点概览 #### 一、Hadoop概述与背景 - **Google核心技术**:Hadoop的设计理念很大程度上受到了Google一系列核心技术的影响,包括Google File System (GFS)、BigTable以及MapReduce等。这些...

    Hadoop源码分析完整版

    总的来说,Hadoop源码分析是提升大数据处理技术深度的重要途径,涵盖的内容广泛且深入,包括分布式文件系统的设计原理、并行计算模型的实现、资源管理的优化策略等多个方面。通过学习和研究,你将能够构建起对Hadoop...

Global site tag (gtag.js) - Google Analytics