`
flyingdutchman
  • 浏览: 357071 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Hadoop深入学习:ReduceTask详解

阅读更多
        本节我们来着重学习ReduceTask的内部操作流程和实现。
        我们先看一下ReduceTask操作流程:

        从流程图中我们可以看出,ReduceTask分5个阶段:
        Copy阶段
        Merge阶段
        Sort阶段
        Reduce阶段
        Write阶段
        其中的Copy阶段和Merge阶段是并行进行的。默认情况下ReduceTask同时启动5个MapOutputCopier线程从各个Mapper端的中间数据结果copy数据,放大小超过一定阀值后,则存放到磁盘上,否则直接放到内存中。
        为了防止内存或磁盘上的文件数据太多,ReduceTask会启动后台线程分别对内存和磁盘上的数据文件进行合并操作。
        当数据copy完后,还要经过Sort排序阶段对所有数据按key进行排序操作,将相同的key对应的value汇聚到一起,然后交给reduce()方法处理。
        经过reduce()方法对数据进行处理后,然后将数据写到HDFS上。
  • 大小: 43 KB
分享到:
评论

相关推荐

    尚硅谷大数据技术之Hadoop

    【尚硅谷大数据技术之Hadoop】是一门深入探讨大数据处理技术的课程,主要聚焦于开源框架Hadoop。...在大数据领域,Hadoop是不可或缺的一部分,深入学习Hadoop对于任何想要在这个领域发展的人来说都是至关重要的。

    Hadoop学习笔记AAAAAAAAAAA

    《深入理解Hadoop分布式系统》 ...Hadoop的学习是一个逐步深入的过程,涵盖分布式存储、计算模型、资源调度等多个方面,理解其工作原理和最佳实践,对于在大数据环境中构建高效稳定的系统至关重要。

    Hadoop权威指南 第3版.pdf

    ### Hadoop权威指南 第3版 知识点详解 #### 一、Hadoop概述与发展历程 - **Hadoop**:一种分布式计算框架,主要用于处理大数据集。它最初由Apache软件基金会开发,旨在提供一个可靠、可扩展且成本效益高的解决方案...

    Hadoop实战.pdf Hadoop in action

    ### Hadoop实战知识点详解 #### 一、Hadoop概述 Hadoop是一款开源软件框架,用于分布式存储和处理大型数据集。它能够通过集群中的多台计算机来存储和处理大规模的数据,具有良好的扩展性和容错性。 #### 二、...

    Hadoop绝佳教程,不下后悔!

    通过深入学习这个Hadoop绝佳教程,你不仅可以掌握Hadoop的基本操作,还能了解其背后的分布式原理,这对于在大数据领域工作或研究的人来说是必不可少的。因此,如果你对大数据有兴趣,千万不要错过这个教程,否则你...

    Hadoop MapReduce 入门

    ### Hadoop MapReduce 入门知识点详解 #### 一、MapReduce 概述 ##### 1.1 MapReduce 的起源与发展 - **起源**: MapReduce 是由 Google 提出的一种分布式计算模型,最初是为了应对互联网搜索引擎处理大规模数据集...

    Spark各种demo学习

    《Spark各种Demo学习详解》 Spark作为大数据处理领域的重要工具,以其高效、易用和弹性伸缩等特性深受开发者喜爱。...通过深入学习和实践这些Demo,可以有效提升大数据处理的能力,并为应对复杂的大数据挑战做好准备。

    05-大数据技术之面试题复习1.6.pdf

    根据提供的文件信息,我们可以归纳出一系列重要的大数据技术面试知识点,主要涵盖了Linux命令、Hadoop生态系统、Kafka、Hive、Maxwell、DataX、Spark以及Flink等方面的技术要点。下面将详细阐述这些知识点: ### 1....

Global site tag (gtag.js) - Google Analytics