`

《hadoop》权威指南 MapReduce

阅读更多

为什么最佳分片的大小与块大小相同?

        它是最大的可保证存储在单个节点上的数据量。如果分区跨越两个快,那么对于任何一个HDFS节点而言,基本不可能同时存储这两块数据,因此此分布的某部分必须通过网络传输到节点,这与使用本地数据运行map任务相比,显然效率更低。

 

map任务把输入写入本地磁盘,而不是HDFS。因为map的输出作为中间输出:而中间输出则被reduce任务处理后产生最终的输出,一旦作业完成,map的输出就可以删除了。如果该节点上运行的map任务在map输出给reduce任务处理之前崩溃,那么hadoop将在另一个节点上重新运行map任务以再次创建map的输出。

 

为增加其可靠性,reduce的输出通常存储在HDFS中。对于每个reduce输出的HDFS,第一个副本存储在本地节点上,其他副本存储在其他机架节点中。

 

reduce任务的数目并不是由输入的大小来决定的,而是单独具体指定的。

 

combiner并不能取代reduce函数。但它可以帮助减少map和reduce之间的数据传输量。而正因为此,是否在MapReduce作业中使用combiner是需要慎重考虑的。

 

通常将reduce函数设置为combiner

分享到:
评论

相关推荐

    hadoop权威指南4和源码

    《Hadoop权威指南4》是Hadoop领域的一本经典著作,深入浅出地介绍了这个分布式计算框架的核心概念、设计原理以及实际操作。这本书是许多开发者和数据工程师学习Hadoop的首选资料,而附带的源码则为读者提供了更直观...

    高清中文PDf附带目录标签《Hadoop权威指南》

    《Hadoop权威指南》是一本深入探讨大数据处理和分布式计算技术的经典著作,尤其对Hadoop生态系统的核心组件进行了详尽的阐述。这本书对于理解Hadoop集群、MapReduce编程模型以及HBase分布式数据库有着极大的帮助。接...

    hadoop权威指南第三版 中文 pdf

    《Hadoop权威指南》第三版是一本深度剖析Hadoop生态系统的经典著作,旨在帮助读者从基础知识到高级技术全面掌握这个大数据处理平台。Hadoop作为开源的分布式计算框架,以其高可扩展性和容错性,成为了大数据时代的...

    Hadoop权威指南中文版(完全版)

    《Hadoop权威指南》中文版是全面了解和深入学习Hadoop技术的重要参考资料,它涵盖了Hadoop生态系统中的核心组件以及相关的分布式计算概念。这本书详细解析了Hadoop的设计原理、架构、安装配置、操作维护以及实际应用...

    hadoop权威指南第四版高清 pdf下载

    《Hadoop权威指南》第四版是Hadoop领域的经典著作,由Tom White撰写,该书深入浅出地介绍了Hadoop生态系统的核心技术和应用场景。这本书对于想要理解、学习和掌握Hadoop技术的人来说,具有极高的参考价值。 Hadoop...

    Hadoop权威指南,hadoop权威指南pdf,Hadoop

    《Hadoop权威指南》是大数据领域的一本经典著作,它深入浅出地介绍了Apache Hadoop这一开源分布式计算框架。Hadoop是由Doug Cutting和Mike Cafarella共同创建,最初是为了支持Google的MapReduce计算模型和Google ...

    【免费】Hadoop权威指南(第3版) 修订版(带目录书签) 中文高清晰PDF

    《Hadoop权威指南》(第3版) 修订版是一本专门为那些想要深入理解Hadoop技术的读者准备的专业书籍。Hadoop是当前大数据处理领域的重要工具,它基于分布式计算模型,能够处理和存储海量数据。这本书以其详尽的介绍和...

    Hadoop权威指南(第4版)(修订版) 中英文PDF(含源码)

    《Hadoop权威指南(第4版)(修订版)》是一本深入探讨大数据存储与分析的重量级书籍,针对Hadoop生态系统提供了全面而详尽的指导。这本书不仅包含了中英文双语版本,还附带了源代码,使得读者可以更加直观地理解和实践...

    史上最全--HADOOP权威指南 第3版带目录书签 完整版

    《HADOOP权威指南》第三版是一本全面深入解析Hadoop生态系统的经典之作,由知名的IT专家撰写,旨在为读者提供最全面、最权威的Hadoop学习资源。这本书以其详尽的内容、清晰的结构和实用的示例,深受广大开发者和数据...

    hadoop权威指南第三版完整版

    ### Hadoop权威指南第三版知识点总结 #### 一、Hadoop概述 - **定义与背景**:Hadoop是一个能够对大量数据进行分布式处理的软件框架。它由Apache基金会开发维护,旨在提供高可靠性、高效性及可扩展性的数据处理...

    《Hadoop权威指南(第四版)》中-英文pdf+源码

    《Hadoop权威指南(第四版)》是一本深入解析Hadoop生态系统的经典著作,适合对大数据处理感兴趣的读者,包括开发者、架构师以及数据分析师。这本书详尽地介绍了Hadoop的核心概念、架构以及实际应用,旨在帮助读者...

    hadoop权威指南代码(Hadoop: The Definitive Guide code)

    《Hadoop权威指南》是Hadoop领域的经典著作,其配套代码资源可以帮助读者深入理解Hadoop的内部机制和实际应用。这本书全面介绍了Hadoop生态系统,包括HDFS、MapReduce、YARN以及相关的工具和扩展。代码库`tomwhite-...

    hadoop权威指南中文版

    总结来说,《Hadoop权威指南中文版》是一本全面介绍Hadoop生态系统及相关技术的书籍,它不仅包括了Hadoop的核心技术HDFS、MapReduce,还涵盖了Hive、HBase等数据库技术,以及在云计算环境中的应用。书中内容对Java...

    高清大放送 Hadoop权威指南第3版 和 第4版 PDF

    《Hadoop权威指南》是大数据领域的一本经典著作,它为读者深入理解并掌握Hadoop提供了全面而详尽的指导。书中的内容涵盖了Hadoop生态系统的各个重要组件,包括核心的Hadoop分布式文件系统(HDFS)和MapReduce计算...

    Hadoop权威指南_第四版_中文版(修订升级高清扫描版)

    《Hadoop权威指南》第四版中文版是一本深入解析Hadoop生态系统的重量级书籍,针对大数据处理和分布式计算领域提供了详尽的指导。Hadoop作为开源的分布式计算框架,已经成为了大数据时代的核心技术之一,而这本书正是...

    Hadoop权威指南 第二版(中文版)

     本书是Hadoop权威参考,程序员可从中探索如何分析海量数据集,管理员可以从中了解如何安装与运行Hadoop集群。 目录 第1章 初识Hadoop  数据!数据!  数据存储与分析  与其他系统相比  关系型数据库管理系统...

    Hadoop权威指南4-pdf(中英)-code.zip

    《Hadoop权威指南》是Hadoop领域的经典著作,第四版更是涵盖了Hadoop生态系统中的最新发展和技术。这本书深入浅出地介绍了分布式计算的概念,以及如何利用Hadoop进行大规模数据处理。以下将详细介绍其中的关键知识点...

    Hadoop权威指南第四版和第二版

    《Hadoop权威指南》是大数据领域的一本经典著作,它为读者深入理解并掌握Hadoop提供了全面而详尽的指导。第四版与第二版的对比,不仅展现了Hadoop技术的演进历程,也反映了大数据处理领域的最新发展。下面将分别就两...

Global site tag (gtag.js) - Google Analytics