`
m635674608
  • 浏览: 5027994 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

hadoop 流程 细节详解

 
阅读更多

通过WourdCount程序示例:详细讲解MapReduce之Block+Split+Shuffle+Map+Reduce的区别及数据处理流程。

 

Shuffle过程是MapReduce的核心,集中了MR过程最关键的部分。要想了解MR,Shuffle是必须要理解的。了解Shuffle的过程,更有利于我们在对MapReduce job性能调优的工作有帮助,以及进一步加深我们队MR内部机理的了解。Shuffle到底是什么,自己在参考一位大牛两年前的博客,关于MR系列的文章中,才知道前辈什么时候已经开始相应的工作,真实佩服。这里通过对前辈的概念梳理,加上自己的见解,来尽可能的梳理清楚什么是Shuffle过程,什么是block,什么是split,揭开MR的神秘面纱。

 

在上篇博客中简单给出了Shuffle的概念,稍提了一下split,但没有谈block。在了解Shuffle之间我们要先了解一下block与split。这里的一片数据,你可以理解成一个split数据。但split和block的区别是什么?

 

http://www.2cto.com/database/201403/287758.html

分享到:
评论

相关推荐

    006_hadoop中MapReduce详解_3

    "006_hadoop中MapReduce详解_3"可能是指一个系列教程的第三部分,着重讲解MapReduce的核心概念、工作原理以及实际应用。在这个部分,我们可能会探讨更深入的技术细节和优化策略。 MapReduce的工作流程分为两个主要...

    005_hadoop中MapReduce详解_2

    MapReduce的工作流程分为三个主要阶段:Map、Shuffle和Reduce。首先,`Map`阶段接收输入数据,将其切分成键值对,然后通过用户自定义的Mapper函数进行处理。Mapper函数通常用于数据清洗、转换和计算。在这个阶段,...

    Hadoop应用开发技术详解PDF电子书下载 带书签目录 部分

    通过这些实践项目,开发者可以深入理解Hadoop在不同场景下的应用方式和技术细节。 综上所述,《Hadoop应用开发技术详解》这本书应该涵盖了上述知识点,并提供了丰富的实例和练习,帮助读者全面掌握Hadoop应用开发的...

    Hadoop大数据期末考试重点

    《Hadoop大数据期末考试重点详解》 Hadoop大数据技术在当今的数据处理领域占据着重要的地位,其核心组件包括HDFS(Hadoop Distributed File System)和MapReduce,它们共同构成了高效的大数据处理框架。本文将围绕...

    Hadoop框架详解及其在未来大数据处理中的发展趋势

    使用场景及目标:理解掌握Hadoop各个组件和技术细节的应用场景及其优势所在,并了解当前最新的大数据技术和工具进展。 其他说明:本文全面覆盖Hadoop的重要组件介绍与具体应用,并且展望了下一代处理框架的可能性与...

    传智黑马赵星老师hadoop七天课程资料笔记-第二天(全)

    11. **第二天PPT**(第二天PPT.ppt):这部分可能是课程的核心内容,涵盖了Hadoop的更多细节,可能包括HDFS的故障恢复机制、MapReduce的工作原理、Hadoop生态系统的其他组件等。 通过上述内容,我们可以看出这个...

    hadoop介绍

    ### Hadoop介绍及安装详解 #### 一、Hadoop简介 **Hadoop** 是一个能够对大量数据进行分布式处理的软件框架,它最初由Nutch和Lucene之父Doug Cutting于2006年创建。有趣的是,“Hadoop”这个名字来源于Doug ...

    最详细的Hadoop环境搭建

    ### Hadoop环境搭建详解 #### 一、引言 随着大数据技术的发展,Hadoop作为大数据处理的核心框架之一,其重要性不言而喻。对于初学者来说,掌握Hadoop的基本安装与配置流程是非常重要的第一步。本文旨在提供一份...

    Hadoop源码分析完整版

    深入源码可以了解Hadoop内部的工作细节,例如: - **NameNode的元数据管理**:研究如何维护文件系统的目录树结构,以及如何处理文件的创建、删除和重命名操作。 - **DataNode的数据存储**:查看DataNode如何接收...

    hadoop map-reduce turorial

    **作业配置**:作业配置是控制Map-Reduce作业行为的关键,包括但不限于数据输入输出路径、Map和Reduce函数的类名、缓存文件、日志级别等,通过这些配置,用户可以灵活地调整作业的执行细节。 **任务执行与环境**:...

    hadoophdfs写入文件原理详解共2页.pdf.zip

    本文件“hadoophdfs写入文件原理详解共2页.pdf.zip”虽然只有短短两页,但应该涵盖了HDFS文件写入的关键流程。以下是基于该主题的详细知识解析: 1. **HDFS架构**:HDFS是由NameNode和DataNode组成的。NameNode作为...

    传智黑马赵星老师hadoop七天课程资料笔记-第三天(全)

    【描述】这部分内容是赵星老师在传智黑马的Hadoop七天课程中的第三天教学资料,包含了丰富的学习材料,如PPT、文本笔记、示例数据和工作流程详解,旨在通过实例帮助学员消化吸收Hadoop的核心概念和技术。 【标签】...

    cdh hadoop官方安装文档

    ### CDH Hadoop官方安装指南知识点详解 #### 关于CDH Hadoop官方安装文档 **标题:“cdh hadoop官方安装文档”** 该文档由Cloudera公司发布,旨在为用户提供一套详尽、清晰的Hadoop集群安装指南。文档适用于初学...

    Hadoop_HBase_Pig

    ### Hadoop、HBase与Pig的安装与配置详解 #### Hadoop的安装与配置 在部署Hadoop之前,首先需要确保系统中已正确安装了Java环境。在本例中,使用的是`jdk-7u25-linux-i586.rpm`。安装过程包括将JDK包放置于`/usr/...

    hadoop原理介绍

    ### Hadoop原理与应用知识点详解 #### 一、Hadoop简介 - **定义**:Hadoop是一个开源软件框架,用于分布式存储和处理大型数据集。它能够高效地处理PB级别的数据,具有高度可靠性和可扩展性。 - **背景**:Hadoop的...

    Hadoop简介

    #### Hadoop的核心组件详解 ##### HDFS (Hadoop Distributed File System) - **功能定位**:HDFS是Hadoop的数据存储层,旨在提供一个高容错性的文件系统,能够容纳大量数据。它被设计用来部署在商用硬件上,并且...

Global site tag (gtag.js) - Google Analytics