`

mapreduce的原理详解

阅读更多

接前一篇博客

以前的文章中有关于mapreduce的工作原理:http://p-x1984.iteye.com/blog/702486

记住一点:Map的输出既是Reduce的输入。即:

Map:<k1,v1> ->list<k2,v2>

Reduce:<k2,list<v2>> -><k3,v3>

1) 在启动map函数前,需要对输入文件进行“分片”,也就是把所要输入的文件copy到HDFS中。
2) 在分片结束后,启动job就开始读取HDFS中的内容了,map对每条记录的输出以<key,value> pair的形式输出。
3) 在进入reduce阶段之前,还要将各个map中相关的数据(key相同的数据)进过洗牌,排序,reduce,归结到一起,发往一个reducer。
4) 进入reduce阶段。相同的key的map输出会到达同一个reducer,reducer对key相同的多个value进行“reduce操作”.

大家如果有兴趣的可以和我一起讨论!

分享到:
评论
2 楼 p_x1984 2011-01-07  
多谢提醒!
1 楼 lance_123 2011-01-07  
是在客户端先分好片,然后将分片信息上传到hdfs,然后jobtracker拿到分片信息,来分配map,reduct task的。

相关推荐

    Mapreduce原理

    ### MapReduce原理详解 #### 一、MapReduce与Hadoop概述 MapReduce是Apache Hadoop项目的核心组件之一,主要用于处理大规模数据集的分布式计算。它不仅是一种编程模型,还是一套支持这种模型的软件框架。MapReduce...

    MapReduce原理.docx

    ### MapReduce原理详解 #### 一、MapReduce概述 ##### 1、基本概念 MapReduce是Hadoop的核心组件之一,它提供了一种分布式计算的方案,适用于大规模数据集的并行处理。MapReduce不仅是一种编程模型,也是一种计算...

    006_hadoop中MapReduce详解_3

    "006_hadoop中MapReduce详解_3"可能是指一个系列教程的第三部分,着重讲解MapReduce的核心概念、工作原理以及实际应用。在这个部分,我们可能会探讨更深入的技术细节和优化策略。 MapReduce的工作流程分为两个主要...

    MapReduce详解包括配置文件

    ### MapReduce详解包括配置文件 #### 一、MapReduce概览与原理 MapReduce作为Hadoop的核心组件之一,提供了一种高效、可靠的分布式计算框架。它最初由Doug Cutting基于Google发表的论文《MapReduce: Simplified ...

    MapReduce计算模式详解

    ### MapReduce计算模式详解 #### 一、MapReduce简单概述 MapReduce是一种高效的大数据处理技术,它由Google提出并在Hadoop中得到了广泛的应用。MapReduce不仅是一个计算平台,还是一个并行计算框架和并行程序设计...

    Hadoop数据处理框架MapReduce原理及开发

    ### Hadoop数据处理框架MapReduce原理及开发 #### 一、Hadoop生态系统概述 Hadoop是一个开源软件框架,主要用于分布式存储和处理大规模数据集。它由Apache软件基金会维护和发展,自2006年成立以来已经成为了大数据...

    5.Hadoop入门进阶课程_第5周_MapReduce原理及操作.pdf

    ### MapReduce原理及操作知识点详解 #### 一、环境配置与说明 在开始了解MapReduce的具体原理之前,首先需要确保有一个合适的环境来进行实践。本课程使用的环境为: - **操作系统**:CentOS 6.6 64位,单核,1G...

    005_hadoop中MapReduce详解_2

    本文将深入解析MapReduce的工作原理、核心组件以及如何编写一个基本的MapReduce程序。 MapReduce的工作流程分为三个主要阶段:Map、Shuffle和Reduce。首先,`Map`阶段接收输入数据,将其切分成键值对,然后通过用户...

    MapReduce基础.pdf

    ### MapReduce基础知识详解 #### 一、MapReduce概述 **MapReduce** 是一种编程模型,最初由Google提出并在Hadoop中实现,用于处理大规模数据集的分布式计算问题。该模型的核心思想是将复杂的大型计算任务分解成较...

    基于MapReduce的矩阵相乘算法代码及其使用

    此外,通过对 Mapper 和 Reducer 类的具体实现,我们可以更深入地理解 MapReduce 的工作原理及其实现细节。在实际应用中,这种方法可以极大地提高数据处理的效率,特别是在处理大规模数据集时更为明显。

    HBase MapReduce完整实例

    二、MapReduce原理 MapReduce是一种编程模型,用于处理和生成大型数据集。它将复杂的大规模计算任务分解为两个阶段:Map(映射)和Reduce(规约)。Map阶段将原始数据分片并进行本地处理,然后Reduce阶段将Map阶段的...

    MapReduce进阶

    ### MapReduce进阶详解 #### 一、MapReduce的核心概念 MapReduce是一种高效的大数据处理框架,最初由Google提出并在其内部广泛应用,随后开源社区基于此理念开发了Hadoop等平台,使得MapReduce成为了大数据处理...

    MapReduce基础

    ### MapReduce基础详解 #### 一、MapReduce概述 MapReduce是一种编程模型,用于处理和生成大规模数据集。它最初由Google提出,并被广泛应用于分布式计算领域。MapReduce的核心思想是将大规模数据处理任务分解为两...

    大数据实验四-MapReduce编程实践

    1. **掌握基本的MapReduce编程方法**:理解MapReduce的基本原理和编程流程,学会如何使用Java编写MapReduce程序。 2. **实现统计HDFS系统中多个文本文件中的单词出现频率**:通过实际操作,体验MapReduce在处理大...

    mapreduce.pdf

    #### 一、MapReduce原理介绍 **MapReduce** 是一种编程模型,用于大规模数据集(大于1TB)的分布式计算,它极大简化了开发人员处理海量数据的工作。MapReduce的核心思想是将复杂的、大数据量的计算过程分解成两个...

    MapReduce工作知识原理.pdf

    MapReduce工作原理详解 Hadoop是一个开源的分布式计算框架,起源于Apache项目,专注于大规模数据的分布式存储和处理。它的核心特性包括可扩展性、经济性、高效性和可靠性,使得处理PB级别的数据变得可能,同时利用...

    mapreduce开发优化文档

    本文将详细介绍MapReduce开发过程中的一些关键优化策略及其背后的原理。 #### 二、MapReduce集群优化 在MapReduce集群环境中,合理地调整各项配置参数能够有效提升系统的整体性能。以下是一些重要的优化点: ####...

    MapReduce算法

    ### MapReduce算法详解 #### 一、概述 MapReduce是一种编程模型,用于处理大规模数据集(通常是TB到PB级别的数据)的并行计算任务。它最初由谷歌工程师Jeff Dean和Sanjay Ghemawat设计实现,并在《MapReduce: ...

Global site tag (gtag.js) - Google Analytics