`
异步获取爱
  • 浏览: 81222 次
  • 性别: Icon_minigender_1
  • 来自: 大男子主义世界
社区版块
存档分类
最新评论

MapReduce介绍

阅读更多
1. 介绍
    MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。

    如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。


    2.  例子
    设想对一堆文档进行每个单词出现次数进行统计的例子。用户会定义类似下面的map和reduce函数:
    map(String key, String value):
       //key: document name
       //value: document contents
       for each word w in value:
          EmitIntermediate(w, "1");

    reduce(String key, Iterator values):
       //key: a word
       //values: a list of counts
       int result = 0;
       for each v in values:
          result += ParseInt(v):
       Emit(AsString(result));

    假如输入是两篇文档:
    A--"MapReduce is a programming model"
    B--"MapReduce is easy to use"
  
    map过程是将map分别作用于两篇文档,这样就可以两篇文档并行处理,产生输出是:
    (MapReduce, 1), (is, 1), (a, 1), (programming, 1), (model, 1), (MapReduce, 1), (is, 1), (easy, 1), (to, 1), (use, 1)。
  
    系统对map的输出结果进行处理,生成中间结果,作为reduce的输入, 中间结果为:
    (MapReduce, [1,1]), (is, [1,1]), (a, [1]), (programming, [1]), (model, [1]), (easy, [1]), (to, [1]), (use, [1])。

    reduce过程是将reduce函数分别作用于上面八个键/值列表对,这样就可以八个键/值列表对并行处理,产生的输出是:
    (MapReduce, 2), (is, 2), (a, 1), (programming, 1), (model, 1), (easy, 1), (to, 1), (use, 1)。

    这样,每个单词出现的频率就统计出来了。

    3. 实现
    Google的MapReduce实现,运行在他们一向引以为傲的数以千计的commodity machines组成的linux cluster上面,使用了master/slaves结构,master进行任务分配,slave执行具体的任务。

    在MapReduce的具体实现中,并不是简单的将n个文档作为n个map任务并行处理,而是将输入文档集合按字节数(比如64M)打包,每个包中的数据,作为一个map任务并行处理,这样,一个大文件,就可能被分为多个包分别进行处理。也不是将r个键/值列表对作为r 个reduce任务并行处理,而是通过一个哈希函数将所有的 key分组,同一个组中的键/值列表对在同一个reduce任务中处理(仍然是分别处理)。这样就可以控制map和reduce的任务数量。

    Google的MapReduce实现,大量使用了临时文件。假如有n个map任务,r个reduce任务,每个 map任务,将自己的输出按照key对于哈希函数的哈希值进行分组(共r 组),同一分组中的所有键/值对排序后写入一个临时文件中。这时保证了同一个文件中的所有键(key)是有序的。每个reduce任务执行时,将所有 map任务产生的属于自己的那个临时文件(共n个文件)读入,归并排序后将结果送给reduce函数处理。每个reduce任务产生一个最终的文件作为输出。这样,就需要一个分布式的文件系统作为底层支持。Google使用的是Google File System(GFS)。

    4. 总结
    限制了编程模型可以使并行计算十分简单易用,并且系统结构简单,易于实现。在这种模型下,MapReduce系统框架隐藏了并行处理,容错,负载均衡等细节问题,使没有并行处理和分布系统经验的程序员可以使用并行系统解决问题。

    这种限制了的编程模型仍然具有很强的表达能力,可以处理信息检索领域的许多问题,比如Distributed Grep, Count of URL Access Frequency, Reverse Web-Link Graph, Term-Vector per Host, Inverted Index, Word Count。
分享到:
评论

相关推荐

    分布式编程环境MapReduce介绍.pdf

    分布式编程环境MapReduce介绍 MapReduce是一个分布式编程环境,主要用于处理大规模数据的处理。它是Hadoop架构的一部分,提供了一个简洁的编程接口,允许用户编写分布式程序来处理大量数据。MapReduce的核心是Map和...

    大数据平台-MapReduce介绍.pdf

    "大数据平台-MapReduce介绍.pdf" 大数据平台中的MapReduce是由Google公司的Jeffrey Dean和Sanjay Ghemawat开发的一个针对大规模群组中的海量数据处理的分布式编程模型。MapReduce实现了两个功能:Map函数应用于集合...

    15、MapReduce介绍及wordcount

    MapReduce是一种分布式计算框架,由Google提出,主要用于处理和生成大规模数据集。Hadoop是Apache开源项目,它实现了MapReduce模型,使得用户可以方便地编写处理海量数据的应用程序。 1. MapReduce编程模型 ...

    大数据-Hadoop-MapReduce介绍

    ### Hadoop MapReduce简介 Hadoop MapReduce 是一种软件框架,用于轻松编写应用程序,这些应用程序在大型硬件集群上处理大规模数据集。MapReduce 框架由两部分组成:一个通常在多台计算机上并行运行的 Map 函数,...

    hadoop MapReduce介绍

    hadoop MapReduce介绍 SergeBazhievsky_Introduction_to_Hadoop_MapReduce_v2.pdf 很好的学习hadoop mapreduce计算框架的资料

    Hadoop深入浅出之MapReduce介绍.pptx

    MapReduce是一种分布式计算模型,由Google提出,主要应用于搜索引擎领域,用于解决大数据处理的问题。它的核心在于将复杂的分布式计算过程简化为两个基本操作:Map和Reduce。用户只需关注实现这两个函数,即可完成...

    Hadoop中的HDFS和Mapreduce

    ### Hadoop中的HDFS和MapReduce #### Hadoop核心组件:HDFS与MapReduce **Hadoop** 是一个能够处理海量数据的开源软件框架,它最初由Apache开发,旨在为大规模数据提供分布式处理能力。Hadoop的核心组件包括**HDFS...

    MapReduce分布式计算平台编程示例

    MapReduce介绍 MapReduce是一个用于处理大规模数据集的软件架构,最初由Google提出。它提供了一种简单有效的编程模型,允许开发者编写并行处理大规模数据的应用程序。MapReduce的核心概念是将复杂的计算任务分解成...

    MapReduce发明人关于MapReduce的介绍

    ### MapReduce:大规模数据处理的简化利器 #### 引言:MapReduce的诞生与使命 在MapReduce问世之前,Google的工程师们,包括其发明者Jeffrey Dean和Sanjay Ghemawat,面临着一个共同的挑战:如何高效地处理海量...

    用 Hadoop MapReduce 进行大数据分析.doc

    MapReduce 介绍 ---------------- MapReduce 是一种编程模型,由 Google 开发,用于处理大规模分布式数据。MapReduce 将数据处理过程分为两个阶段:Map 阶段和 Reduce 阶段。在 Map 阶段,输入数据被分割成小块,...

    基于 Hadoop 平台实现的使用 MapReduce 编程,统计NBA球员五项数据+源代码+文档说明

    MapReduce 介绍 MapReduce是一个并行计算框架,将大数据量的任务拆分成小数据量的任务,分布式计算每一部分的数据,在整合每个数据节点的结果,最后汇总结果。对于可以并行计算的数据,这将降低单机的计算任务,...

    SDU-大数据实验&课设(mapreduce)内含源码和说明书(可以直接运行).zip

    1. **MapReduce介绍**: MapReduce将大规模数据处理分为两个主要阶段:Map阶段和Reduce阶段。Map阶段负责将输入数据切分成小块并进行局部处理,而Reduce阶段则汇总Map阶段的结果,进行全局计算。这种模式非常适合在...

    Hadoop - MapReduce详细介绍

    hadoop的mapreduce的架构和原理介绍的比较详细,ppt格式.

    MapReduce 设计模式

    2. MapReduce和Hadoop:介绍了MapReduce的历史及其与Hadoop的关系。Hadoop是一个开源框架,支持分布式存储和计算,MapReduce是Hadoop的核心组件之一。 3. MapReduce案例分析:通过“Hadoop Example: WordCount”...

    Hadoop mapreduce实现wordcount

    这个文件可能是 Hadoop 官方文档中关于 WordCount 示例的一个章节,详细介绍了如何编写 Map 和 Reduce 函数,以及如何配置和运行 WordCount 作业。可能包括了 Java 代码示例,讲解如何创建 MapReduce 程序,并将其...

    MapReduce 谷歌实验室论文

    这篇论文详细介绍了MapReduce的概念、工作机制以及在实际中的应用。MapReduce模型通过两个主要函数——Map函数和Reduce函数来处理数据,使得程序员能够自动地并行化程序并执行于大规模集群计算环境中。 在MapReduce...

    Hadoop介绍,HDFS和MapReduce工作原理

    Hadoop介绍,HDFS和MapReduce工作原理

    MapReduce设计模式介绍.ppt

    MapReduce 设计模式知识点总结 MapReduce 设计模式是大数据处理的核心组件,负责将大规模数据处理和分析任务分解为可并行处理的任务。MapReduce 设计模式主要由两个阶段组成:Map 阶段和 Reduce 阶段。 Map 阶段 ...

Global site tag (gtag.js) - Google Analytics