- 浏览: 115788 次
- 性别:
- 来自: 北京
文章分类
最新评论
1. 介绍
MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。
如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。
2. 例子
设想对一堆文档进行每个单词出现次数进行统计的例子。用户会定义类似下面的map和reduce函数:
map(String key, String value):
//key: document name
//value: document contents
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
//key: a word
//values: a list of counts
int result = 0;
for each v in values:
result +=ParseInt(v):
Emit(AsString(result));
假如输入是两篇文档:
A--"MapReduceis a programming model"
B--"MapReduceis easy to use"
map过程是将map分别作用于两篇文档,这样就可以两篇文档并行处理,产生输出是:
(MapReduce, 1), (is, 1), (a, 1), (programming, 1), (model, 1), (MapReduce, 1), (is, 1), (easy, 1), (to, 1), (use, 1)。
系统对map的输出结果进行处理,生成中间结果,作为reduce的输入, 中间结果为:
(MapReduce, [1,1]), (is, [1,1]), (a, [1]), (programming, [1]), (model, [1]), (easy, [1]), (to, [1]), (use, [1])。
reduce过程是将reduce函数分别作用于上面八个键/值列表对,这样就可以八个键/值列表对并行处理,产生的输出是:
(MapReduce, 2), (is, 2), (a, 1), (programming, 1), (model, 1), (easy, 1), (to, 1), (use, 1)。
这样,每个单词出现的频率就统计出来了。
3. 实现
Google的MapReduce实现,运行在他们一向引以为傲的数以千计的commodity machines组成的linuxcluster上面,使用了master/slaves结构,master进行任务分配,slave执行具体的任务。
在MapReduce的具体实现中,并不是简单的将n个文档作为n个map任务并行处理,而是将输入文档集合按字节数(比如64M)打包,每个包中的数据,作为一个map任务并行处理,这样,一个大文件,就可能被分为多个包分别进行处理。也不是将r个键/值列表对作为r个reduce任务并行处理,而是通过一个哈希函数将所有的 key分组,同一个组中的键/值列表对在同一个reduce任务中处理(仍然是分别处理)。这样就可以控制map和reduce的任务数量。
Google的MapReduce实现,大量使用了临时文件。假如有n个map任务,r个reduce任务,每个map任务,将自己的输出按照key对于哈希函数的哈希值进行分组(共r 组),同一分组中的所有键/值对排序后写入一个临时文件中。这时保证了同一个文件中的所有键(key)是有序的。每个reduce任务执行时,将所有 map任务产生的属于自己的那个临时文件(共n个文件)读入,归并排序后将结果送给reduce函数处理。每个reduce任务产生一个最终的文件作为输出。这样,就需要一个分布式的文件系统作为底层支持。Google使用的是Google File System(GFS)。
4. 总结
限制了编程模型可以使并行计算十分简单易用,并且系统结构简单,易于实现。在这种模型下,MapReduce系统框架隐藏了并行处理,容错,负载均衡等细节问题,使没有并行处理和分布系统经验的程序员可以使用并行系统解决问题。
这种限制了的编程模型仍然具有很强的表达能力,可以处理信息检索领域的许多问题,比如Distributed Grep, Count of URL Access Frequency, Reverse Web-Link Graph, Term-Vector per Host, Inverted Index, Word Count。
5. 更多参考
MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。
如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。
2. 例子
设想对一堆文档进行每个单词出现次数进行统计的例子。用户会定义类似下面的map和reduce函数:
map(String key, String value):
//key: document name
//value: document contents
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
//key: a word
//values: a list of counts
int result = 0;
for each v in values:
result +=ParseInt(v):
Emit(AsString(result));
假如输入是两篇文档:
A--"MapReduceis a programming model"
B--"MapReduceis easy to use"
map过程是将map分别作用于两篇文档,这样就可以两篇文档并行处理,产生输出是:
(MapReduce, 1), (is, 1), (a, 1), (programming, 1), (model, 1), (MapReduce, 1), (is, 1), (easy, 1), (to, 1), (use, 1)。
系统对map的输出结果进行处理,生成中间结果,作为reduce的输入, 中间结果为:
(MapReduce, [1,1]), (is, [1,1]), (a, [1]), (programming, [1]), (model, [1]), (easy, [1]), (to, [1]), (use, [1])。
reduce过程是将reduce函数分别作用于上面八个键/值列表对,这样就可以八个键/值列表对并行处理,产生的输出是:
(MapReduce, 2), (is, 2), (a, 1), (programming, 1), (model, 1), (easy, 1), (to, 1), (use, 1)。
这样,每个单词出现的频率就统计出来了。
3. 实现
Google的MapReduce实现,运行在他们一向引以为傲的数以千计的commodity machines组成的linuxcluster上面,使用了master/slaves结构,master进行任务分配,slave执行具体的任务。
在MapReduce的具体实现中,并不是简单的将n个文档作为n个map任务并行处理,而是将输入文档集合按字节数(比如64M)打包,每个包中的数据,作为一个map任务并行处理,这样,一个大文件,就可能被分为多个包分别进行处理。也不是将r个键/值列表对作为r个reduce任务并行处理,而是通过一个哈希函数将所有的 key分组,同一个组中的键/值列表对在同一个reduce任务中处理(仍然是分别处理)。这样就可以控制map和reduce的任务数量。
Google的MapReduce实现,大量使用了临时文件。假如有n个map任务,r个reduce任务,每个map任务,将自己的输出按照key对于哈希函数的哈希值进行分组(共r 组),同一分组中的所有键/值对排序后写入一个临时文件中。这时保证了同一个文件中的所有键(key)是有序的。每个reduce任务执行时,将所有 map任务产生的属于自己的那个临时文件(共n个文件)读入,归并排序后将结果送给reduce函数处理。每个reduce任务产生一个最终的文件作为输出。这样,就需要一个分布式的文件系统作为底层支持。Google使用的是Google File System(GFS)。
4. 总结
限制了编程模型可以使并行计算十分简单易用,并且系统结构简单,易于实现。在这种模型下,MapReduce系统框架隐藏了并行处理,容错,负载均衡等细节问题,使没有并行处理和分布系统经验的程序员可以使用并行系统解决问题。
这种限制了的编程模型仍然具有很强的表达能力,可以处理信息检索领域的许多问题,比如Distributed Grep, Count of URL Access Frequency, Reverse Web-Link Graph, Term-Vector per Host, Inverted Index, Word Count。
5. 更多参考
[1] Google关于MapReduce的论文:Dean, Jeff andGhemawat,Sanjay.MapReduce: Simplified Data Processing on Large Clustershttp://labs.google.com/papers/mapreduce-osdi04.pdf
[2] 另一篇关于MapReduce的论文:Lammal, Ralf.Google'sMapReduceProgramming Model Revisited.http://www.cs.vu.nl/~ralf/MapReduce/paper.pdf
[3] MapReduce和GFS的一个java平台的开源实现,是Nutch项目的一个副产品:http://lucene.apache.org/hadoop/
[4] Google上一篇关于MapReduce和并行计算的介绍文章:Introduction to Parallel Programming andMapReduce.http://code.google.com/edu/parallel/mapreduce-tutorial.html
发表评论
-
hadoop分布式文件系统架构与设计
2011-02-17 11:09 759引言 Hadoop分布式 ... -
saas与云计算的区别
2011-03-11 16:59 704SAAS与云计算的区别 SAAS ... -
用 Hadoop 进行分布式并行编程, 第 1 部分
2011-03-21 16:25 699基本概念与安装部署 曹 羽中( ... -
用 Hadoop 进行分布式并行编程, 第 2 部分
2011-03-21 17:38 575用 Hadoop 进行分布式并行编程, 第 2 ... -
用 Hadoop 进行分布式并行编程, 第 3 部分
2011-03-21 17:55 847部署到分布式环境 曹 羽中(c ... -
HBase简介
2011-07-15 13:49 729HBase – Hadoop Database,是一个高 ... -
hadoop0.20.2配置 in linux(ubuntu)
2011-10-05 16:09 755配置ssh 创建密钥,这里p后面是空密码,不推荐使用空密码 ... -
hadoop0.20.2下相关问题处理方法
2011-10-26 10:52 1227Problem:NameNode is not formatt ... -
zookeeper简介
2011-11-03 15:00 869ZooKeeper是作为分布式应 ... -
hbase数据模型
2011-11-04 16:03 850BigTable是什么?Google的Paper对其作了充 ... -
hbase集群配置
2011-11-07 16:09 907环境 hbase-0.90.4 hadoop-0.20.2 ... -
分布式服务框架 Zookeeper -- 管理分布式环境中的数据
2011-11-08 13:56 797安装和配置详解 本文介绍的 Zookeeper ... -
zookeeper锁机制
2011-11-08 13:58 866加锁: ZooKeeper将按照如下方式实现加锁的操 ... -
zookeeper相关问题解决
2011-11-08 15:11 779Error contacting service. It is ...
相关推荐
MapReduce是一种分布式计算模型,由Google在2004年提出,主要用于处理和生成大规模数据集。这个模型简化了在大型集群上运行的并行计算任务,使得开发者能够编写简单的程序来解决复杂的数据处理问题。MapReduce的核心...
大规模数据处理时,MapReduce在三个层面上的基本构思 如何对付大数据处理:分而治之 对相互间不具有计算依赖关系的大数据,实现并行最自然的办法就是采取分而治之的策略 上升到抽象模型:Mapper与Reducer MPI等...
MapReduce是Google在2004年提出的一种分布式计算模型,后来被Apache Hadoop项目采纳并发展成为一种广泛应用于大数据处理的关键技术。Hadoop技术,尤其是MapReduce,为大规模数据处理提供了一种高效、可扩展且容错性...
MapReduce是Apache Hadoop生态系统中的核心组件之一,它是一种分布式计算模型,用于处理和生成大规模数据集。在本文中,我们将深入探讨MapReduce的工作原理、关键概念以及它在Hadoop框架中的作用。 MapReduce的核心...
1、传统的海量数据分析方案 2、Apache Hadoop项目 3、HDFS设计 4、MapReduce 5、Pig & Hive 6、Spark ……
#### 一、MapReduce简介 MapReduce是一种用于处理大规模数据集的编程模型和执行框架。它最初由Google在2004年开发(Jeffrey Dean与Sanjay Ghemawat),旨在为分布式计算提供简单易用的接口。其核心思想在于将大型...
#### 一、Hadoop MapReduce简介 Hadoop MapReduce是一种分布式数据处理模型,主要用于大规模数据集的并行处理。它包括两个主要阶段:Map(映射)和Reduce(归约)。MapReduce的核心思想是通过将大数据集分割成小块...
MapReduce将大型任务分解为小的可并行处理的部分,通过Map函数进行数据的预处理,然后由Reduce函数聚合结果,实现了数据的高效处理。 【MapReduce并行编程详解】 MapReduce的核心思想是将大数据处理任务分为两个...
第1章:MapReduce简介 本章介绍了MapReduce的基本概念,包括它的起源、设计目标和工作流程。MapReduce是一种分布式计算模型,由Google提出,用于处理和生成大规模数据集。它主要由两个阶段组成:Map阶段和Reduce阶段...
Hadoop和MapReduce简介 介绍 该存储库包含有关Udacity课程的作业的源代码,该课程于2013年11月15日发布。 这是与一门短期课程。 该课程的讲师是Cloudera和Gundega Dekena的Sarah Sproehnle和Ian Wrigley,课程开发者...
#### 二、MapReduce简介 MapReduce是由Google提出的分布式计算模型,它能够高效地处理大规模数据集。MapReduce将计算任务分解为Map(映射)和Reduce(归约)两个阶段,利用多台机器并行处理数据。该模型非常适合...
#### 一、MapReduce简介与云计算计算模型 《Data-Intensive Text Processing with MapReduce》由Jimmy Lin和Chris Dyer撰写,是Morgan & Claypool Synthesis Lectures on Human Language Technologies系列的一部分...
##### 一、MapReduce简介 MapReduce是Google提出的一种编程模型,用于大规模数据集(多TB甚至PB)的并行运算。MapReduce将复杂的、运行于大规模集群上的并行计算过程高度地抽象到了两个函数:Map 和 Reduce。 1. *...
一、MapReduce简介 MapReduce是Google提出的一种分布式计算模型,主要由Map(映射)和Reduce(归约)两个阶段构成,用于处理和生成大规模数据集。在Hadoop中,MapReduce框架被广泛用于执行各种计算任务,如文本分析...
MongoDB的MapReduce功能是基于分布式计算模型的一种数据处理方式,它允许用户在数据库中进行大规模数据处理。MapReduce的核心思想是将复杂的数据处理任务分解为两个主要阶段:Map阶段和Reduce阶段。 Map阶段是数据...
标题:MapReduce简介 在大型计算领域,MapReduce是一种革命性的编程模型,它彻底改变了处理大规模数据集的方式。本文将深入探讨MapReduce的概念、实施、特性以及与传统高性能计算(HPC)的区别。 ### 大规模计算与...
一、MapReduce简介 MapReduce是由Google提出的分布式计算模型,主要由Map(映射)和Reduce(规约)两部分组成。Map阶段将输入数据拆分成键值对,并进行局部计算;Reduce阶段负责整合Map阶段的结果,进行全局计算。...
#### 一、MapReduce简介 MapReduce是由Google提出的一种用于处理和生成超大数据集的编程模型及其实现。它主要适用于处理海量数据,并且能够利用大量的普通配置计算机进行分布式计算。该模型的核心在于提供了一种...