Google Map Reduce简介[翻译学习]

omygege

浏览: 1386747 次

最近访客更多访客>>

morelily

u012363178

sunbin

Serena_cc7

博主相关

博客

微博

相册

留言

关于我

文章分类

全部博客 (1730)

社区版块

存档分类

2011-12 ( 17)
2011-11 ( 57)
2011-10 ( 144)
更多存档...

1.并行计算简介

2.What is MapReduce?

3.MapReduce是如何运行的？

<1>.并行计算简介

计算机的早期阶段，程序都是serial（连续的），类似于批处理程序。

并行计算的程序中，进程将一个任务分割成多个部分parts，每个“部分“都是能够并行处理的，每个“部分”可以同时运行在不同的cpu上，这些cpus可以是同一台机器上，也可以是通过网络运行在不同机器的cpu上。

如果一个程序想要通过并行来实现，第一步的工作是需要将待处理的工作分割成一系列的任务task，并且这些任务是能够并行的运行在处理器上，当然一些情况下，待处理的工作是没有办法分割成这样的一些列的任务的，例如对于计算Fibonacci这个工作：

F_k+2= F_k+ F_k+1

该工作是不能被分割为这样的一系列的任务的，因为每个计算的值是需要依赖上次计算的结果的。

下面给出一个能够被“并行”的例子：

如果有大量的数据需要被处理，如果这些数据能够被分割为等大小的小块（partitions）。更加具体话的说，对于下面的数组：

如果我们需要对于上面数组的每个元素都进行处理，并且每个计算是相对独立的话，任务之间不需要交互，这是一个使用master/worker的基本实现：

Master：

初始化该数组，并且将该数组分割成各个部分subarray
将每个subarray发送到各个worker
如果各个worker完成了对于数组元素的计算的话，master将接受各个worker的计算结果

Worker:

接受subarray
处理该subarray
将计算结构传递给master

<2>.What is MapReduce?

在lisp语言中，map作为一个输入函数接受一个序列，然后处理每个序列中value值，然后reduce将最终的map计算出来的结果整理成最终程序输出。这就是MapReduce最初的思想来源，通过用户定义的map函数将输入分割成key/value对，然后处理该数据，最终通过Reduce函数将处理完成的记过合并。

下面是一个简单的示例程序：

map(String key, String value):
// key: document name 
// value: document contents 
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));

<3>. MapReduce是如何运行的？

1. MapReduce Library首先将输入文件切割成多个小片的文件pieces，然后MapReduceLibrary将启动复制操作，将用户程序复制到各个a cluster of machines上。

2. 在这些a cluster of machines中，其中一个比较特殊称之为master，其他的machine被称之为worker，master选择空闲的worker并将任务（map任务或者是reduce任务）分配给这些空闲的worker任务。

3. 一个worker如果被master分配了map任务的话，该worker首先读取该key/value对，然后执行用户定义的map函数，这些处理完成的key/value对被缓存到内存中。

4. 然后，将这些key/value对写入本地磁盘，然后worker通知master。

5. 如果master接收到了worker在第4步的通知之后，master将这个信息传递给reduce worker，该reduce worker通过远程系统调用的形式读取该worker磁盘上存储的处理完的数据。

如果reduce worker读取完了所有的数据的话，然后该reduce worker将读取到的数据排序，如果数据量比较大的话，无法全部放在内存中，那么排序将使用外部排序来实现。

6. Reduce worker遍历已排序的数据，然后将数据传递到用户定义的Reduce函数。

7. 当所有的map和reduce完成之后，然后master唤醒用户程序。

通过整个程序的运行过程，我们可以看出用户程序仅仅需要编写Map函数和Reduce函数即可，MapReduce库首先通过调用用户自定义的Map函数，将输入文件分割，如果数据处理完成，将调用Reduce函数将结果合并起来。

//----------------------------------------------------------------

于2011-5-28下午

作者：许强（就读于[哈尔滨工业大学（威海）软件学院]）出处：[http://xuqiang.cnblogs.com]

1. 本博客中的文章均是个人在学习和项目开发中总结。其中难免存在不足之处，欢迎留言指正。 2. 本文版权归作者和博客园共有，转载时，请保留本文链接。

分享到：

通过shell命令来控制hdfs | 没有makefile的日子

2011-06-06 14:45
浏览 713
评论(0)
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论