Google Map Reduce简介

ssxxjjii

浏览: 953952 次
性别:
来自: 北京

最近访客更多访客>>

天亮了说晚安

kitlee

lgx2351

Andy_Dou

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

分布式系统

<1>.并行计算简介

计算机的早期阶段，程序都是serial（连续的），类似于批处理程序。

并行计算的程序中，进程将一个任务分割成多个部分parts，每个“部分“都是能够并行处理的，每个“部分”可以同时运行在不同的cpu上，这些cpus可以是同一台机器上，也可以是通过网络运行在不同机器的cpu上。

如果一个程序想要通过并行来实现，第一步的工作是需要将待处理的工作分割成一系列的任务task，并且这些任务是能够并行的运行在处理器上，当然一些情况下，待处理的工作是没有办法分割成这样的一些列的任务的，例如对于计算Fibonacci这个工作：

F_k+2 = F_k + F_k+1

该工作是不能被分割为这样的一系列的任务的，因为每个计算的值是需要依赖上次计算的结果的。

下面给出一个能够被“并行”的例子：

如果有大量的数据需要被处理，如果这些数据能够被分割为等大小的小块（partitions）。更加具体话的说，对于下面的数组：

如果我们需要对于上面数组的每个元素都进行处理，并且每个计算是相对独立的话，任务之间不需要交互，这是一个使用master/worker的基本实现：

Master：

初始化该数组，并且将该数组分割成各个部分subarray
将每个subarray发送到各个worker
如果各个worker完成了对于数组元素的计算的话，master将接受各个worker的计算结果

Worker:

接受subarray
处理该subarray
将计算结构传递给master

<2>.What is MapReduce?

在lisp语言中，map作为一个输入函数接受一个序列，然后处理每个序列中value值，然后reduce将最终的map计算出来的结果整理成最终程序输出。这就是MapReduce最初的思想来源，通过用户定义的map函数将输入分割成key/value对，然后处理该数据，最终通过Reduce函数将处理完成的记过合并。

下面是一个简单的示例程序：

map(String key, String value):
// key: document name 
// value: document contents 
for each word w in value:
EmitIntermediate(w, "1");
reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));

<3>. MapReduce是如何运行的？

1. MapReduce Library首先将输入文件切割成多个小片的文件pieces，然后MapReduce Library将启动复制操作，将用户程序复制到各个a cluster of machines上。

2. 在这些a cluster of machines中，其中一个比较特殊称之为master，其他的machine被称之为worker，master选择空闲的worker并将任务（map任务或者是reduce任务）分配给这些空闲的worker任务。

3. 一个worker如果被master分配了map任务的话，该worker首先读取该key/value对，然后执行用户定义的map函数，这些处理完成的key/value对被缓存到内存中。

4. 然后，将这些key/value对写入本地磁盘，然后worker通知master。

5. 如果master接收到了worker在第4步的通知之后，master将这个信息传递给reduce worker，该reduce worker通过远程系统调用的形式读取该worker磁盘上存储的处理完的数据。

如果reduce worker读取完了所有的数据的话，然后该reduce worker将读取到的数据排序，如果数据量比较大的话，无法全部放在内存中，那么排序将使用外部排序来实现。

6. Reduce worker遍历已排序的数据，然后将数据传递到用户定义的Reduce函数。

7. 当所有的map和reduce完成之后，然后master唤醒用户程序。

通过整个程序的运行过程，我们可以看出用户程序仅仅需要编写Map函数和Reduce函数即可，MapReduce库首先通过调用用户自定义的Map函数，将输入文件分割，如果数据处理完成，将调用Reduce函数将结果合并起来。

分享到：

key-list类型内存数据引擎介绍及使用场景 | 漫游红黑树之插入篇

2013-02-04 14:24
浏览 934
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论