=======================================================================
Reading Note of MapReduce: Simplified Data Processing on Large Clusters
=======================================================================
------
Origin
------
``map`` and ``reduce`` are primitives in Lisp.
``map`` example
::
(map 'list #'- '(1 2 3 4)) => (-1 -2 -3 -4)
``reduce`` example
::
(reduce #'* '(1 2 3 4 5)) => 120
Haskell has the same functions.
``map`` example
::
Prelude> map negate [1, 2, 3]
[-1,-2,-3]
In Haskell, reduce is called fold. Haskell has 2 kinds of folds: foldl and
foldr.
::
Prelude> foldl (+) 0 [1, 2, 3]
6
-------
Example
-------
::
map(String key, String value);
// key: document name
// value: document contents
for each word w in value:
EmitIntermeidate(w, "1");
reduce(String key, Iterator values):
// key: a word
// values: a list of counts
int result = 0;
for each v in values:
result += ParseInt(v);
Emit(AsString(result));
分享到:
相关推荐
这是谷歌三大论文之一的 MapReduce: Simplified Data Processing on Large Clusters 英文原文。我的翻译可以见https://blog.csdn.net/m0_37809890/article/details/87830686
《MapReduce: Simplified Data Processing on Large Clusters》这篇论文由Google的研究员Jeffrey Dean和Sanjay Ghemawat撰写,旨在介绍一种名为MapReduce的分布式计算模型。在MapReduce出现之前,Google和其他公司...
MapReduce 编程模型简介 MapReduce 是一种编程模型,由 Jeffrey Dean 和 Sanjay Ghemawat 于 2004 年提出,用于处理大规模数据集的分布式计算。该模型将计算任务分解成两个主要阶段:Map 和 Reduce。Map 阶段将...
MapReduce-Simplified Data Processing on Large Clusters.pdf MapReduce-Simplified Data Processing on Large Clusters.pdf
MapReduce的翻译,我只是个搬运工qwq
### MapReduce:简化大型集群上的数据处理 #### 概述 MapReduce是一种高效的数据处理模型,主要用于处理和生成大规模数据集。它通过将数据处理任务分解为“映射(Map)”和“归并(Reduce)”两个阶段,极大地简化...
Google那篇著名的论文的ppt,MapReduce开山之作,介绍了Google对MapReduce的实现。
MapReduce programming model MapReduce是Google公司开发的一种编程模型和实现方法,用于处理和生成大规模数据集。该模型允许用户指定一个Map函数,以处理键值对,并生成中间键值对;然后,指定一个Reduce函数,以...
### MapReduce:简化大型集群上的数据处理 #### 概述 MapReduce是一种编程模型及其相应的实现方式,旨在处理和生成大型数据集。该技术由谷歌的Jeffrey Dean和Sanjay Ghemawat提出,用于解决大规模数据处理的问题。...
MapReduce是一种编程模型,它适用于在超大型集群上进行大规模数据集的处理。其主要思想是通过定义两个关键函数:Map和Reduce,来实现分布式数据处理。Map函数负责处理输入的键/值(key/value)对,生成中间的键/值对...
《An Architecture for Fast and General Data Processing on Large Clusters》是2013年由Matei Zaharia博士撰写的博士论文,该论文提交于加利福尼亚大学伯克利分校,作为计算机科学博士的部分满足要求。论文委员会...
Sanjay Ghemawat published the seminal paper MapReduce: Simplified Data Processing on Large Clusters. Since then, technologies leveraging the concept started growing very quickly with Apache Hadoop ...
在HaLoop中,我们不仅为MapReduce增加了迭代编程支持,还让任务调度器具备了循环感知能力,并在Reducer物理节点上缓存循环不变数据以提高效率。通过在HaLoop上实现诸如PageRank、社交网络分析以及K-means聚类等应用...
《The Google File System》 《MapReduce: Simplified Data Processing on Large Clusters》 《Bigtable: A Distributed Storage System for Structured Data》
MapReduce_Simplified_Data_Processing_on_Large_Clusters