摘要原文如下:
MapReduce: Simplified Data Processing on Large Clusters
MapReduce is a programming model and an associ-
ated implementation for processing and generating large
data sets. Users specify a map function that processes a
key/value pair to generate a set of intermediate key/value
pairs, and a reduce function that merges all intermediate
values associated with the same intermediate key. Many
real world tasks are expressible in this model, as shown
in the paper.
Programs written in this functional style are automati-
cally parallelized and executed on a large cluster of com-
modity machines. The run-time system takes care of the
details of partitioning the input data, scheduling the pro-
gram's execution across a set of machines, handling ma-
chine failures, and managing the required inter-machine
communication. This allows programmers without any
experience with parallel and distributed systems to eas-
ily utilize the resources of a large distributed system.
Our implementation of MapReduce runs on a large
cluster of commodity machines and is highly scalable:
a typical MapReduce computation processes many ter-
abytes of data on thousands of machines. Programmers
find the system easy to use: hundreds of MapReduce pro-
grams have been implemented and upwards of one thou-
sand MapReduce jobs are executed on Google's clusters
every day.
译文如下:
MapReduce: 大型集群上的简化数据处理
MapReduce是一个编程模型,也是一个用于处理和生成大型数据集的相关实现。用户指定一个map函数,该函数用于将key/value这样的值处理成为一个“中间”的key/value数据结构,同时一个reduce函数将所有的“中间”的value合并到同一个相关“中间”的key上。很多现实中的工作可以套用这个模型,就像这个论文中所说的。
使用这种函数式风格编写的程序会很自然地实现并行和运行在一个大型集群的商用机器上。那些运行时系统任务关心关于输入数据分区的细节,如何在一群机器上对执行的程序进行调度,处理机器故障和管理所需机器间的通信。这允许程序员即使没有任何并行和分布式系统的经验也可以轻松的利用一个大型分布式系统的资源。我们的MapReduce运行于一个大型的商用机器集群并实现高度的扩展性:一个典型的MapReduce计算(应用)部署在成千上万台机器(集群)上处理许多TB级的数据。程序员们发觉那个系统是很容易使用的:成百上千个MapReduce程序已经实现,而且每天还有一千以上的MapReduce任务已经在Google的集群上运行。
参考文献:
http://www.cs.toronto.edu/~demke/2227S.12/Papers/mapreduce-osdi04.pdf
分享到:
相关推荐
这是谷歌三大论文之一的 MapReduce: Simplified Data Processing on Large Clusters 英文原文。我的翻译可以见https://blog.csdn.net/m0_37809890/article/details/87830686
《MapReduce: Simplified Data Processing on Large Clusters》这篇论文由Google的研究员Jeffrey Dean和Sanjay Ghemawat撰写,旨在介绍一种名为MapReduce的分布式计算模型。在MapReduce出现之前,Google和其他公司...
MapReduce-Simplified Data Processing on Large Clusters.pdf MapReduce-Simplified Data Processing on Large Clusters.pdf
MapReduce 模型的应用非常广泛,例如在 Google 的集群上执行 MapReduce 任务,用于处理大量数据的计算,例如降序索引、图示展示的 web 文档、蠕虫采集的每个 host 的 page 数量摘要等等。该模型也可以用于其他领域,...
MapReduce的翻译,我只是个搬运工qwq
### MapReduce:简化大型集群上的数据处理 #### 概述 MapReduce是一种高效的数据处理模型,主要用于处理和生成大规模数据集。它通过将数据处理任务分解为“映射(Map)”和“归并(Reduce)”两个阶段,极大地简化...
Google那篇著名的论文的ppt,MapReduce开山之作,介绍了Google对MapReduce的实现。
MapReduce programming model MapReduce是Google公司开发的一种编程模型和实现方法,用于处理和生成大规模数据集。该模型允许用户指定一个Map函数,以处理键值对,并生成中间键值对;然后,指定一个Reduce函数,以...
MapReduce是一种编程模型,它适用于在超大型集群上进行大规模数据集的处理。其主要思想是通过定义两个关键函数:Map和Reduce,来实现分布式数据处理。Map函数负责处理输入的键/值(key/value)对,生成中间的键/值对...
Sanjay Ghemawat published the seminal paper MapReduce: Simplified Data Processing on Large Clusters. Since then, technologies leveraging the concept started growing very quickly with Apache Hadoop ...
MapReduce_Simplified_Data_Processing_on_Large_Clusters
谷歌的三大论文——《MapReduce: Simplified Data Processing on Large Clusters》、《The Google File System》和《Bigtable: A Distributed Storage System for Structured Data》是大数据处理领域的重要里程碑,...
在IT领域,特别是大数据处理和分布式计算中,Google的三篇标志性论文——"MapReduce: Simplified Data Processing on Large Clusters"(2004年OSDI会议)、"The Google File System"(2003年SOSP会议)以及"Bigtable...
3. Google Lab: MapReduce: Simplified Data Processing on http://highscalability.com/google-architecture http://weibo.com/developerworks 2012-11-11 整理 第 1/9页 Large Clusters 4. Google Lab: BigTable...
[2]MapReduce: Simplified Data Processing on Large Clusters [3]The Google File System [4]Large-scale Incremental Processing Using Distributed Transactions and Notifications [5]Dremel: Interactive ...