`

MapReduce 简介

 
阅读更多

1. 介绍
MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。

如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。

2. 例子
设想对一堆文档进行每个单词出现次数进行统计的例子。用户会定义类似下面的map和reduce函数:
map(String key, String value):
//key: document name
//value: document contents
for each word w in value:
EmitIntermediate(w, "1");

reduce(String key, Iterator values):
//key: a word
//values: a list of counts
int result = 0;
for each v in values:
result +=ParseInt(v):
Emit(AsString(result));

假如输入是两篇文档:
A--"MapReduceis a programming model"
B--"MapReduceis easy to use"

map过程是将map分别作用于两篇文档,这样就可以两篇文档并行处理,产生输出是:
(MapReduce, 1), (is, 1), (a, 1), (programming, 1), (model, 1), (MapReduce, 1), (is, 1), (easy, 1), (to, 1), (use, 1)。

系统对map的输出结果进行处理,生成中间结果,作为reduce的输入, 中间结果为:
(MapReduce, [1,1]), (is, [1,1]), (a, [1]), (programming, [1]), (model, [1]), (easy, [1]), (to, [1]), (use, [1])。

reduce过程是将reduce函数分别作用于上面八个键/值列表对,这样就可以八个键/值列表对并行处理,产生的输出是:
(MapReduce, 2), (is, 2), (a, 1), (programming, 1), (model, 1), (easy, 1), (to, 1), (use, 1)。

这样,每个单词出现的频率就统计出来了。

3. 实现
Google的MapReduce实现,运行在他们一向引以为傲的数以千计的commodity machines组成的linuxcluster上面,使用了master/slaves结构,master进行任务分配,slave执行具体的任务。

MapReduce的具体实现中,并不是简单的将n个文档作为n个map任务并行处理,而是将输入文档集合按字节数(比如64M)打包,每个包中的数据,作为一个map任务并行处理,这样,一个大文件,就可能被分为多个包分别进行处理。也不是将r个键/值列表对作为r个reduce任务并行处理,而是通过一个哈希函数将所有的 key分组,同一个组中的键/值列表对在同一个reduce任务中处理(仍然是分别处理)。这样就可以控制map和reduce的任务数量。

Google的MapReduce实现,大量使用了临时文件。假如有n个map任务,r个reduce任务,每个map任务,将自己的输出按照key对于哈希函数的哈希值进行分组(共r 组),同一分组中的所有键/值对排序后写入一个临时文件中。这时保证了同一个文件中的所有键(key)是有序的。每个reduce任务执行时,将所有 map任务产生的属于自己的那个临时文件(共n个文件)读入,归并排序后将结果送给reduce函数处理。每个reduce任务产生一个最终的文件作为输出。这样,就需要一个分布式的文件系统作为底层支持。Google使用的是Google File System(GFS)。

4. 总结
限制了编程模型可以使并行计算十分简单易用,并且系统结构简单,易于实现。在这种模型下,MapReduce系统框架隐藏了并行处理,容错,负载均衡等细节问题,使没有并行处理和分布系统经验的程序员可以使用并行系统解决问题。

这种限制了的编程模型仍然具有很强的表达能力,可以处理信息检索领域的许多问题,比如Distributed Grep, Count of URL Access Frequency, Reverse Web-Link Graph, Term-Vector per Host, Inverted Index, Word Count。

5. 更多参考

[1] Google关于MapReduce的论文:Dean, Jeff andGhemawat,Sanjay.MapReduce: Simplified Data Processing on Large Clustershttp://labs.google.com/papers/mapreduce-osdi04.pdf

[2] 另一篇关于MapReduce的论文:Lammal, Ralf.Google'sMapReduceProgramming Model Revisited.http://www.cs.vu.nl/~ralf/MapReduce/paper.pdf


[3] MapReduce和GFS的一个java平台的开源实现,是Nutch项目的一个副产品:http://lucene.apache.org/hadoop/

[4] Google上一篇关于MapReduce和并行计算的介绍文章:Introduction to Parallel Programming andMapReduce.http://code.google.com/edu/parallel/mapreduce-tutorial.html

 

分享到:
评论

相关推荐

    白色简洁的艺术展示网页模板下载.zip

    白色简洁的艺术展示网页模板下载.zip

    电商平台开发需求文档.doc

    电商平台开发需求文档.doc

    STM32F030单片机控制LED灯.zip

    1、嵌入式物联网单片机项目开发例程,简单、方便、好用,节省开发时间。 2、代码使用KEIL 标准库开发,当前在STM32F030C8T6运行,如果是STM32F030其他型号芯片,依然适用,请自行更改KEIL芯片型号以及FLASH容量即可。 3、软件下载时,请注意keil选择项是jlink还是stlink。 4、有偿指导v:wulianjishu666; 5、如果接入其他传感器,请查看账号发布的其他资料。 6、单片机与模块的接线,在代码当中均有定义,请自行对照。 7、若硬件有差异,请根据自身情况调整代码,程序仅供参考学习。 8、代码有注释说明,请耐心阅读。 9、编译时请注意提示,请选择合适的编译器版本。

    数电期末练习题.doc

    数电期末练习题.doc

    交易流水证明_用于材料证明_20241225_174557.zip

    交易流水证明_用于材料证明_20241225_174557.zip

    计算机网络期末复习(第八版)谢希仁

    计算机网络期末复习(第八版)谢希仁

    基于微信小程序的汽车销售系统的设计与实现springboot.zip

    汽车销售系统使用Java语言进行编码,使用Mysql创建数据表保存本系统产生的数据。系统可以提供信息显示和相应服务,其管理汽车销售系统信息,查看汽车销售系统信息,管理汽车销售系统。 用户信息管理页面,此页面提供给管理员的功能有:用户信息的查询管理,可以删除用户信息、修改用户信息、新增用户信息,还进行了对用户名称的模糊查询的条件。 汽车信息管理页面,此页面提供给管理员的功能有:查看已发布的汽车信息数据,修改汽车信息,汽车信息作废,即可删除,还进行了对汽车信息名称的模糊查询 汽车信息信息的类型查询等等一些条件。 汽车类型管理页面,此页面提供给管理员的功能有:根据汽车类型进行条件查询,还可以对汽车类型进行新增、修改、查询操作等等。

    VB+ACCESS网络计时管理系统设计(源代码+系统)(2024gv).7z

    1、资源项目源码均已通过严格测试验证,保证能够正常运行; 2、项目问题、技术讨论,可以给博主私信或留言,博主看到后会第一时间与您进行沟通; 3、本项目比较适合计算机领域相关的毕业设计课题、课程作业等使用,尤其对于计算机科学与技术等相关专业,更为适合;

    电视盒子的远程输入法应用,可跨屏远程输入和跨屏远程控制盒子.7z

    电视盒子的远程输入法应用,可跨屏远程输入和跨屏远程控制盒子.7z

    白色大气的旅游度假酒店企业网站模板下载.zip

    白色大气的旅游度假酒店企业网站模板下载.zip

    【信息融合】基于matlab多维卡尔曼滤波器传感器信息融合(含GPS)【含Matlab源码 9980期】含报告.zip

    Matlab领域上传的视频均有对应的完整代码,皆可运行,亲测可用,适合小白; 1、代码压缩包内容 主函数:main.m; 调用函数:其他m文件;无需运行 运行结果效果图; 2、代码运行版本 Matlab 2019b;若运行有误,根据提示修改;若不会,私信博主; 3、运行操作步骤 步骤一:将所有文件放到Matlab的当前文件夹中; 步骤二:双击打开main.m文件; 步骤三:点击运行,等程序运行完得到结果; 4、仿真咨询 如需其他服务,可私信博主; 4.1 博客或资源的完整代码提供 4.2 期刊或参考文献复现 4.3 Matlab程序定制 4.4 科研合作

    (177453248)用python代 码放烟花.zip

    标题中的“用python代码放烟花”表明我们将讨论如何使用Python编程语言来模拟烟花绽放的效果。在Python编程中,实现这样的视觉效果通常涉及到图形用户界面(GUI)或者更具体地说是图形渲染。描述中的内容与标题一致,暗示我们将深入探讨一个使用Python编写的烟花模拟程序。 `main.py`是这个项目的核心文件,它很可能是整个烟花秀的主入口点。在这个文件中,开发者可能定义了程序的主循环,以及调用其他模块如`particle.py`的代码。`particle.py`可能包含了粒子系统的设计,因为烟花效果通常是通过模拟无数粒子的运动来实现的。粒子系统是一种常见的计算机图形学技术,用于模拟大量独立对象(在这里是烟花)的行为。 在`particle.py`中,我们可以预期找到类或函数来定义烟花粒子的属性,比如位置、速度、颜色、生命周期等。这些粒子可能会随着时间的推移而改变状态,例如从升空到爆炸,再到散开形成绚丽的图案。开发者可能使用了物理学原理,如重力和随机力,来模拟粒子的运动。 `.gitignore`文件是一个配置文件,告诉Git版本控制系统忽略特定的文件或目录。在这个项目中,它可

    白色创意风格的图片浏览源码下载.zip

    白色创意风格的图片浏览源码下载.zip

    白色大气风格的设计公司CSS3单页模板.zip

    白色大气风格的设计公司CSS3单页模板.zip

    Chapter 03 复合数据类型-1(资源)

    Chapter 03 复合数据类型-1(资源)项目中编写代码部分的源代码示例,包括石头剪刀布程序和用户登录以及增删改查程序

    白色大气风格的电子邮件订阅模板下载.zip

    白色大气风格的电子邮件订阅模板下载.zip

    IMG_20241225_230314.jpg

    IMG_20241225_230314.jpg

    白色简洁风格的安卓游戏卡通动漫人物整站网站模板.zip

    白色简洁风格的安卓游戏卡通动漫人物整站网站模板.zip

    (180204840)变电站红外电压电流互感器绝缘子检测图像数据集

    变电站红外电压电流互感器绝缘子检测图像数据集,数据集总共1600张左右图片,标注为VOC格式图像数据集,数据集总共1600张左右图片,标注为VOC格式。内容来源于网络分享,如有侵权请联系我删除。另外如果没有积分的同学需要下载,请私信我。

Global site tag (gtag.js) - Google Analytics