`
异步获取爱
  • 浏览: 81347 次
  • 性别: Icon_minigender_1
  • 来自: 大男子主义世界
社区版块
存档分类
最新评论

MapReduce介绍

阅读更多
1. 介绍
    MapReduce是google发明的一种编程模型。在这种编程模型下,用户通过定义一个map函数和一个reduce函数来解决问题。map函数对用户输入的键/值对(key/value pair)进行处理(处理时可能只有值这一项有用),生成一系列新的键/值对作为中间结果;系统(MapReduce的实现)对map函数生成的键/值对进行处理,将同属于一个键(key)的值(value)组合在一起,生成键/值列表((key/list of values) pair)对;reduce函数将键/值列表对作为输入,对同属于一个键的值列表进行处理,生成最终处理结果输出。

    如果一个问题可以通过MapReduce编程模型来表达和解决,就可以通过MapReduce系统自动获得并行执行能力。程序员不需要有并行程序设计的经验,只需要定义map和reduce函数。


    2.  例子
    设想对一堆文档进行每个单词出现次数进行统计的例子。用户会定义类似下面的map和reduce函数:
    map(String key, String value):
       //key: document name
       //value: document contents
       for each word w in value:
          EmitIntermediate(w, "1");

    reduce(String key, Iterator values):
       //key: a word
       //values: a list of counts
       int result = 0;
       for each v in values:
          result += ParseInt(v):
       Emit(AsString(result));

    假如输入是两篇文档:
    A--"MapReduce is a programming model"
    B--"MapReduce is easy to use"
  
    map过程是将map分别作用于两篇文档,这样就可以两篇文档并行处理,产生输出是:
    (MapReduce, 1), (is, 1), (a, 1), (programming, 1), (model, 1), (MapReduce, 1), (is, 1), (easy, 1), (to, 1), (use, 1)。
  
    系统对map的输出结果进行处理,生成中间结果,作为reduce的输入, 中间结果为:
    (MapReduce, [1,1]), (is, [1,1]), (a, [1]), (programming, [1]), (model, [1]), (easy, [1]), (to, [1]), (use, [1])。

    reduce过程是将reduce函数分别作用于上面八个键/值列表对,这样就可以八个键/值列表对并行处理,产生的输出是:
    (MapReduce, 2), (is, 2), (a, 1), (programming, 1), (model, 1), (easy, 1), (to, 1), (use, 1)。

    这样,每个单词出现的频率就统计出来了。

    3. 实现
    Google的MapReduce实现,运行在他们一向引以为傲的数以千计的commodity machines组成的linux cluster上面,使用了master/slaves结构,master进行任务分配,slave执行具体的任务。

    在MapReduce的具体实现中,并不是简单的将n个文档作为n个map任务并行处理,而是将输入文档集合按字节数(比如64M)打包,每个包中的数据,作为一个map任务并行处理,这样,一个大文件,就可能被分为多个包分别进行处理。也不是将r个键/值列表对作为r 个reduce任务并行处理,而是通过一个哈希函数将所有的 key分组,同一个组中的键/值列表对在同一个reduce任务中处理(仍然是分别处理)。这样就可以控制map和reduce的任务数量。

    Google的MapReduce实现,大量使用了临时文件。假如有n个map任务,r个reduce任务,每个 map任务,将自己的输出按照key对于哈希函数的哈希值进行分组(共r 组),同一分组中的所有键/值对排序后写入一个临时文件中。这时保证了同一个文件中的所有键(key)是有序的。每个reduce任务执行时,将所有 map任务产生的属于自己的那个临时文件(共n个文件)读入,归并排序后将结果送给reduce函数处理。每个reduce任务产生一个最终的文件作为输出。这样,就需要一个分布式的文件系统作为底层支持。Google使用的是Google File System(GFS)。

    4. 总结
    限制了编程模型可以使并行计算十分简单易用,并且系统结构简单,易于实现。在这种模型下,MapReduce系统框架隐藏了并行处理,容错,负载均衡等细节问题,使没有并行处理和分布系统经验的程序员可以使用并行系统解决问题。

    这种限制了的编程模型仍然具有很强的表达能力,可以处理信息检索领域的许多问题,比如Distributed Grep, Count of URL Access Frequency, Reverse Web-Link Graph, Term-Vector per Host, Inverted Index, Word Count。
分享到:
评论

相关推荐

    悬索大振幅三维自由振动中的非线性耦合与动态张力研究(可复现,有问题请联系博主)

    内容概要:本文通过建立严格的数学模型并结合虚拟功能量法,推导了用于分析任意悬垂弹性缆绳大振幅自由振动的三维非线性方程组。所提出的多自由度模型考虑了轴向变形效应以及动态张力响应特性,不仅适用于小挠跨比条件,还能处理显著初始挠曲情况。研究通过数值仿真方法揭示了几何非线性和内部共振现象对缆索动力行为的重要影响,特别探讨了对称和平面对称模态之间的耦合作用及其引起的动力特性变化。 适用人群:工程力学专业人员、土木工程项目研究人员、结构工程师等,尤其涉及大型桥梁及高层建筑中缆索系统的动态特性的分析与设计的专业人士。 使用场景及目标:通过对特定初位移条件下电缆系统的非线性动态响应进行建模与模拟,能够帮助工程师预测和优化电缆系统的运动轨迹,同时为理解复杂环境下如强风或者地震荷载下的桥梁等基础设施提供理论支持。 其他说明:研究成果有助于指导实际应用中关于如何减轻因共振而导致的结构破坏风险的问题;并指出未来工作中需要进一步探索的方向,例如改进现有的简化假设来更好地适应实际工况。

    Python爬虫实例,一个简单的DEMO

    使用requests和BeautifulSoup库爬取豆瓣电影Top250的基本信息

    ISO 8015-2011 英文-中文对照 产品几何技术规范( GPS ) 基础概念、原则和规则 .rar

    标题中的“ISO 8015-2011”是指国际标准化组织(International Organization for Standardization)在2011年制定的一项标准,该标准是关于产品几何技术规范(Geometrical Product Specifications, 简称GPS)的一部分。GPS是工业界用于定义和控制产品几何尺寸和形状的一系列准则,旨在确保产品的设计、制造和检测过程中的精确性和一致性。 “基础概念、原则和规则”这部分内容涵盖了ISO 8015的核心理念,包括但不限于: 1. 几何公差:ISO 8015解释了如何定义和应用几何公差,这是控制产品几何特性的重要手段。它涉及尺寸公差、形状公差、位置公差、方向公差和跳动公差等。 2. 尺寸基准:标准介绍了选择和定义尺寸基准的重要性,这些基准用于确定零件或组件的定位和测量参考。 3. 形状和位置关系:ISO 8015阐述了如何理解和表达零件表面的形状以及它们之间的位置关系,比如平面度、圆度、直线度、平行度、垂直度等。 4. 公差带:公差带是允许几何特性变化的区域,标准中详细规定了如何定义和图解公差带。 5. 控制方法:标准涵盖了各种几何特性的测量和控制方法,如接触测量、光学测量、三坐标测量机(CMM)的应用等。 6. 符号和注释:ISO 8015规定了标准的图形符号和注释方式,以便于设计者和制造者清晰地传达几何要求。 7. 可接受性准则:标准提供了判断产品是否符合几何公差要求的准则,包括最大实体条件(MMC)、最小实体条件(LMC)和其他补偿原则。 “英文-中文对照”表明这份文档提供了双语对照,方便中国用户理解和应用这个国际标准,从而提升国内产品设计和制造的质量。 尽管压缩包中包含的“1.bat”和“一键改名.bat”文件与主题内容直接关联性不强,但它们可能是辅助工具,例如批量修改文件名的脚本,帮助用户更方便地管理和使用ISO 8015的相关资料。 ISO 8015-2011是一个关于产品几何技术规范的重要标准,对工程设计、质量控制和制造流程有着深远影响。理解并应用这些原则和规则能够提高产品的精度和可靠性,降低生产成本,增强市场竞争力。。内容来源于网络分享,如有侵权请联系我删除。

    2025 年全球产品库存数据集(10K+记录,14特征)CSV

    该数据集提供了产品库存的详细快照,非常适合物流优化、电子商务分析或供应链研究。它包括关键详细信息,如产品名称、类别、价格、库存数量等,这些详细信息来自一个假设的全球供应商数据库。我在从事货运物流优化项目时编译了这个,我希望它对其他探索类似挑战的人有用! 主要特点: 14 列,涵盖商品规格、定价、库存和标签。 示例数据包括 Home Appliances 等多个类别。 非常适合数据清理实践、可视化或预测建模(例如,库存耗尽)。 可能的用例: 根据库存和有效期优化货运物流。 分析不同产品类别的定价趋势。 使用标签和评级构建推荐系统。 笔记: 日期范围从制造到到期(例如,2023-2026 年)。 某些字段(例如,产品描述)可能需要改进 - 请随时对其进行改进! 欢迎对其他数据或改进提出建议。 让我知道您如何使用它 - 我很想听听您的反馈! 列描述 Product ID:这是分配给数据集中每个产品的唯一标识符,如“93TGNAY7”。它有助于区分一项与另一项。 Product Name(商品名称):商品的名称,例如 “Laptop”(笔记本电脑)。这是项目是什么的简单标签。 Product Category(商品类别): 这告诉您商品属于哪个类别,例如“Home Appliances”(家用电器)。它将相似的项目分组在一起。 Product Description(商品描述):商品的简要描述。在示例中,它列为“Product_XU5QX”,这可能是一个占位符 - 请随意将其替换为更有意义的内容! 价格: 商品的价格(以美元为单位),例如 253.17。它显示每件物品的价值。 库存数量: 当前有货的商品数量,例如 3。它对于跟踪库存水平非常有用。 保修期:产品的保修期,以年为单位,例如 2。它表示所提供的支持期限。 商品尺寸: 商品的实际尺寸(以厘米为单位),写为“16x15x15 厘米”(长 x 宽 x 高)。这有助于物流和存储规划。 生产日期: 商品的生产日期,例如“2023-01-01”。它便于跟踪产品年龄。 有效期: 商品到期时间(如适用),例如“2026-01-01”。这对于管理保质期非常有用。 SKU:库存单位的缩写,这是类似于“8NMFZ4”的代码,用于在库存系统中跟踪产品。 商品标签: 描述商品的标签列表(以逗号分隔),例如“VNU,NZ6”。这些可以表示功能、关键字或类别。 颜色/尺寸变体: 商品的可用颜色和尺寸,例如“绿色/大号”。它显示了客户可以选择的选项。 商品评分: 买家评分(满分 5 分),例如 2。它反映了反馈或质量感知。

    灵通LD3000 dmr对讲机写频软件

    灵通LD3000 dmr对讲机写频软件

    基于Wav2Lip384的AI主播项目整合包

    开源项目整合包 更多内容可以查阅 项目源码搭建介绍: 《我的AI工具箱Tauri+Django开源git项目介绍和使用》https://datayang.blog.csdn.net/article/details/146156817 图形桌面工具使用教程: 《我的AI工具箱Tauri+Django环境开发,支持局域网使用》https://datayang.blog.csdn.net/article/details/141897682

    Java项目,二手资源交易系统,欢迎学习

    Java项目,二手资源交易系统,欢迎学习。

    基于springboot框架的基于Javaweb的电影院购票系统的设计与实现(Java项目编程实战+完整源码+毕设文档+sql文件+学习练手好项目).zip

    传统办法管理信息首先需要花费的时间比较多,其次数据出错率比较高,而且对错误的数据进行更改也比较困难,最后,检索数据费事费力。因此,在计算机上安装电影院购票系统软件来发挥其高效地信息处理的作用,可以规范信息管理流程,让管理工作可以系统化和程序化,同时,电影院购票系统的有效运用可以帮助管理人员准确快速地处理信息。 电影院购票系统在对开发工具的选择上也很慎重,为了便于开发实现,选择的开发工具为Eclipse,选择的数据库工具为Mysql。以此搭建开发环境实现电影院购票系统的功能。其中管理员管理用户,新闻公告。 电影院购票系统是一款运用软件开发技术设计实现的应用系统,在信息处理上可以达到快速的目的,不管是针对数据添加,数据维护和统计,以及数据查询等处理要求,电影院购票系统都可以轻松应对。 关键词:电影院购票系统;SpringBoot框架,系统分析,数据库设计

    【毕业设计】基于uniapp微信小程序志愿者活动报名在线试卷考试系统【源码+论文+答辩ppt+开题报告+任务书】.zip

    【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。

    SAP SD-Class 17 SAP Error Message numbers and controls.mp4

    SAP SD-Class 17 SAP Error Message numbers and controls.mp4

    网络安全中CSRF与XSS攻击及其防护措施详解

    内容概要:本文主要介绍了两种重要的网络攻击手段——CSRF(跨站请求伪造)和XSS(跨站脚本攻击)。首先阐述了CSRF的定义、形成机制以及防范办法,其中包括设置Cookie属性SameSite值为严苛级别或者验证来源请求头部字段Referer/Origin;再介绍了一次性和敏感业务的两步确认法以及采用非Cookie形式的身份标识Token。关于XSS,文中详述三种具体表现形式即存储型、反射型与基于DOM的XSS,还讲解了应对这种风险的有效举措,例如检验与编码用户提交的信息,在服务器回应客户端的数据里加入相关保护性HTTP首部字段,选择更为保险的DOM API接口调用方式以及对Cookies采取额外安全性设定。 适用人群:从事信息安全维护工作的专业人员,尤其涉及Web应用防护的技术团队成员。 使用场景及目标:当用户构建自己的web应用程序时,理解和掌握这两种威胁的运作机理有助于提高自身项目抵御此类恶意行为的能力,保证用户数据安全。 其他说明:了解如何有效地预防这两种类型的攻击不仅对提升个人技能有帮助,同时也能增强所开发系统的健壮性。由于互联网环境复杂多变,不断关注最新的攻防动态十分必要。

    Invoke-WmiCommand.zip

    Invoke-WmiCommand

    CNN-master.zip

    CNN相关以及垃圾分类数据集

    01 DNS DHCP Telnet综合实验 毛佳宇(1).docx

    01 DNS DHCP Telnet综合实验 毛佳宇(1).docx

    建模大赛-风电机组强非线性气动特性拟合建模: 基于神经网络和多项式算法的精确快速计算方案

    建模大赛-风电机组强非线性气动特性拟合建模: 基于神经网络和多项式算法的精确快速计算方案

    纯电动汽车动力经济性仿真研究:Cruise与Simulink联合应用下的整车模型及策略解析,纯电动车辆动力经济性仿真研究:Cruise与Simulink联合仿真平台的应用,涵盖BMS、再生制动及电机驱

    纯电动汽车动力经济性仿真研究:Cruise与Simulink联合应用下的整车模型及策略解析,纯电动车辆动力经济性仿真研究:Cruise与Simulink联合仿真平台的应用,涵盖BMS、再生制动及电机驱动策略的详细解析与注释模型,Simulink整车控制器vcu应用层模型,实车在用的,支持仿真和生成 文件分类明确,每个普通功能和核心功能建有单独的库,存放在文件夹里。 有相应的表格,描述了信号的意思。 ,Simulink VCU应用层模型;实车应用;支持仿真与生成;文件分类明确;功能库分普通与核心;信号描述表格。,Simulink VCU应用层模型:实车仿真与功能库管理

    Maxwell电机与Simplorer联合仿真教程:电路搭建及矢量控制SVPWM算法实践,自定义电机模型替换指南,Maxwell电机与Simplorer联合仿真教程:电路搭建及矢量控制SVPWM算法实

    Maxwell电机与Simplorer联合仿真教程:电路搭建及矢量控制SVPWM算法实践,自定义电机模型替换指南,Maxwell电机与Simplorer联合仿真教程:电路搭建及矢量控制SVPWM算法实

    【毕业设计】基于微信平台的电子门票系统(小程序)【源码+论文+答辩ppt+开题报告+任务书】.zip

    【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。

    【毕业设计】基于微信小程序学生课程考勤系统【源码+论文+答辩ppt+开题报告+任务书】.zip

    【项目资源】:包含前端、后端、移动开发、操作系统、人工智能、物联网、信息化管理、数据库、硬件开发、大数据、课程资源、音视频、网站开发等各种技术项目的源码。包括STM32、ESP8266、PHP、QT、Linux、iOS、C++、Java、MATLAB、python、web、C#、EDA、proteus、RTOS等项目的源码。 【项目质量】:所有源码都经过严格测试,可以直接运行。功能在确认正常工作后才上传。 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【附加价值】:项目具有较高的学习借鉴价值,也可直接拿来修改复刻。对于有一定基础或热衷于研究的人来说,可以在这些基础代码上进行修改和扩展,实现其他功能。 【沟通交流】:有任何使用上的问题,欢迎随时与博主沟通,博主会及时解答。鼓励下载和使用,并欢迎大家互相学习,共同进步。

    非常好用的工具,支持PDF,KML,KMZ,SHP,PNG,CSV的互相转换,支持最多9种转换方式

    非常好用的工具,支持PDF,KML,KMZ,SHP,PNG,CSV的互相转换,支持最多9种转换方式

Global site tag (gtag.js) - Google Analytics