`
raymond2006k
  • 浏览: 293648 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

专家对 MapReduce 批评的要点

阅读更多
原文来自:
DeWitt和Stonebraker对MapReduce的批评
我客观的记录一下其中的要点,以分享,如下:

4.  MapReduce is missing features

All of the following features are routinely provided by modern DBMSs, and all are missing from MapReduce:

    * Bulk loader — to transform input data in files into a desired format and load it into a DBMS
    * Indexing — as noted above
    * Updates — to change the data in the data base
    * Transactions — to support parallel update and recovery from failures during update
    * Integrity constraints — to help keep garbage out of the data base
    * Referential integrity — again, to help keep garbage out of the data base
    * Views — so the schema can change without having to rewrite the application program

In summary, MapReduce provides only a sliver of the functionality found in modern DBMSs.



分享到:
评论

相关推荐

    MapReduce原理要点和难点以及应用实例.zip

    MapReduce是一种分布式计算模型,由Google在2004年提出,主要用于处理和生成大规模数据集。这个模型将复杂的并行计算任务分解为两个主要阶段:Map(映射)和Reduce(规约),同时结合了一个中间数据存储阶段,称为...

    mapreduce mapreduce mapreduce

    Reduce阶段是MapReduce的第二步,它负责聚合Map阶段产生的中间键值对。 Reduce任务按照相同的键将中间键值对分组,然后应用用户定义的Reduce函数(Reducer)来处理这些分组的数据。Reducer通常用于汇总、聚合或者做...

    基于MapReduce实现决策树算法

    6. 决策树算法在MapReduce中的实现细节:在基于MapReduce实现决策树算法中,需要对决策树算法的实现细节进行详细的设计和实现,例如对树的节点进行实现、对决策树的分裂和叶节点的计算等。 7. MapReduce框架在决策...

    实验项目 MapReduce 编程

    通过实践,学生能够加深对MapReduce分区、分布式运行等核心概念的理解,并锻炼解决问题的能力。 总的来说,这个实验项目全面地覆盖了MapReduce的基础知识和实践操作,对于提升学生的Hadoop技能和大数据处理能力有着...

    MapReduce基础.pdf

    - **键值对的使用**:在MapReduce中,数据总是以键值对的形式存在。键用于标识数据,值则包含了实际的数据内容。这种结构使得数据可以很容易地被组织和处理。 - **数据分区**:MapReduce中的数据会被根据键的范围...

    Hadoop mapreduce实现wordcount

    【标题】Hadoop MapReduce 实现 WordCount MapReduce 是 Apache Hadoop 的核心组件之一,它为大数据处理提供了一个分布式计算框架。WordCount 是 MapReduce 框架中经典的入门示例,它统计文本文件中每个单词出现的...

    mapreduce项目 数据清洗

    在这个"MapReduce项目 数据清洗"中,我们将探讨如何使用MapReduce对遗传关系族谱数据进行处理和清洗,以便进行后续分析。 1. **Map阶段**: 在Map阶段,原始数据被分割成多个小块(split),然后分配到不同的工作...

    学生mapreduce成绩分析

    MapReduce是一种分布式计算模型,由Google在2004年提出,主要用于处理和生成大规模数据集。这个模型将复杂的计算任务分解成两个主要阶段:Map(映射)和Reduce(化简),使得在大规模分布式环境下处理大数据变得可能...

    《SQL对MapReduce及与之相关的流数据处理的支持》国际提案研究.pdf

    《SQL对MapReduce及与之相关的流数据处理的支持》国际提案的研究主要关注如何将MapReduce这一大数据处理框架与SQL数据库语言相结合,以提高大数据处理的效率和便利性。提案的提出背景是随着大数据时代的到来,...

    hadoop mapreduce编程实战

    MapReduce 编程模型是基于 key-value 对的编程模型。它将数据处理过程分为两个阶段:Map 阶段和 Reduce 阶段。在 Map 阶段,数据被分割成小块,每个小块都被处理一次;在 Reduce 阶段,对于每个小块的处理结果进行...

    MapReduce发明人关于MapReduce的介绍

    - **`map`操作**:对输入数据集中的每个逻辑记录应用`map`函数,计算出一系列中间键/值对。这个阶段主要是将原始数据转换为更易于处理的形式。 - **`reduce`操作**:对于所有具有相同键的值,应用`reduce`函数进行...

    使用MyEclipse实现MapReduce

    MapReduce的核心在于Map函数和Reduce函数,Map函数负责对输入数据进行处理并生成中间键值对,而Reduce函数则将这些中间键值对进行聚合,产生最终结果。 1.1.1 MapReduce作业运行流程 MapReduce的工作流程通常包括...

    大数据 hadoop mapreduce 词频统计

    MapReduce是一种分布式计算模型,由Google提出,Hadoop对其进行了实现。在MapReduce中,数据处理分为两个主要阶段:Map阶段和Reduce阶段。Map阶段将原始数据分解成小块,然后对每个小块进行并行处理;Reduce阶段则...

    斯坦福大学MapReduce示例

    MapReduce是一种分布式编程模型,由Google在2004年提出,主要用于处理和生成大规模数据集。...通过对文件中的错误进行修复,我们可以更好地理解和掌握大数据环境下算法的实现,以及MapReduce编程模型的工作原理。

    MapReduce的实现细节

    ### MapReduce的实现细节 #### 一、MapReduce框架概述 MapReduce是一种广泛应用于大数据处理领域的分布式编程模型,最初由Google提出并在其内部系统中得到广泛应用。随着开源社区的发展,尤其是Apache Hadoop项目...

    Mapreduce实验报告.doc

    MapReduce是一种分布式计算模型,由Google提出,用于处理和生成大规模数据集。它将复杂的分布式系统操作抽象成简单的编程模型,使开发人员能够专注于编写Map和Reduce函数,从而实现大规模数据处理。 MapReduce的...

    【MapReduce篇07】MapReduce之数据清洗ETL1

    MapReduce之数据清洗ETL详解 MapReduce是一种基于Hadoop的分布式计算框架,广泛应用于大数据处理领域。数据清洗(Data Cleaning)是数据处理过程中非常重要的一步,旨在清洁和转换原始数据,使其更加可靠和有用。...

Global site tag (gtag.js) - Google Analytics