`

Hadoop白皮书(3):分布式计算框架MapReduce简介

阅读更多

MapReduce 是一个高性能的批处理分布式计算框架,用于对海量数据进行并行分析和处理。与传统数据仓库和分析技术相比,MapReduce 适合处理各种类型的数据,包括结构化、半结构化和非结构化数据。数据量在 TB 和 PB 级别,在这个量级上,传统方法通常已经无法处理数据。MapReduce 将分析任务分为大量的并行 Map 任务和 Reduce 汇总任务两类。Map 任务运行在多个服务器上。目前部署的最大集群有 4000 个服务器。

MapReduce 适合处理的任务

复杂的数据:业务数据不能适合行列的数据库结构。数据可能来源于多种格式:多媒体数据、图像数据、文本数据、实时数据、传感器数据等等。当有新的数据来源时,可能会有新的数据格式的出现。MapReduce 可以存放和分析各种原始数据格式。

超大规模数据:很多公司仅仅应为数据存放成本过高就放弃了很多有价值的数据。新的数据来源使得问题更为严重,新的系统和用户带来比以往更多的数据。Hadoop的创新构架使用低成本的常规服务器储存和处理海量的数据。

新的分析手段:海量复杂数据分析需要使用新的方法。新的算法包括自然语言分析、模式识别等。只有 Hadoop 的构架才能方便高效地使用新的算法来处理和分析海量数据。


MapReduce 框架的核心优势:

1. 高度可扩展,可动态增加/削减计算节点,真正实现弹性计算。

2. 高容错能力,支持任务自动迁移、重试和预测执行,不受计算节点故障影响。

3. 公平调度算法,支持优先级和任务抢占,兼顾长/短任务,有效支持交互式任务。

4. 就近调度算法, 调度任务到最近的数据节点,有效降低网络带宽。

5. 动态灵活的资源分配和调度,达到资源利用最大化,计算节点不会出现闲置和过载的情况;同时支持资源配额管理。

6. 经过大量实际生产环境使用和验证,最大集群规模在 4000 个计算节点。


ref:http://cloud.watchstor.com/infra-139991.htm
  • 大小: 101.4 KB
分享到:
评论

相关推荐

    中科曙光XData-Hadoop大数据软件白皮书v2.0.pdf

    - **Yarn(Yet Another Resource Negotiator)**:Hadoop通用资源管理系统,支持多种计算框架如MapReduce、Spark等,提高了资源利用率。 - **Zookeeper**:提供分布式协调服务,确保系统的一致性和高可用性。 - **...

    vmware虚拟机下hadoop集群安装过程

    Hadoop是一种开源的分布式计算框架,源于谷歌的两份开创性白皮书。由于大数据的崛起,Hadoop在近十年间经历了显著的发展,被誉为下一个Linux,因为其具备强大的扩展性和线性可伸缩性。即使在较小规模的虚拟机集群上...

    Hadoop大数据

    Hadoop的分布式计算环境MapReduce,同样拥有一个与Google MapReduce类似的编程模型。其运行环境由一个任务管理器JobTracker和多个任务跟踪器TaskTracker组成,负责管理和调度数据处理任务。而Hive的出现,是一种建立...

    vmware虚拟机下hadoop集群安装过程.pdf

    Hadoop是一种开源的分布式计算框架,源于谷歌的两份开创性白皮书。随着大数据时代的到来,Hadoop因其强大的分布式处理能力,被广泛视为下一个Linux级别的操作系统。对于学习和研究Hadoop,搭建一个小型的Hadoop集群...

    H3C大数据产品技术白皮书.doc

    H3C大数据平台基于Apache Hadoop 2.0和MPP分布式数据库的混合计算框架,旨在提供全面的大数据解决方案。它强调高性能、高可用性和高扩展性,适用于大规模数据处理场景,提供成本效益高的计算和存储能力。该平台不仅...

    阿里云 专有云企业版 V3.6.1 E-MapReduce 技术白皮书 - 20181105.pdf

    阿里云专有云企业版E-MapReduce是阿里云推出的一款基于开源Hadoop和Spark生态的分布式计算服务,旨在为企业提供高效、灵活的大数据处理解决方案。该技术白皮书详细介绍了E-MapReduce在V3.6.1版本中的特性、架构、...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...

    MapReduce学习文档

    MapReduce是一种分布式计算模型,由Google在2004年的OSDI会议上提出,主要用于处理和生成大规模数据集。这个模型将复杂的大规模数据处理任务分解为两个主要阶段:Map(映射)和Reduce(化简),并且在分布式环境中...

    FusionInsight HD技术白皮书.pdf

    - **分布式批处理引擎MapReduce**:经典的并行计算框架,用于处理和生成大数据集。MapReduce将任务拆分为映射和化简两个阶段,适合离线数据处理。 - **分布式数据库HBase**:基于Hadoop的NoSQL数据库,提供随机读写...

    华为FusionInsight HD技术白皮书.pdf

    YARN作为Hadoop的下一代资源管理系统,负责集群资源的分配和调度,支持多租户和多种计算框架,提高了系统的资源利用率和整体性能。 2.4 数据仓库组件 Hive Hive提供了SQL-like接口,使得非编程背景的用户也能对...

    大数据白皮书2018

    白皮书中详述了Hadoop生态系统的发展趋势,包括MapReduce、YARN等组件的演进。 三、Spark技术 Spark是处理大规模数据的快速计算引擎,2018年已成为大数据处理领域的重要工具。相较于Hadoop,Spark在内存计算、实时...

    云计算关键技术相关文档

    本资料集包含了对云计算及其关键技术的深入探讨,包括云计算技术的研究现状、伯克利云计算白皮书的概述、云计算的入门指南,以及分布式计算开源框架Hadoop的介绍。 1. 云计算技术研究现状综述: 随着大数据、...

    FusionInsight HD技术白皮书.docx

    它还支持多种计算框架,如MapReduce、Spark等。 2.3.2 Superisor Scheduler Superior Scheduler是FusionInsight HD中的高级调度器,进一步优化了YARN的资源分配策略,提供更细粒度的资源调度和优先级调整,以满足...

    Virtualized Hadoop Performance with VMware vSphere 6 on Servers

    Hadoop能够有效地处理PB级别的数据,并且可以在廉价的商品硬件上构建分布式计算集群。 #### Hadoop基准测试 ##### 测试指标 为了全面评估Hadoop在虚拟化环境下的性能,本研究采用了一系列标准的基准测试方法。这些...

    2016、2018、2019、2020大数据白皮书.zip.zip

    Hadoop是分布式文件系统HDFS和MapReduce计算模型的组合,Spark则以其内存计算和流处理能力而著名,Flink则在实时数据处理上表现出色。 3. 数据存储技术:如HBase、Cassandra、MongoDB等NoSQL数据库,用于处理非结构...

    大数据标准化白皮书.zip

    这份白皮书深入探讨了大数据的关键技术和标准,为行业提供了一套完整的框架和指导原则。下面将详细阐述其中涉及的主要知识点。 一、大数据定义与特征 大数据是指在规模、复杂性、增长速度等方面超过传统数据处理...

    白皮书里的大数据.zip

    3. **大数据技术**:Hadoop、Spark、NoSQL数据库、MapReduce、云存储和流处理等技术是处理大数据的核心工具。它们提供了分布式计算、实时分析和大规模存储的能力。 4. **大数据分析**:包括数据挖掘、机器学习和...

Global site tag (gtag.js) - Google Analytics