`

大数据即时计算产品的一般原理介绍----MPP架构

 
阅读更多

什么是MPP架构?

      众所周知,基于Map-Reduce模式的Hadoop擅长数据批处理,不是特别符合即时查询的场景。而业界当前做大数据实时查询一般都采用MPP架构,MPP全称Massively Parallel Processing,即大规模并行处理系统。大家都知道在数据库架构设计中,目前主要有Shared Everthing、和Shared Storage、Shared Nothing这三种主流架构,概要架构如下图所示:

Shared Everthting:完全透明共享CPU/MEMORY/IO,并行处理能力是最差的,性能的提升严重依赖单机硬件的升级并总有天花板。
Shared Storage:各个处理单元使用自己的私有 CPU和Memory,共享磁盘系统。典型的代表Oracle Rac,它是数据共享。

Shared Nothing:各个处理单元都有自己私有的CPU/内存/硬盘等,各处理单元之间通过协议通信,并行处理和扩展能力更好。业界如Vertica , Greenplum 都采用该架构来进行大数据实时计算和分析。

MPP作为海量数据实时分析架构也正是采用了Shared Nothing架构,是一种不共享架构,每个节点都有自己的cpu、内存和存储,节点之间信息交互只能通过网络连接实现。

MPP架构的优势:

  • 采用Shared Nothing架构可轻松通过扩展机器节点(处理单元)扩展整个系统的分布式存储和计算能力。
  • 任务并行执行能力强,充分发挥本地计算的能力,数据无共享、无I/O冲突,无锁资源竞争,计算速度快,例如实测对比GreenPlum和Hive,GP比Hive计算速度高出至少一个数量级。
  • 成本低,有弹性。


大数据即时分析为什么使用MPP架构?

      传统数据库并不是专为数据分析而设计,随着大数据时代的到来,面向事务性处理的传统数据库和面向分析的分析型数据库逐步走向分离,从上一段MPP架构的优势可以看出,扩展性好、成本低、在控制网络传输带宽和交互数据量前提下进行大数据即时分析计算速度较快性价比高是互联网公司采用MPP架构作为海量数据即时分析的主要原因,我们公司对于大数据实时分析需求一直都非常渴求,在面对十亿、百亿等数据量下Higo和garuda实际也是采用了MPP架构模式,Higo基于solr和lucene开源软件进行了改造,其中充分利用solr的可分布式的能力进行数据统计,计算节点由solr core承担,计算所需的索引文件也是分布式不共享存储在各个solr core中,通过一个管理节点对整个节点进行调度和管理并进行各节点数据的汇总或合并;Garuda在架构设计上也是采用MPP架构来充分发挥本地计算的能力,采用了分区将计算任务通过各节点同时并行进行计算最终合并结果,具体设计如下图:
                                      

分享到:
评论

相关推荐

    大数据智能分析解决方案介绍-IBM64.pptx

    数据仓库,尤其是IBM的工作负载均衡MPP架构,为高性能的在线分析处理(OLAP)提供了平台。此外,IBM还提供了数据可视化和企业级搜索引擎,以增强数据洞察力和决策制定能力。 企业在大数据采用过程中通常会经历四个...

    大数据中MPP及内存数据库技术及产品案例.rar

    1. **Greenplum**: 这是一个基于MPP架构的数据仓库系统,由Pivotal公司开发。Greenplum能够处理PB级别的数据,并提供高度并行的SQL查询处理。它广泛应用于电信、金融和零售行业,帮助企业进行大规模数据分析。 2. *...

    lyu 大数据期末考试资料

    - **MPP 架构的新型数据库集群**:针对大规模数据处理进行了优化。 - **基于 Hadoop 的技术扩展**:通过扩展和封装Hadoop来实现互联网大数据的存储和分析。 - **大数据一体机**:专为大数据处理设计的软硬件一体化...

    阿里云分析型数据库ADB产品介绍--ALF

    它基于阿里巴巴自主研发的MPP(Massively Parallel Processing)架构,并结合分布式检索技术,能在毫秒级别内对千亿级别的数据进行多维分析,实现大数据的即时洞察。其主要特点包括: 1. **大容量计算能力**:ADB...

    199-实时数据仓库建设体系.pdf

    ### 实时数据仓库建设体系知识点解析 #### 一、数据仓库概述 - **定义**: 数据仓库(Data Warehouse)是一种专门...通过对实时数据仓库的概念、特点、架构及应用场景的深入理解,可以更好地把握其实现原理和优势所在。

    大数据智能分析解决方案介绍.pptx

    数据仓库采用MPP(大规模并行处理)架构,平衡工作负载,支持高性能的在线分析处理(OLAP)和混合操作。数据可视化和企业级搜索引擎帮助企业快速理解和展示大规模分析结果。 大数据的应用案例广泛,例如Seton医疗...

    大数据可视化分析平台介绍.docx

    3. 数据计算分析:平台需要支持离线计算、即时查询和实时计算,以适应不断增长的数据量,并确保业务系统的稳定和高效运行。 4. 数据关联集中:通过分析和建立关键数据之间的关联关系,将分散的数据整合成有意义的...

    大数据存储技术研究.docx

    NewSQL数据库,如Greenplum、Vertica、Asterdata以及GBase 8a MPP Cluster,采用大规模分布式计算(MPP)架构,基于X86服务器,利用本地硬盘存储,并运行在Linux操作系统上。这些系统具备强大的横向扩展能力和内置的...

    我对大数据的看法.pdf

    云计算,作为一种按需付费的服务模式,整合了分布式计算、并行计算、网络存储、虚拟化和负载均衡等技术,为大数据提供了一个灵活的基础架构。 【基于云计算的数据挖掘优势】 1. 大规模数据挖掘的需求推动了云计算...

    智慧工厂大数据融合应用平台建设综合解决方案.pptx

    5. **大数据架构**:包括ODS/DSA、面向主题的历史和汇总的DW,以及DMDMAPI接口。大数据处理技术如MPP数据库、Hadoop、OLTP数据仓库、元数据索引、列存储、数据压缩、SQL优化等,确保数据的快速处理和分析。 6. **...

    大数据技术交流(PPT 78页).pptx

    【大数据技术介绍】 大数据是指那些以传统方法难以管理和处理的海量数据。它的崛起主要源于互联网、云计算、移动设备和物联网的迅速发展。大数据的特点可以用4V来概括:体积(Volume)、多样(Variety)、价值...

    华为大数据

    此外,华为还关注数据处理架构的演进,提出了从SMP(共享内存多处理器)到SMPP(共享内存多处理器+MPP)再到Hadoop的发展路径,并强调了成本效益的重要性。 #### 结论 综上所述,华为大数据解决方案不仅提供了一套...

    实时数仓VS离线数仓 (2).pdf

    - **离线大数据架构**:随着数据规模的扩大,引入大数据技术,如Hadoop+Hive或Spark,以及Oracle RAC和GreenPlum等MPP数据库,以处理海量数据。 - **Lambda架构**:为满足实时性需求,Lambda架构引入实时计算链路...

    Paraccel-dell

    综上所述,Paraccel-dell方案通过MPP架构在大数据环境下的高性能分析能力,结合了ParAccel分析平台和Dell基础设施的强大性能,为现代企业提供了从数据中获取即时洞察力的能力。通过持续迭代和交互的数据探索过程,...

    海量数据分析架构

    ### 海量数据分析架构知识点详解 #### 一、海量数据分析架构概述 在当前的大数据时代背景下,企业面临着处理海量数据的挑战。为了更好地理解和利用这些数据,构建一套高效的海量数据分析架构变得至关重要。本章节...

    分布式数据仓库

    1. **任务并行执行**:MPP架构下的数据库可以将复杂的查询分解为多个小任务,并行地运行这些任务,显著提高处理速度。 2. **数据分布式存储**:数据按照特定规则分布到不同的节点上,利用数据本地化策略减少网络传输...

    辨析数仓、大数据、数据中台的实质(内附21张架构图) (2).pdf

    大数据平台通常包括MPP数据库、Hadoop集群等组件,能够处理PB级别的数据,提供高度弹性和扩展性。大数据平台的优势在于其灵活性和对新技术的接纳,能够在处理大规模数据的同时,支持快速迭代和实验。 数据中台与...

    华为大数据平台规划方案汇报24.pptx

    内存计算、大规模并行处理(MPP)和复杂事件处理(CEP)等技术提高了处理速度和实时分析能力,使运营商能够做出即时决策。 【电信运营商的应用价值】 对于电信运营商,大数据分析有助于提升业务效率和客户体验。...

    GaussDB(WMS)考试题库,HCIP,华为认证题库

    - **Shared-Nothing** 架构非常适合大规模并行处理(MPP),因为每个处理器都独立工作,减少了资源竞争的可能性,提高了扩展性和性能。 - **Shared-Everything** 架构通常用于小型系统,但由于资源的共享可能会...

    数据驱动的现代企业大数据平台方案.pdf

    在技术选型上,企业可能会考虑不同的架构,如传统的MPP(大规模并行处理)系统,或者采用无共享架构的MPP系统,甚至是云原生的MPP解决方案。这些技术的选择主要取决于企业的规模、预算、性能需求和扩展性考虑。 总...

Global site tag (gtag.js) - Google Analytics