`
jiezhu2007
  • 浏览: 246555 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
博客专栏
Cfa1f850-3fc3-3a36-9cd8-c3415c9610c6
hadoop技术学习
浏览量:144781
Group-logo
大数据产业分析
浏览量:2991
社区版块
存档分类
最新评论

MPP DB 是 大数据实时分析系统 未来的选择吗?

阅读更多

大数据领域,实时分析系统(在线查询)是最常见的一种场景,前面写了一个《实时分析系统(HIVE/HBASE/IMPALA)浅析》讨论业界当前常见的方案。互联网公司用得比较多是HIVE/HBASE,如腾讯基于HIVE深度定制改造,改名为TDW,小米等公司选用HBASE等。关于HIVE/HBASE/IMPALA介绍等可以看我前面的文章。

当前在实时分析系统中,最难的是多维度复杂查询,目前没有一个很好的解决方案,这两天和人讨论到MPP DB(分布式数据库,以Greenplum为最典型代表)。如果从性能来讲,MPP DB在多维复杂查询性能确实要好于HIVE/HBASE/IMPALA等,因此有不少声音认为,MPP DB是适合这种场景的未来的解决方案。MPP DB看似对多维度复杂查询性能较好,但是同时有两个致命的缺点,大家选型的时候不得不考虑:

1、扩展性:

MPP DB都号称都能扩展到1000个节点以上,实际在应用过程中,就我目前从公开资料看到的不超过100个节点,如支付宝中用Greenplum来做财务数据分析的最大一个集群60多台机器。另外和Greenplum公司交流,在广东移动最大的用来做数据存储的,也就100台以内。这和hadoop动不动4,5千个节点一个节点集群简直不在一个数量级上。

为什么MPP DB扩展性不好?

有很多原因,有产品成熟度,也有应用广度的问题,但是最根本的还是架构本身的问题。讲到架构这里就要先讲下CAP原则:

Consistency(一致性), 数据一致更新,所有数据变动都是同步的
Availability(可用性), 好的响应性能
Partition tolerance(分区容错性可靠性

定理:任何分布式系统只可同时满足二点,没法三者兼顾。
忠告:架构师不要将精力浪费在如何设计能满足三者的完美分布式系统,而是应该进行取舍。

MPP DB还是基于原DB扩展而来,DB里面天然追求一致性(Consistency),必然带来分区容错性较差。集群规模变得太大,业务数据太多时,MPP DB的元数据管理就完全是一个灾难。元数据巨大无比,一旦出错很难恢复,动不动导致毁库。

所以MPP DB要在扩展性上有质的提示,要对元数据,以及数据存储有架构上的突破,降低对一致性的要求,这样扩展性才能提升,否则的话很难相信一个MPP DB数据库是可以容易扩展的。

 

2、并发的支持:

一个查询系统,设计出来就是提供人用的,所以能支持的同时并发越高越好。MPP DB核心原理是一个大的查询通过分析为一一个子查询,分布到底层的执行,最后再合并结果,说白了就是通过多线程并发来暴力SCAN来实现高速。这种暴力SCAN的方法,对单个查询来说,动用了整个系统的能力,单个查询比较快,但同时带来用力过猛的问题,整个系统能支持的并发必然不高,从目前实际使用的经验来说,也就支持50~100的并发能力。

当前HBASE/IMPALA应对复杂查询时,也是通过全盘SCAN的方法来实现的,这种场景下,硬盘数量越多越好,转速越快越好。HBASE为什么号称支持上千并发,这也是在特定的场景下(查询时带用户标示,即带row key)才能实现的,复杂查询场景下,什么系统都歇菜。

 

所以MPP DB应用场景已经非常明显了,适合小集群(100以内),低并发的(50左右)的场景。MPP DB未来是不是趋势,我不知道,但是至少目前来看,用MPP DB来应对大数据的实时分析系统是非常吃力的。

 
 

  • 大小: 96.2 KB
1
0
分享到:
评论

相关推荐

    大数据现状与趋势分析.pdf

    大数据的应用不再局限于传统的数据仓库和商务智能,而是涵盖了实时分析、内存数据库、NoSQL解决方案等多个方向。 Intel Information Technology指出,大数据市场的发展趋势包括了数据分析的深化和实时性提升。例如...

    大数据技术发展趋势.pptx

    大数据分析架构的一个关键特征是在线处理,这要求系统具备实时性。随着技术的进步,内存数据库和MPP(Massively Parallel Processing)数据库如Greenplum和Vertica,以及后来的Spark,提供了更高效的数据处理能力。...

    工业大数据平台介绍v20.ppt

    此外,分布式数据库如HBase和MPP DB用于存储加工后的数据,支持深度分析和数据挖掘。 在能力层,平台提供数据统一的服务和开发接口,支持SQL、FTP、WS等多种协议,使得开发者可以方便地访问和操作数据。同时,平台...

    大数据应用融合解决方案.pptx

    "大数据应用融合解决方案" 以下是从给定的文件中生成的相关知识点: 一、大数据时代的来临 * 云计算、移动计算、社交媒体和大数据分析推动...* 分析需求:如何更好地了解市场和客户、如何帮助企业对未来作出预测等。

    大规模异构数据并行处理系统的设计、实现与实践.docx

    尤其在面对结构化、半结构化及非结构化数据时,传统的关系型数据库系统显得力不从心,无法满足现代企业的实时数据处理需求。因此,构建一个能够高效处理大规模异构数据的并行处理系统成为当务之急。 #### 二、当前...

    大数据架构稳定性保障实践(顺丰)

    MPP是一种非共享的数据库集群架构,每个节点都有独立的磁盘存储系统和内存系统,数据按照特定规则分布在各个节点上。这种架构的优势在于其可扩展性、高可用性、高性能以及优秀的性价比,特别是在中小规模的应用场景...

    K-DB新一代融合数据处理技术展望_金学东@浪潮.pdf

    K-DB技术涉及多个方面的数据分析与处理,包括OLTP(联机事务处理)、OLAP(联机分析处理)、大数据及非结构化数据处理等。本文将详细阐述这些技术的特点、优势与不足,并展望未来技术的发展方向。 OLTP(联机事务...

    2. 企业的大数据平台.pptx

    - **阶段3:Big Data生产环境**:在这个阶段,Hadoop成为企业关键业务系统的重要组成部分,不仅服务于多个部门,还会与其他Big Data服务如MPPDB、NoSQL等进行集成。 ##### 3.2 虚拟化平台的特点 - **自动化部署与...

    Palo:百度面向分析的大规模数据库系统

    Palo是百度开发的大规模数据库系统,主要面向分析型数据处理,采用了MPP(大规模并行处理)架构,用于支持高效的交互式数据分析。在深入分析Palo的知识点之前,有必要先了解一些背景知识,包括OLTP与OLAP的区别、...

    IBM DB2通用数据库商业智能教程

    它不仅支持传统的SQL查询语言,还具备强大的数据管理和分析功能,是构建商业智能系统的重要基石。 ### 二、DB2的特性与优势 1. **高可用性和可靠性**:DB2提供了多种机制来确保数据的完整性和系统的连续运行,如...

    大数据领域的数据库有哪些分类

    ### 大数据领域的数据库分类详解 #### 一、按照数据模型分类 **1. 关系型数据库(RDBMS)** - **特点**: 关系型数据库是最为传统的数据库类型之一,其核心特点是采用表格形式来组织和存储数据,并且遵循固定的...

    Where will BigData technology go?under the trend of HTAP.pdf

    总的来说,大数据技术的未来趋势是将OLTP和OLAP的能力融合,提供一个既能处理大量事务又能支持实时分析的平台。分布式SQL数据库在保持SQL的易用性和强大功能的同时,利用分布式系统的优势,有望成为这一领域的主导...

    大数据分析的杀手锏.pdf

    4. **IBM DB2智能分析系统和Netezza** - IBM提供了一系列数据仓库和分析产品,如基于DB2的智能分析系统和Netezza,这些产品旨在提升操作和分析数据的效率,减少DBA的工作量和查询时间。 5. **其他产品** - 还有其他...

    关于BIG DATA最前沿发展的情况的介绍

    总的来说,大数据前沿的发展涉及多个层面的技术创新,包括缓存优化、数据库并行处理、分布式文件系统和灵活的非关系型数据库,这些技术共同构成了处理大数据问题的基石,推动着企业和行业向数据驱动的智慧未来迈进。

    分布式数据库的架构分析.docx

    尽管 Oracle 不打算开发全新的 MPP 数据库,但其 Sharding 功能旨在应对未来物联网等新兴应用的需求。 #### 五、评估分布式数据库的关键因素 1. **存储引擎的特点**:深入了解所选数据库的存储引擎特性,如其对...

    设备名称大数据中心机房设备.docx

    2. 设备名称大数据中心机房设备需要运用先进信息技术构造大数据支撑平台,满足海量数据的存储,满足大量数据分析的处理能力要求,有力支撑医院医疗业务与应用系统未来的发展。 大数据中心机房设备架构设计: 1. ...

    01-告别传统数仓,迈向智能数据湖,释放数据价值-华为杨志勇.pdf

    5. 技术栈和架构变革:文章提到了一系列的技术组件,包括RelationalDB、MPPDB、Hadoop、Streaming、GaussDB、FusionInsight等,这反映了数据处理和存储技术的多样化和整合需求。 6. 存算协同与资源池化:FusionData...

    分布式数据库应用趋势分析.pdf

    近年来,以PC服务器为基础的新型分布式架构不断涌现,不仅用于数据仓库,还扩展到数据分析、交互式处理、大数据计算、流计算等更广泛的业务场景。 在分布式数据库的发展过程中,前端应用和中间件的演变相对容易实现...

    从架构特点到功能缺陷,重新认识分析型分布式数据库

    分析型分布式数据库是近年来在大数据领域兴起的一种新型数据库系统,它主要针对大规模数据处理和分析的场景,与传统的关系型数据库(RDBMS)有着显著的区别。RDBMS以关系模型为核心,支持ANSI SQL接口,并提供事务...

    开源数据库

    ### 开源数据库架构初步探讨与主流开源架构搭建 #### 一、开源数据库概述 开源数据库是指那些源代码公开,用户可以自由使用...未来,随着云计算和大数据技术的不断进步,开源数据库领域也将迎来更多新的机遇和挑战。

Global site tag (gtag.js) - Google Analytics