MPP DB 是大数据实时分析系统 -

weitao1026

浏览: 1064536 次
性别:
来自: 上海

最近访客更多访客>>

vicento4

723499280

liuzidong

s1986q

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

MPP DB 是大数据实时分析系统

博客分类：

mysql/oracle/sqlserver/db2/mongdb/redis/neo4j/GreenPlum/Teradata/hsqldb/Derby/sakila

大数据领域，实时分析系统（在线查询）是最常见的一种场景，前面写了一个《实时分析系统 (HIVE/HBASE/IMPALA) 浅析》讨论业界当前常见的方案。互联网公司用得比较多是 HIVE/HBASE ，如腾讯基于 HIVE 深度定制改造，改名为 TDW ，小米等公司选用 HBASE 等。关于 HIVE/HBASE/IMPALA 介绍等可以看我前面的文章。

当前在实时分析系统中，最难的是多维度复杂查询，目前没有一个很好的解决方案，这两天和人讨论到 MPP DB （分布式数据库，以 Greenplum 为最典型代表）。如果从性能来讲， MPP DB 在多维复杂查询性能确实要好于 HIVE/HBASE/IMPALA 等，因此有不少声音认为， MPP DB 是适合这种场景的未来的解决方案。 MPP DB 看似对多维度复杂查询性能较好，但是同时有两个致命的缺点，大家选型的时候不得不考虑：

1、扩展性：

MPP DB 都号称都能扩展到 1000 个节点以上，实际在应用过程中，就我目前从公开资料看到的不超过 100 个节点，如支付宝中用 Greenplum 来做财务数据分析的最大一个集群 60 多台机器。另外和 Greenplum 公司交流，在广东移动最大的用来做数据存储的，也就 100 台以内。这和 hadoop 动不动 4,5 千个节点一个节点集群简直不在一个数量级上。

为什么 MPP DB 扩展性不好？

有很多原因，有产品成熟度，也有应用广度的问题，但是最根本的还是架构本身的问题。讲到架构这里就要先讲下 CAP 原则：

Consistency( 一致性 ), 数据一致更新，所有数据变动都是同步的
Availability( 可用性 ), 好的响应性能
Partition tolerance( 分区容错性 ) 可靠性

定理：任何分布式系统只可同时满足二点，没法三者兼顾。
忠告：架构师不要将精力浪费在如何设计能满足三者的完美分布式系统，而是应该进行取舍。

MPP DB 还是基于原 DB 扩展而来， DB 里面天然追求一致性（ Consistency ），必然带来分区容错性较差。集群规模变得太大，业务数据太多时， MPP DB 的元数据管理就完全是一个灾难。元数据巨大无比，一旦出错很难恢复，动不动导致毁库。

所以 MPP DB 要在扩展性上有质的提示，要对元数据，以及数据存储有架构上的突破，降低对一致性的要求，这样扩展性才能提升，否则的话很难相信一个 MPP DB 数据库是可以容易扩展的。

2、并发的支持：

一个查询系统，设计出来就是提供人用的，所以能支持的同时并发越高越好。 MPP DB 核心原理是一个大的查询通过分析为一一个子查询，分布到底层的执行，最后再合并结果，说白了就是通过多线程并发来暴力 SCAN 来实现高速。这种暴力 SCAN的方法，对单个查询来说，动用了整个系统的能力，单个查询比较快，但同时带来用力过猛的问题，整个系统能支持的并发必然不高，从目前实际使用的经验来说，也就支持50～100的并发能力。

当前HBASE/IMPALA应对复杂查询时，也是通过全盘SCAN的方法来实现的，这种场景下，硬盘数量越多越好，转速越快越好。HBASE为什么号称支持上千并发，这也是在特定的场景下（查询时带用户标示，即带row key)才能实现的，复杂查询场景下，什么系统都歇菜。

所以MPP DB应用场景已经非常明显了，适合小集群（100以内），低并发的（50左右）的场景。MPP DB未来是不是趋势，我不知道，但是至少目前来看，用MPP DB来应对大数据的实时分析系统是非常吃力的。

分享到：

FusionInsight企业级大数据平台 | OpenStack

2017-01-23 13:37
浏览 1196
评论(0)
分类:数据库
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

MPP DB 是大数据实时分析系统

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

MPP DB 是 大数据实时分析系统

评论

发表评论

相关推荐

Mysql中DATE_SUB 使用方法结合查询一天内,一周内,一月内的信息实例讲解

MySQL里获取当前week、month、quarter的start_date/end_date

查看数据库

数据导入到数据库

使用数据库客户端工具Oracle SQL Developer加载第三方驱动连接mysql的方法

数据连接符

commit

Redis操作命令总结

PostgreSQL中表名、字段名大小写问题

怎么解决Greenplum中用pg

mysql unrecognized service问题解决

Oracle创建视图、通过视图创建表

PostgreSQL中表名、字段名大小写问题

关于性能测试几个名词概念的说明

数据库性能优化详解

Oracle怎样把varchar2型转成number型

oracle中字符串的大小比较，字符串与数字的比较和运算

greenplum 程序开发优化原则

PostgreSQL 时序最佳实践 - 证券交易系统数据库设计 - 阿里云RDS PostgreSQL最佳实践

PostgreSQL 时序最佳实践

最近访客更多访客>>

MPP DB 是大数据实时分析系统