简介及适用场景
如果想在数据仓库中快速查询结果,可以使用greenplum。
Greenplum数据库也简称GPDB。它拥有丰富的特性:
第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。
第二,支持分布式事务,支持ACID。保证数据的强一致性。
第三,做为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的GPDB集群都有很多案例。
第四,GPDB是企业级数据库产品,全球有上千个集群在不同客户的生产环境运行。这些集群为全球很多大的金融、政府、物流、零售等公司的关键业务提供服务。
第五,GPDB是Greenplum(现在的Pivotal)公司十多年研发投入的结果。GPDB基于PostgreSQL 8.2,PostgreSQL 8.2有大约80万行源代码,而GPDB现在有130万行源码。相比PostgreSQL 8.2,增加了约50万行的源代码。
第六,Greenplum有很多合作伙伴,GPDB有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。
greenplum起源
Greenplum最早是在10多年前(大约在2002年)出现的,基本上和Hadoop是同一时期(Hadoop 约是2004年前后,早期的Nutch可追溯到2002年)。当时的背景是:
- 互联网行业经过之前近10年的由慢到快的发展,累积了大量信息和数据,数据在爆发式增长,这些海量数据急需新的计算方式,需要一场计算方式的革命;
- 传统的主机计算模式在海量数据面前,除了造价昂贵外,在技术上也难于满足数据计算性能指标,传统主机的Scale-up模式遇到了瓶颈,SMP(对称多处理)架构难于扩展,并且在CPU计算和IO吞吐上不能满足海量数据的计算需求;
- 分布式存储和分布式计算理论刚刚被提出来,Google的两篇著名论文发表后引起业界的关注,一篇是关于GFS分布式文件系统,另外一篇是关于MapReduce 并行计算框架的理论,分布式计算模式在互联网行业特别是收索引擎和分词检索等方面获得了巨大成功。
下图就是GFS的架构
总体架构
greenplum的总体架构如下:
数据库由Master Severs和Segment Severs通过Interconnect互联组成。
Master主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计划向Segment的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字典。
Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。
greenplum使用mpp架构。
基本体系架构
master节点,可以做成高可用的架构
master node高可用,类似于hadoop的namenode和second namenode,实现主备的高可用。
segments节点
并行管理
对于数据的装载和性能监控。
并行备份和恢复。
数据访问流程,数据分布到不同颜色的节点上
查询流程分为查询创建和查询分发,计算后将结果返回。
对于存储,将存储的内容分布到各个结点上。
对于数据的分布,分为hash分布和随机分布两种。
均匀分布的情况:
总结
GPDB从开始设计的时候就被定义成数据仓库,如果是olap的应用,可以尝试使用GPDB。
分享到:
相关推荐
2. Greenplum的定位与优势:Greenplum作为一个开源的数据仓库解决方案,它基于PostgreSQL,并通过MPP(大规模并行处理)架构,将任务分发给多个处理单元,提升数据处理的性能。 3. Greenplum架构与组件:Greenplum...
在探讨大数据及海量数据处理架构时,Hadoop和MPP是两种主流的解决方案。Hadoop是一种开源分布式存储与计算平台,通过其核心组件HDFS(Hadoop Distributed File System)和MapReduce编程模型,可以有效地处理PB级别的...
在大数据处理领域,Flink和Kafka是两个非常重要的组件,而Greenplum则是一种高效的数据仓库系统。本文将深入探讨如何使用Flink从Kafka消费数据并将其存储到Greenplum,同时也会介绍Flink的数据流(DataStream)和...
数据仓库Greenplum是专为大规模数据仓库和分析设计的一款并行数据库系统,它基于开源的PostgreSQL数据库,但增加了并行处理和分布式计算的能力,使其在处理海量数据时表现出色。在“数据仓库Greenplum第二集”中,...
总之,Greenplum之间的数据同步涉及多个步骤,包括数据查询、资源监控和数据迁移。理解这些过程并优化资源使用,能够确保高效、可靠的同步体验。在实际操作中,还应根据具体环境和需求,选择最适合的同步策略。
《Greenplum数据库详解——基于MPP架构的大数据处理利器》 Greenplum数据库系统,作为一款高效的大数据处理工具,被广泛应用于数据仓库(DW)和商业智能(BI)领域。其最新版本"greenplum-db-5.0.0-rhel6-x86_64....
而Greenplum则是一款基于 PostgreSQL 的并行数据库,特别适合大数据分析,它利用MPP(大规模并行处理)架构实现高效的数据处理。 在Linux环境下,shell脚本可以集成各种工具来实现数据同步。通常,这个过程包括以下...
spark 并行加载 greenplum 数据,为正确运行,需引入 spark 相关包和 greenplum 驱动。 <!-- https://mvnrepository.com/artifact/org.apache.spark/spark-core --> <groupId>org.apache.spark ...
两者之间的连接器——Greenplum Spark Connector,旨在实现Spark与Greenplum之间的无缝集成,提高数据流转和分析效率。本文将详细介绍Greenplum Spark Connector 2.2.0 for Scala 2.11的相关知识点。 首先,让我们...
7、支持内存处理数据导入greenplum,导入失败生成csv格式文件,方便排错 8、支持生成csv格式文件导入greenplum。 9、传递不同配置文件,多次执行达到并行处理(注意内存溢出) 例: 执行脚本 生成日志目录 配置文件 ...
它能够有效地管理与处理海量数据,为用户提供强大的数据分析能力。其核心特性包括但不限于高度可扩展性、高性能分析处理以及对多种数据格式的支持。 1. **高度可扩展性**:GreenPlum采用分布式架构设计,通过增加...
"人工智能-数据分析-海量数据分析处理方法的研究" 人工智能在数据分析领域的应用是近年来最热门的研究方向之一。随着数据规模的日益庞大,传统的数据处理方法已经不能满足实际需求。此时,MapReduce 等分布式计算...
Greenplum的架构被设计为真正的完全无共享架构,这意味着所有的数据分布到各个节点上,每个节点都能并行处理数据。这种设计可以提高数据处理速度,使得在处理大数据时能提供高吞吐量。 Greenplum支持在多种计算环境...
Greenplum被设计用于处理海量数据,尤其适用于大数据分析、商业智能和数据仓库应用。它的核心优势在于其分布式架构,能够将数据分散存储在多个节点上,实现快速查询和分析。`greenplum-1.0.jar`正是Greenplum数据库...
随着大数据技术的发展,企业对数据处理的需求越来越高,特别是对于跨系统之间的数据同步。在众多解决方案中,Bireme作为一个专门为Greenplum/HashData数据仓库设计的增量同步工具脱颖而出。它能够支持MySQL、...
GreenPlum广泛应用于金融、电信、零售、互联网等行业,用于海量数据的存储、分析和报告,帮助企业洞察业务趋势,做出数据驱动的决策。 总结,GreenPlum数据库以其独特的MPP架构、高效的数据分布策略、并行处理能力...
Greenplum擅长处理数据仓库和分析场景,其智能查询优化器能根据数据分布和查询模式,生成最优执行计划。此外,与Apache MADlib的集成,使得Greenplum具备了内置的统计分析和机器学习能力。 六、安装与部署 在...
Greenplum是一种开源、分布式的关系型数据库管理系统,特别设计用于处理海量数据。它基于PostgreSQL,但扩展了MPP(大规模并行处理)架构,使得数据处理速度大幅提升。在大数据场景下,Greenplum能够提供高效的数据...
Segments 是分布式加载数据的组件,负责处理数据和存储。Interconnect 是 Greenplum 数据库系统的网络层,负责互连和主控 Segment 和 Master 之间的通信。 在部署 GreenPlum 之前,需要预估存储容量、配置系统环境...
在数据处理和分析领域,Pivotal Greenplum是一款广泛使用的开源大数据分析平台。它基于 PostgreSQL 构建,具有强大的并行处理能力,尤其适合大规模的数据仓库和数据分析应用。本文将详细讨论如何通过Java连接到...