Pivotal Greenplum is a commercial fully featured data warehouse powered by the open source Greenplum Database. It provides powerful and rapid analytics on petabyte scale data volumes. Uniquely geared toward big data analytics, Greenplum is powered by the world’s most advanced cost-based query optimizer delivering high analytical query performance on large data volumes.
Greenplum 之前是一家总部位于美国加利福尼亚州,为全球大型企业用户提供新型企业级数据仓库(EDW)、企业级数据云(EDC)和商务智能(BI)提供解决方案和咨询服务的公司。目前 Greenplum 已经归属 Pivotal。
Greenplum DB 号称是世界上第一个开源的大规模并行数据仓库,最初是基于 PostgreSQL,现在已经添加了大量数据库方面的创新。Greenplum 提供 PD 级别数据量的强大和快速分析能力,特别是面向大数据方面的分析能力,支持大数据的超高性能分析查询。
Greenplum数据库也简称GPDB。它拥有丰富的特性:
第一,完善的标准支持:GPDB完全支持ANSI SQL 2008标准和SQL OLAP 2003 扩展;从应用编程接口上讲,它支持ODBC和JDBC。完善的标准支持使得系统开发、维护和管理都大为方便。而现在的 NoSQL,NewSQL和Hadoop 对 SQL 的支持都不完善,不同的系统需要单独开发和管理,且移植性不好。
第二,支持分布式事务,支持ACID。保证数据的强一致性。
第三,做为分布式数据库,拥有良好的线性扩展能力。在国内外用户生产环境中,具有上百个物理节点的GPDB集群都有很多案例。
第四,GPDB是企业级数据库产品,全球有上千个集群在不同客户的生产环境运行。这些集群为全球很多大的金融、政府、物流、零售等公司的关键业务提供服务。
第五,GPDB是Greenplum(现在的Pivotal)公司十多年研发投入的结果。GPDB基于PostgreSQL 8.2,PostgreSQL 8.2有大约80万行源代码,而GPDB现在有130万行源码。相比PostgreSQL 8.2,增加了约50万行的源代码。
第六,Greenplum有很多合作伙伴,GPDB有完善的生态系统,可以与很多企业级产品集成,譬如SAS,Cognos,Informatic,Tableau等;也可以很多种开源软件集成,譬如Pentaho,Talend 等。
GreenPlum 主要特性:
大规模并行处理架构
高性能加载,使用 MPP 技术,提供 Petabyte 级别数据量的加载性能
大数据工作流查询优化
多态数据存储和执行
基于 Apache MADLib 的高级机器学习功能
数据库由Master Severs和Segment Severs通过Interconnect互联组成。
Master主机负责:建立与客户端的连接和管理;SQL的解析并形成执行计划;执行计划向Segment的分发收集Segment的执行结果;Master不存储业务数据,只存储数据字典。
Segment主机负责:业务数据的存储和存取;用户查询SQL的执行。
greenplum使用mpp架构。
Greenplum的架构采用了MPP(大规模并行处理)。在 MPP 系统中,每个 SMP 节点也可以运行自己的操作系统、数据库等。换言之,每个节点内的 CPU 不能访问另一个节点的内存。节点之间的信息交互是通过节点互联网络实现的,这个过程一般称为数据重分配(Data Redistribution) 。与传统的SMP架构明显不同,通常情况下,MPP系统因为要在不同处理单元之间传送信息,所以它的效率要比SMP要差一点,但是这也不是绝对的,因为 MPP系统不共享资源,因此对它而言,资源比SMP要多,当需要处理的事务达到一定规模时,MPP的效率要比SMP好。这就是看通信时间占用计算时间的比例而定,如果通信时间比较多,那MPP系统就不占优势了,相反,如果通信时间比较少,那MPP系统可以充分发挥资源的优势,达到高效率。
相关推荐
标题“GREENPLUM介绍之数据库管理(七)- 配置数据库高可用性之master镜像(转)”表明该内容主要关注Greenplum数据库管理系统中的一个关键特性,即如何配置主节点(master)的高可用性,以确保在主节点故障时能无缝...
Greenplum是一个高性能、大规模并行处理(MPP)的开源数据仓库,具备了处理PB级数据的能力。MPP是一种架构设计,每个节点都可以独立执行查询和处理任务,节点之间通过高速网络连接。Greenplum的架构被设计为真正的...
接下来介绍如何将Oracle数据库中的DEMO数据`SALESHISTORY`迁移到Greenplum中。 **6.1 创建目录** 在Master节点上创建用于存放数据的目录: ```bash mkdir -p /stage/sales_data ``` **6.2 导出数据** 可以通过...
Greenplum是一款先进的大规模并行处理(MPP)数据库,最初由EMC公司开发,并于2015年被Pivotal公司收购。它被设计用于满足企业级大数据分析需求,具备高性能、高可靠性和可扩展性。在对Greenplum的学习过程中,我们...
Greenplum 技术架构介绍 Greenplum 是一个全球领先的开源 MPP(Massively Parallel Processing)大数据平台,具有可扩展性、ACID 事务、分布式、简单易用、结构化、半结构化和非结构化数据处理能力。该平台可以满足...
"Greenplum数据仓库技术架构介绍" 本文将对Greenplum数据仓库技术架构进行详细的介绍,包括数据仓库的概念、架构设计、技术实现等方面的知识点。 数据仓库概念 数据仓库是指将来自不同数据源的数据集 Become a ...
本文将围绕“Greenplum_5.1.4.zip”这个压缩包,详细介绍如何使用Java连接Greenplum数据库,并分享一些关于Greenplum和Java集成的实用知识。 首先,我们了解下Greenplum 5.1.4的核心特性。这一版本的Greenplum具备...
本文将详细讨论如何通过Java连接到Greenplum数据库,并重点介绍“greenplum.jar.zip”这个压缩包中的核心组件——greenplum.jar,它是实现Java应用程序与Greenplum数据库交互的关键。 首先,让我们了解一下...
根据给定的文件内容,我们将详细介绍Greenplum中常用的基础函数。 首先,创建表是数据库管理中的基础操作。在Greenplum中,创建表可以通过CREATE TABLE语句实现,并且可以指定数据类型、默认值,以及通过...
- **Understanding Greenplum Query Plans**:介绍如何理解和优化Greenplum的查询执行计划,这对于提高查询效率至关重要。 - **Understanding Parallel Query Execution**:深入探讨了Greenplum如何利用集群中的所有...
整体来看,这份官方文档提供了一系列关于Greenplum 5.7版本的详细信息,从新特性介绍到具体的安装、升级指导,再到已解决问题和已知问题的说明,旨在帮助用户充分利用Greenplum数据库,同时处理可能出现的挑战。...
本文将详细介绍Greenplum 6.2.1版本的RPM安装包,包括GitHub开源版和Pivotal提供的版本,帮助用户更好地理解和安装这一强大的数据仓库平台。 首先,我们来看标题中的"Greenplum6.2.1版本安装包(RPM)版"。RPM(Red ...
本文将详细介绍Greenplum Spark Connector 2.2.0 for Scala 2.11的相关知识点。 首先,让我们了解一下Greenplum Spark Connector的基本功能。这个连接器使得Spark可以像操作本地数据源一样访问Greenplum数据库,...
本文将深入探讨如何使用Flink从Kafka消费数据并将其存储到Greenplum,同时也会介绍Flink的数据流(DataStream)和数据集(DataSet)API的使用,以及实时数据处理中的窗口应用。 首先,Apache Flink是一个开源的流...
- **pgAdmin III for Greenplum Database:** 详细介绍pgAdmin III的使用方法和功能。 - **Database Application Interfaces:** 支持的标准数据库应用接口,如ODBC、JDBC等。 - **Third-Party Client Tools:** ...
- **5.10.1版本发布说明**:文档首先介绍了5.10.1版本的特性,包括新功能、已解决问题、已知问题和限制、以及安装和升级指南。其中,新功能可能包括对现有功能的增强、新的命令工具或者对系统性能的改进等。 - **...
单机安装greenplum4.3.10, 介绍安装greenplum全过程。
这份中文文档详细介绍了Greenplum的系统架构和基本语法,对于理解和操作Greenplum数据库至关重要。** **1. Greenplum数据库架构:** - **MPP架构**:Greenplum采用了分布式数据库的设计,通过MPP架构将数据分散到...
本篇文章将详细介绍如何使用Java JDBC连接到Greenplum数据库,并提供一个名为"greenplum.jar"的实用工具包,确保开发者可以安全、便捷地进行数据库操作。 首先,我们来理解一下Greenplum数据库。Greenplum是由...
首先,让我们从Module 0开始,这是对Greenplum基础的介绍。这个模块通常涵盖了数据库系统的基本概念,Greenplum的特点,以及它如何利用MPP(大规模并行处理)架构来处理海量数据。其中可能会讲解到分布式查询优化、...