Greenplum数据库基本由PostgreSQL核心增强数据库实例组合并衔接成的数据库管理系统,即Greenplum
数据在PostgreSQL基础上扩展开发出来的。
每个Greenplum数据库由1个master实例和2个或2个以上segment实例组成,客户端使用PostgreSQL规范
与Master交互。接下来的插图,展示Greenplum数据库实例由1个master和6 segement实例组成:
上述插图中Master Host部署在专用服务器上,1台Host就是1台计算机(物理机或虚拟机)-包括操作系统、
内存、硬盘存储、1个或多个网络接口。Master Host或Master实例就是GreenPlum数据服务端,服务端通过
端口(默认端口5432)监听客户端连接。
6个Segement部署在3个Segement Host,每个Segement Host是一台独立计算机含有操用系统、内存、
CPU、存储、网络接口。与Master Host类似,Segement Host也是独立计算机或虚拟机。
每个Segement是数据库服务端分配并管理一部份数据存储,每个Segement在Segement Host采用独立端
口监听。
Master实例协调所有数据库实例、分布式请求Segement并且合并从Segement返回的结果。
Shared Nothing vs. Shared Disk
GreenPlum数据库是Shared Nothing架构,因为每个Segement拥有自己的CPU、内存、硬盘来管理部份
数据库。相反,基于共享磁盘的Shared Disk(或Shared Everything)架构的分布数据库管理系统拥有多个数据
库服务实例管理单个数据库实例。Shared Nothing与Shared Disk架构有不同的优缺点。
在磁盘共享系统中所有数据存储在本地数据库服务端,不需要通过网络发送数据到另一服务器执行连表查
询;然而网络磁盘存储解决方案和软件磁盘共享限制数据与数据库服务器数量添加到数据库集群。昂贵服务
器和网络附属存储软件需要增加容量和保持可接受的查询响应时间。
Shared Disk架构中, 每个CPU都有自己的内存, 但是所有CPU共享一组硬盘, 这些硬盘以SAN或者NAS的形
式组织在一起。
SD架构的缺点
1. 连接CPU和硬盘驱动的连接会成为系统的瓶颈.
2. 因为各个CPU都有自己的内存, 所以没有一个地方可以放置锁表(lock table)或者缓存池(buffer pool).
为了设置锁, 只能在一个CPU上设置一个公共的锁管理器或者使用复杂的分布式锁协议. 当CPU数量增
多 时, 上述两种两种方法的可扩展性都不是很好。
Shared Nothing架构中, 每个CPU有自己的内存和硬盘. 数据按行被水平划分, 这样不同节点上存储的是不
同行的数据. 每个节点只负责处理自己硬盘上的数据. 每个节点有自己的锁表和缓存池, 这样就避免了复杂的
分布式锁机制. SN的可扩展性非常好。
下一节将我们谈论数据分布策略及存储方式(列式存储或行式存储)。
相关推荐
以上知识点涵盖了Greenplum数据库的整体架构信息、数据库常用概念、集群安装配置、以及初级使用等多个方面,是使用Greenplum 5.11版本的重要参考文档。通过这些知识点,用户可以了解Greenplum的核心特性、如何进行...
Greenplum数据库是一种基于PostgreSQL 8.2的海量并行处理(Massively Parallel Processing, MPP)数据库管理系统,特别设计用于数据仓库和商业智能(BI)应用。它继承了PostgreSQL的客户端功能,并增加了对并行处理和...
《Greenplum数据库架构分析与CTE实现》 Greenplum数据库是一款专为大数据存储、计算和挖掘设计的高性能数据库系统。它遵循ANSI SQL 2008标准,支持在线分析处理(OLAP)操作,并且具备ACID属性,能够进行分布式事务...
#### 一、GreenPlum数据库概述与架构原理 GreenPlum数据库是一款高性能的企业级数据分析平台,它采用MPP(大规模并行处理)架构,能够处理PB级别的数据量,非常适合大数据分析场景。GreenPlum数据库的核心特性包括...
综上所述,GreenPlum数据库以其独特的MPP架构、强大的并行处理能力和高可扩展性等特点,在大数据分析领域占据着重要地位。无论是对于处理大量数据的实时查询还是进行复杂的数据分析任务,GreenPlum都能够提供高效且...
整体架构** - **服务器扩展性**:VCF允许系统的线性扩展,随着业务增长可以添加更多服务器节点。 - **网络设置**:利用高速RDMA网络实现数据传输优化,确保Greenplum的分布式数据库通信效率。 - **vSphere DRS**:...
根据提供的文件内容,我们将生成关于GreenPlum数据库安装的详细知识点。 知识点一:GreenPlum数据库简介 GreenPlum数据库是一款适用于数据仓库(DW)和商业智能(BI)软件。它能够在虚拟化x86服务器上运行,采用无...
【GreenPlum数据库介绍】 GreenPlum是一种专为大规模数据处理设计的关系型数据库管理系统,它采用了MPP(大规模并行处理)架构,基于PostgreSQL开源数据库。GreenPlum旨在提供高性能、可扩展性和高可用性,尤其适用...
Greenplum数据库4.0是一项重大版本更新,引入了多项显著的新特性、性能和稳定性增强以及产品架构的优化。以下是一些重要的新增功能: - **增强的工作负载管理与动态查询优先级**: 提供更高效的工作负载管理策略,...
这些内容对于数据库管理员、数据架构师和任何需要部署、管理和使用Greenplum数据库的专业人士而言都是宝贵的资源。由于文档是英文版的,对于需要使用中文进行学习的用户,可能需要借助翻译工具或专业的翻译服务来...
在64位操作系统环境下,使用ODBC(Open Database Connectivity)驱动程序,可以实现对Greenplum数据库的高效、稳定的数据访问。ODBC是微软推出的一种数据库访问标准,它提供了一个中间层,允许应用程序通过统一的...
Greenplum的软件部署基于数据库并行机制,通过软件互联多台数据库服务器形成集群。在高可用性方面,Greenplum提供了mirror机制,即数据的主副本(primary)与镜像副本(mirror)分布在不同服务器上,以防止单点故障...
《Greenplum数据库详解——基于MPP架构的大数据处理利器》 Greenplum数据库系统,作为一款高效的大数据处理工具,被广泛应用于数据仓库(DW)和商业智能(BI)领域。其最新版本"greenplum-db-5.0.0-rhel6-x86_64....
本次测试的主要目的是评估Greenplum数据库在数据查询方面的性能,包括单表查询效率和多表JOIN操作的处理能力。通过深入理解Greenplum的架构和分布式存储策略,我们将验证其在大规模数据处理场景下的表现,并为后续...
以上是Greenplum管理员手册中提到的一些关键知识点概述,这些内容对于理解Greenplum数据库的架构、特性和使用方法非常重要。通过学习这些内容,可以更好地掌握Greenplum的管理和操作技巧,从而更有效地利用该平台...
综上所述,《Greenplum Database 4.2 系统管理员指南》为管理员提供了全面的指导和支持,帮助其更好地理解和管理Greenplum数据库系统。无论是从架构层面的深入解析还是具体的操作步骤,该指南都是一个不可或缺的资源...
Greenplum JDBC驱动则是连接Java应用与Greenplum数据库的桥梁,让我们来深入探讨"greenplum-jdbc-5.1.4.jar"这个特定版本的驱动。 首先,"greenplum-jdbc-5.1.4.jar"是Greenplum官方提供的JDBC驱动程序,用于支持...