`
weitao1026
  • 浏览: 1053560 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Greenplum在企业的正确使用姿势

 
阅读更多

背景

很多使用数据仓库的朋友可能都有过这样的困惑,为什么数据仓库的资源经常会出现不可控,或者抢用的情况,严重的甚至影响正常的作业任务,导致不能按时输出报表或者分析结果。

这里的原因较多,最主要的原因可能还是使用姿势不对,MPP是用极资源的产品,一伙人在抢资源当然跑不好。你想想一个跑道能让多架飞机同时起飞或降落吗?

第一张

老外通常如何使用数据仓库

数据仓库的使用人员通常是数据分析师,一个成熟的分析模型的建立,可能需要多次的数据模型分析试错。

通常试错不会允许直接在任务库中执行,因为很容易干扰任务库的任务处理,你一定不想因为试错导致报表不能按时输出吧,相信老板会让你好看的。

因此老外通常会将数据仓库分为两种,一种是跑任务的大数仓,所有的数据都在大数仓里面。

分析人员使用的是独立的小型分析库,如果要试错的话,向DBA提交测试数据的ETL申请,拿到数据后进行分析建模,在多次数据模型分析试错后找到成熟的数据分析模型,再提交到大数仓去RUN 任务。

由于分析人员可能较多,不同的分析人员可能会有同一份数据的分析需求,所以这种模式造成了大量的重复试错数据。每个分析师都要问DBA要数据,也会很痛苦。
screenshot

第二张

LOFTD消灭重复试错数据

LOFTD是一个独立的具备处理predict, project filter请求的文件服务器。

将LOFTD作为一个外部的数据源,读写非常方便。

数据分析人员向DBA提交数据抽取请求,数据被抽取到LOFTD,小型分析库通过外部表的方式访问LOFTD。

并且LOFTD可以共享给多个小型分析库使用,所以消除了数据的冗余。
screenshot

第三张

阿里云的用户如何正确使用ApsaraDB for Greenplum

阿里云的用户可以购买SATA+SSD混合存储的Greenplum,以非常高的性价比获得PB级的数据仓库(公测阶段只提供纯SSD的版本)。

用户可以使用ETL工具,或者mysql2pgsql, pgsql2pgsql将数据增量或全量的从MySQL或PgSQL同步到Greenplum。

成熟的分析任务可以跑在这个大的Greenplum数仓上面。

另外,分析人员要数据分析模型试错的话,可以将数据模型分析试错的样本数据导出到OSS。 Greenplum或者RDS PG可以通过OSS外部表直接访问试错数据,进行分析。

ETL可以选择阿里云市场中的ETL服务或者用户自己使用开源的ETL工具,都是非常方便的。

如果试错的数据量(样本数据)在百GB的规模,建议可以直接使用RDS PG
。 9.6还会推出CPU并行计算的功能,处理百GB毫无压力。 数据模型分析试错数据再大一点的话,建议还是购买小型的Greenplum。

这样就可以做到跑成熟的数据分析模型,试错两不误。

如果用户 为了节约成本一定要将成熟模型和试错放到一个数据仓库来跑的话,如果你不想因为任务跑不出来被老板批,建议错开任务的时间。
screenshot

小结

  1. 正确使用数仓(不管是Greenplum还是其他的数仓),必须要搞清楚跑成熟任务和分析人员模型试错是不要混到一起跑的,相互干扰,时间还漫长。 分析人员很贵的,多加几台机器,把模型试错和成熟任务分开,可以给分析人员灵活的发挥空间,又不耽误跑成熟模型,何乐不为呢
分享到:
评论

相关推荐

    greenplum 企业应用实战高清带目录版 解压成pdf

    《Greenplum 企业应用实战》是一本深入探讨大数据存储和分布式计算的书籍,特别关注于 PostgreSQL 和 MPP(大规模并行处理)架构下的 Greenplum 数据库系统。该资源以高清PDF格式提供,便于读者深入学习和研究。 ...

    Greenplum企业应用实战

    《Greenplum企业应用实战》一书聚焦于大数据管理和分析平台Greenplum的实践应用,旨在帮助企业构建高效、可扩展的数据仓库系统。Greenplum是一款基于MPP(大规模并行处理)架构的分布式数据库,特别适合处理海量数据...

    greenplum企业应用实践

    greenplum企业应用实践,为学习greenplum数据库的个人和企业提供专业的介绍。

    Greenplum企业应用实战.pdf

    Greenplum在企业级应用中,特别是数据密集型场景下,因其高性能和灵活的扩展性而受到重视。MPP架构允许多个计算节点并行处理数据,显著提高了处理速度,适用于复杂的数据分析和处理任务。 Greenplum主要特点包括高...

    Greenplum在企业生产中的最佳实践.docx

    在帮助企业更好地使用Greenplum时,应提供完整的解决方案,包括硬件选型、软件配置、性能调优、备份策略等。此外,还需要提供持续的技术支持和培训,确保企业用户能够熟练掌握系统操作和维护技巧。 总结来说,...

    GreenPlum企业应用实战

    GreenPlum企业应用实战完整版....

    Greenplum企业应用实战 真正的完整目录

    《Greenplum企业应用实战》是一本专注于Greenplum数据库技术的专业著作,它标志着Greenplum在技术领域的权威地位,并且是第一本全面探讨该主题的书籍。这本书以详实的内容,深入浅出地介绍了Greenplum在企业级应用中...

    greenplum的运维使用手册.docx

    【绿宝石数据库(Greenplum)的运维使用手册】 Greenplum是一款基于MPP(大规模并行处理)架构的数据仓库和商业智能解决方案。MPP架构允许数据分散在多个独立的节点上,每个节点都有自己的操作系统和数据库实例,...

    Greenplum企业应用实战 完整版[何勇,陈晓峰著].rar

    《Greenplum企业应用实战》是由何勇和陈晓峰两位专家共同编著的一本深入探讨Greenplum在企业实际应用中的技术书籍。这本书详细介绍了Greenplum数据库系统的架构、特性和最佳实践,旨在帮助读者理解和掌握大数据环境...

    greenplum4.3.24.0 x86 64位安装包+Greenplum企业应用实战.pdf+greenplum.jar

    2. **Greenplum企业应用实战.pdf**:这是一份详细的实践指南,涵盖了Greenplum在企业环境中的应用和最佳实践。可能包含的内容有数据库的架构设计、性能调优、备份恢复策略、安全性设置以及故障排查等。对于初次使用...

    GreenPlum集群安装与使用

    GreenPlum相关的全套资料,包括简介、Linux集群安装方法、GreenPlum集群式部署步骤、使用图形客户端访问GreenPlum的方法等。

    Greenplum 企业应用实战

    《Greenplum 企业应用实战》一书由阿里巴巴的资深工程师何勇和陈晓峰共同撰写,主要聚焦于Greenplum在企业环境中的实际运用和优化策略。Greenplum是一款高性能、分布式的数据仓库系统,广泛应用于大数据分析领域。...

    Greenplum企业应用实战 PDF电子书下载 带书签目录 完整版.pdf

    企业应用实战一词表明,文档中可能包含有关如何在企业环境中部署、管理和优化Greenplum数据库系统的内容。 由于提供的信息是关于电子书下载服务的描述,并不包含具体的技术细节,所以无法直接从中提取Greenplum的...

    greenplum的驱动

    在实际应用中,开发者首先需要在项目中引入greenplum-jdbc-5.1.4.jar,这通常可以通过Maven或Gradle等构建工具完成,或者手动将jar包添加到项目的类路径中。一旦驱动被正确引入,就可以通过以下步骤建立数据库连接:...

    Tableau连接greenplum源使用文档

    通过上述步骤,不仅可以充分发挥Tableau在数据可视化方面的优势,还能利用Greenplum的高性能数据处理能力,为企业提供快速准确的数据洞察。这对于需要处理海量数据的企业来说,是一个理想的解决方案。

    Greenplum详细使用手册(新手必备)

    ### Greenplum数据库详细使用手册知识点总结 #### 一、GPDB架构简介 **GPDB**(Greenplum Database)是一种高性能的分布式数据库系统,它能够有效地管理和处理分布在多个不同主机上的海量数据。GPDB的核心架构由...

    greenplum/postgresql驱动包:greenplum-1.0.jar

    在IT领域,数据库管理系统的高效运作是支撑企业数据处理和服务的核心。本文将深入探讨Greenplum和PostgreSQL两种数据库系统,以及它们对应的驱动包`greenplum-1.0.jar`的相关知识。 首先,让我们了解一下Greenplum...

    greenplum 企业应用实战

    《Greenplum 企业应用实战》是一本深入探讨Greenplum在企业环境中应用的专业书籍,由阿里巴巴的技术专家撰写。这本书共计348页,旨在帮助读者理解和掌握如何在实际业务场景中有效地运用Greenplum这一大数据处理平台...

Global site tag (gtag.js) - Google Analytics