hadoop的hdfs支持海量数据量存储 mapreduce支持对海量数据的分布式处理
oracle虽然可以搭建集群 但是当数据量达到一定限度之后查询处理速度会变得很慢 且对机器性能要求很高
其实这两个东西不是同类 hadoop是一个分布式云处理架构,倾向于数据计算 而oracle是一个关系型数据库,倾向于数据存储。要说比较可以比较hbase与oracle。
hbase是一种nosql数据库,列式数据库,支持海量数据存储,支持列的扩展,但是查询操作较复杂,不如oracle这类关系型数据库简单,且只支持一个索引,但是Hbase在表结构设置合理情况下,查询速度跟数据量大小没有太大关系,即数据量的大小不会影响到查询速度,顺便说句Hbase查询速度可以达到ms级
HBASE可以做实时数据查询,而且效率很高
但要注意以下几点
1、Hbase Table的ROWKEY设计要合理
2、Hbase Table的INDEX需要自己创建(利用协处理器,或利用MAPREDUCE异步建立索引)
3、Hbase 不能直接用SQL查询,但可以使用开源SQL项目解决部分问题,比如phoenix
参考https://github.com/forcedotcom/phoenix
phoenix 是基于0.92版本后的协处理器运行的,解决利用SQL在HBASE上执行聚合命令的问题
比如SUM\AVG\COUNT\MAX\MIN等
还包括LIMIT\SORT等操作
但是目前phoenix 目前还不支持JOIN操作,也不支持创建INDEX,此类方法任然需要自己实现。
我个人推荐自定义ENDPOINT(放弃SQL),自定义钩子可以直接绑定到phoenix 创建出来的表上
4、HBASE本身并不适合做为BI,需要通过MAPREDUCE定制业务。
百万级的数据,无论侧重OLTP还是OLAP,当然就是MySql了。
过亿级的数据,侧重OLTP可以继续Mysql,侧重OLAP,就要分场景考虑了。
实时计算场景:强调实时性,常用于实时性要求较高的地方,可以选择Storm;
批处理计算场景:强调批处理,常用于数据挖掘、分析,可以选择Hadoop;
实时查询场景:强调查询实时响应,常用于把DB里的数据转化索引文件,通过搜索引擎来查询,可以选择solr/elasticsearch;
企业级ODS/EDW/数据集市场景:强调基于关系性数据库的大数据实时分析,常用于业务数据集成,可以选择Greenplum;
数据库系统一般分为两种类型:
一种是面向前台应用的,应用比较简单,但是重吞吐和高并发的OLTP类型;
一种是重计算的,对大数据集进行统计分析的OLAP类型。
传统数据库侧重交易处理,即OLTP,关注的是多用户的同时的双向操作,在保障即时性的要求下,系统通过内存来处理数据的分配、读写等操作,存在IO瓶颈。
OLTP(On-Line Transaction Processing,联机事务处理)系统也称为生产系统,它是事件驱动的、面向应用的,比如电子商务网站的交易系统就是一个典型的OLTP系统。OLTP的基本特点是:
数据在系统中产生;
基于交易的处理系统(Transaction-Based);
每次交易牵涉的数据量很小;
对响应时间要求非常高;
用户数量非常庞大,主要是操作人员;
数据库的各种操作主要基于索引进行。
分析型数据库是以实时多维分析技术作为基础,即侧重OLAP,对数据进行多角度的模拟和归纳,从而得出数据中所包含的信息和知识。
OLAP(On-Line Analytical Processing,联机分析处理)是基于数据仓库的信息分析处理过程,是数据仓库的用户接口部分。OLAP系统是跨部门的、面向主题的,其基本特点是:
本身不产生数据,其基础数据来源于生产系统中的操作数据(OperationalData);
基于查询的分析系统;
复杂查询经常使用多表联结、全表扫描等,牵涉的数据量往往十分庞大;
响应时间与具体查询有很大关系;
用户数量相对较小,其用户主要是业务人员与管理人员;
相关推荐
2. **Ecosystem集成**:Greenplum支持Hadoop生态系统中的多种工具,如Hue(Web界面)、HBase(NoSQL数据库)和Spark(实时处理框架),增强了数据分析的灵活性。 **客户端接口与程序** 在视频和PPT中,"09 - ...
特别是在Java、Java Enterprise Edition、SOA、Spring、Hibernate、Hadoop、Hive、Flume、Sqoop、Oozie、Spark、Shark、YARN、Impala、Kafka、Storm、Solr/Lucene以及NoSQL数据库如HBase、Cassandra、MongoDB、MPP...
9. **数据融合与互联互通**:通过Foreign Data Wrapper(FDW),Greenplum可以与Oracle、MySQL、PostgreSQL、Elasticsearch、Redis等上百种其他系统进行数据融合,支持HDFS、Hive、HBase、S3、JSON、Parquet、ORC、...
- **与Greenplum MPP数据库的无缝集成**:实现了结构化数据与非结构化数据的统一管理和分析,增强了数据的可访问性和分析能力。 - **丰富的分析和商务智能工具集成**:支持广泛的第三方分析和BI工具,扩大了数据洞察...
#### 大数据时代的来临与EMC Greenplum的角色 随着科技的飞速发展,我们已经迈入了大数据时代,数据源呈爆炸式增长,数据量的增长速度达到了前所未有的44倍。这种数据的激增不仅来源于传统的电子支付、社交媒体,还...
本课程将深入探讨如何在这样的环境下管理大规模数据,尤其是聚焦于Greenplum与Hadoop集成后的数据处理策略。 首先,我们来了解Greenplum。Greenplum是一款开源的并行数据库系统,它基于 PostgreSQL 架构,但针对大...
* GreenPlum:提供了高性能的数据分析和计算服务 * SQOOP:提供了灵活的数据集成和共享服务 云Hbase数据库的应用场景包括: * 跨区域间文件外部协作:云Hbase数据库提供了高效、可靠的文件存储和管理服务,能够...
* FLUME用户群组GreenPlum交互查询文件增、删、改、分享、协作、预览 * 第三方数据…… 知识点四:场景一:跨区域间文件外部协作 * WEB数据应用数据收集MQ引擎计算Xman数据加工Prophet数据分析Prophet同步任务异步...
此外,数据融合与互联互通通过ForeignDataWrapper和PXF框架,实现了与多种外部数据源(如Oracle、MySQL、PostgreSQL、ElasticSearch、Redis、HDFS、Hive、HBase、S3等)的无缝交互和数据融合。 亮点SQL特性的引入,...
总的来说,《Hadoop开发案例:Greenplum Hadoop大数据应用案例剖析》是一门深入浅出、理论与实践相结合的课程,对于有意从事大数据行业的开发者来说,是提升技能、把握行业趋势的宝贵资源。通过学习,学员不仅能掌握...
当Greenplum与Hadoop结合时,我们可以构建一个混合的大数据环境。这种集成方案允许用户在Greenplum中进行复杂的分析查询,并利用Hadoop进行大规模的数据摄取和预处理。例如,Hadoop可以用于原始数据的批量加载和清洗...
在Hadoop生态系统中,NoSQL数据库如HBase和Cassandra也被广泛用于存储非结构化和半结构化数据。 结合Greenplum和Hadoop,企业可以构建一个全面的大数据解决方案,既能利用Greenplum的高级分析能力,又能发挥Hadoop...
《 PXF在CentOS7.7与Greenplum6.7环境下的安装与应用详解》 PXF(Parallel eXternal File Format),全称为Parallel External Files,是Greenplum数据库的一个重要组件,它允许Greenplum高效地访问和处理外部数据源...
- 提供了与 Hadoop 生态系统的连接,如 HDFS、Hive、HBase 等。 - **连接器支持**: - Spark 连接器: 支持高效的并行连接器,实现谓词下推等功能,同时支持 Spark 编程语言 Python、Scala、Java、R 等。 - Kafka ...
它支持多种数据源之间的数据迁移,包括从关系型数据库到大数据存储,如HDFS、HBase等。DataX的PostgreSQL插件可以实现从其他数据库或文件系统向PostgreSQL(Greenplum的一个分支)的数据导入。然而,当面临大量数据...
目录大纲功能说明 导演 了解數據采集 Flume、Logstash、Canal Maxwell、Databus、NIFI数据同步 DataX、Sqoop、Kettle FlinkX悲痛 HDFS、HBase、Kudu、MongoDB、Elasticsearch、MySql TiDB、IotDB、數據計算 ...
AnalyticDB 的演进历程可以追溯到 2008 年,经历了 Oracle RAC、Greenplum、HBase、MySQL Sharding、Hadoop 等技术的演进。AnalyticDB 1.0 于 2012 年问世,AnalyticDB 3.0 于 2018 年发布。 AnalyticDB 的设计理念...
### Hadoop与Greenplum大数据应用案例解析 #### 一、引言 随着信息技术的快速发展,数据量呈现出爆炸式增长,大数据技术应运而生。其中,Hadoop因其优秀的分布式处理能力和灵活性,成为了处理大数据的核心工具之一...
再者,为了实现高效的数据处理,京东金融可能采用了列式存储的数据库系统,如Greenplum或HBase,对于分析型查询具有显著优势。列式存储能有效压缩数据,加快聚合查询速度,适合金融领域的报表生成和数据分析。 此外...
首先,分布式数据库技术架构可以分为多种类型,例如Oracle RAC、MySQL Cluster、Vertica、Greenplum、HBase、MongoDB等。这些系统各自具有不同的设计哲学和适用场景。Oracle RAC专注于提供高可用性和高性能,适用于...