大数据数据仓库—概念
大数据经过反复炒作之后,慢慢的降温下来。大家不再大谈几个v了,落地到企业会发现,大部分场景还是传统的数据仓库的替换。今天梳理下数据仓库的使用场景,以及需要的技术。
1,先谈下数据仓库准确的概念是什么?
数据仓库 ,由数据仓库之父比尔·恩门(Bill Inmon)于1990年提出,主要功能仍是将组织透过资讯系统之联机事务处理(OLTP)经年累月所累积的大量资料,透过数据仓库理论所特有的资料储存架构,作一有系统的分析整理,以利各种分析方法如联机分析处理(OLAP)、数据挖掘(Data Mining)之进行,并进而支持如决策支持系统(DSS)、主管资讯系统(EIS)之创建,帮助决策者能快速有效的自大量资料中,分析出有价值的资讯,以利决策拟定及快速回应外在环境变动,帮助建构商业智能(BI)。
数据仓库之父比尔·恩门(Bill Inmon)在1991年出版的“Building the Data Warehouse”(《建立数据仓库》)一书中所提出的定义被广泛接受——数据仓库(Data Warehouse)是一个面向主题的(Subject Oriented)、集成的(Integrated)、相对稳定的(Non-Volatile)、反映历史变化(Time Variant)的数据集合,用于支持管理决策(Decision Making Support)。
2,大数据技术相比传统的数据仓库有什么优势?
搞来搞去,又回到了传统的数据仓库吗?事实上,大部分企业的应用传统数据仓库支持就非常好。
相比传统的数据仓库,大数据技术在几个方面有优势:1)支持非结构化数据,传统数据仓库,基于关系理论构建,只支持结构化数据。尤其在互联网行业,非结构化数据是主数据。 2)扩展性上。对于小于100T的结构化数据处理时,往往会发现MPP架构的数据仓库反而性能更高。但是数据仓库有非常明显的扩展瓶颈,目前已知的,最大生产数据仓库节点数据大概是几百个节点。而大数据平台几千台一个集群比比皆是。3)和新的分析方法和算法的结合上。传统数据仓库,还停留在统计,钻取这些传统的BI分析方法。大数据技术衍生出非常多的交互式,BI工具等。
相比传统数据仓库,大数据也有很多劣势:1)小数量下面,比传统的mpp差。大数据量下面,不能满足交互式分析秒级响应的需求。2)对SQL对支持不充分等。所以业界有不少厂商在做这方面的探索,如cloudera的impala,星环的Inceptor,阿里的ads。
本文先介绍数据仓库的基本概念,下一篇介绍大数据数据仓库的应用场景。
微信扫一扫
关注该公众号
相关推荐
数据中台是介于数据存储(如数据仓库)和业务应用之间的中间层,它旨在整合企业内部的各类数据资源,提供统一的数据服务,促进数据资产的高效利用。阿里巴巴的数据中台建设,不仅涵盖了数据的采集、存储、处理,还...
其中,数据仓库和数据挖掘是两个至关重要的概念。 数据仓库(Data Warehouse)是为企业决策提供支持的集成化、结构化的数据集合,它从多个不同的数据源抽取、转换和加载(ETL)数据,形成一个一致性的视图,以供...
本压缩包“大数据系列2020-数据仓库资料2.zip”包含了四个与大数据和数据仓库相关的资源,旨在帮助读者深入理解这一领域的核心概念和技术。 1. 《大数据之路:阿里巴巴大数据实践》.pdf 这本书揭示了阿里巴巴集团在...
【大数据技术-大数据数据仓库】 大数据数据仓库是现代企业应对海量数据存储、管理和分析的关键技术。数据仓库(Data Warehouse,DW)是专为数据分析而构建的系统,它从多个源头整合数据,提供对决策支持系统...
在大数据技术迅速发展的今天,数据仓库作为存储和管理大量数据的核心组件,扮演着至关重要的角色。在构建一个有效率、成本低廉、性能高效且保证数据质量的数据仓库时,数据仓库建模成为了关键环节。建模的目标旨在...
- **Hive**:基于Hadoop的数据仓库工具,提供SQL查询功能。 - **Pig**:简化Hadoop数据处理过程的高级语言。 - **MapReduce**:Hadoop的核心计算模型之一,用于大规模数据集的并行处理。 4. **大数据分析工具**...
Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得非编程背景的用户也能对大数据进行分析。HBase是基于Hadoop的分布式列式数据库,适合存储半结构化或非结构化的...
【大数据技术-大数据数据仓库】深入理解 大数据数据仓库是现代企业管理和决策支持的关键组成部分,它主要解决从海量数据中提取有价值信息的问题。数据仓库(Data Warehouse,DW)是一个专门设计用于高效分析和决策...
本文档主要探讨了大数据环境下的数据仓库中数据志跟踪的理论与方法,旨在解决数据仓库在处理大量数据时如何有效地追踪数据来源和变化的问题。数据仓库是存储和管理企业历史数据的重要工具,它通过集成来自多个异构...
数据仓库是大数据领域中的核心组成部分,它主要用于存储和管理企业级的大规模历史数据,以便进行高效的数据分析和决策支持。本资料汇总包含了多个与数据仓库相关的主题,包括数据仓库的基础概念、ETL(提取、转换、...
课件“八斗公开课_第1次.pdf”很可能是课程的讲义,涵盖了大数据的基础概念、Hadoop框架的介绍,以及可能涉及的其他相关技术,如Hive(用于数据仓库)、Pig(高级数据流语言)、Spark(快速的大数据处理引擎)等。...
6. **Hadoop生态组件**:除了基本的HDFS和MapReduce,Hadoop生态系统还包括Hive(数据仓库工具)、Pig(数据分析工具)、HBase(NoSQL数据库)、Spark(快速数据处理框架)等。理解这些组件的功能和相互关系是全面...
在大数据存储与管理部分,课程内容将深入探索包括NoSQL数据库(例如HBase)、分布式文件系统HDFS和数据仓库系统Hive在内的先进存储与管理技术。这一部分不仅要求学生掌握相关技术的工作原理,还要求他们能够熟练使用...
4. **Hadoop生态**:包括HBase(分布式数据库)、Hive(数据仓库工具)、Pig(数据分析工具)等,它们与Hadoop如何协同提供大数据解决方案。 5. **Hadoop配置**:如何设置Hadoop的配置文件,如`core-site.xml`、`...
4. Sqoop是一种数据ETL工具,用于在关系型数据库、数据仓库等多种数据源与Hadoop存储系统之间进行高效批量数据传输。 5. Spark是一种基于内存的分布式计算框架,用于构建大型的、低延迟的数据分析应用程序。 6. 在...
2. 大数据存储与管理:讲解大数据存储与管理的基本理论,涵盖NoSQL数据库、分布式存储技术,如HDFS(Hadoop Distributed File System)和HBase(分布式列式数据库),以及Hive(分布式数据仓库系统)的工作原理。...
总的来说,大数据数据仓库是企业数据管理和决策支持的关键工具,通过高效的数据集成、存储和分析,助力企业在海量信息中挖掘价值,驱动业务增长。在实际应用中,数据仓库的设计和优化是一项复杂的工作,需要考虑到...
5. 多属性复杂大群体决策支持系统:本文设计了一种基于多智能体和数据仓库的多属性复杂大群体决策支持系统(MCHGDSS),实现了基于聚类算法的MCHGDSS。 6. 改进的聚类算法:本文提出了一个改进的聚类算法(MFCM),...
该平台被广泛应用于数据仓库、数据挖掘、在线分析处理(OLAP)、数据科学以及实时分析等众多大数据应用领域。 Cloudera平台的一个重要组成部分是Hadoop。Hadoop是一套开源框架,其核心是HDFS(Hadoop Distributed ...