数据仓库技术简介(下) (2001-10-15 09:28 )(ylzhou )( )导读-- 由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计的技术咨询四个方面......
三、数据仓库的关键技术
那么,数据仓库都有哪些组成部分和关键技术呢?与关系数据库不同,数据仓库并没有严格的数学理论基础,它更偏向于工程。由于数据仓库的这种工程性,因而在技术上可以根据它的工作过程分为:数据的抽取、存储和管理、数据的表现以及数据仓库的设计的技术咨询四个方面。为此,我们将分别讨论每一个环节。
3.1 数据的抽取
数据的抽取是数据进入仓库的入口。由于数据仓库是一个独立的数据环境,它需要通过抽取过程将数据从联机事务处理系统、外部数据源、脱机的数据存储介质中导入到数据仓库。数据抽取在技术上主要涉及互连、复制、增量、转换、调度和监控等几个方面。数据仓库的数据并不要求与联机事务处理系统保持实时的同步,因此数据抽取可以定时进行,但多个抽取操作执行的时间、相互的顺序、成败对数据仓库中信息的有效性则至关重要。
在技术发展上,数据抽取所涉及的单个技术环节都已相对成熟,其中有一些是躲不开编程的,但整体的集成度还很不够。目前市场上所提供的大多是数据抽取工具。这些工具通过用户选定源数据和目标数据的对应关系,会自动生成数据抽取的代码。但数据抽取工具支持的数据种类是有限的;同时数据抽取过程涉及数据的转换,它是一个与实际应用密切相关的部分,其复杂性使得不可嵌入用户编程的抽取工具往往不能满足要求。因此,实际的数据仓库实施过程中往往不一定使用抽取工具。整个抽取过程能否因工具的使用而纳入有效的管理、调度和维护则更为重要。从市场发展来看,以数据抽取、异构互连产品为主项的数据仓库厂商一般都很有可能被其它拥有数据库产品的公司吞并。在数据仓库的世界里,它们只能成为辅助的角色。
3.2 数据的存储和管理
数据仓库的真正关键是数据的存储和管理。数据仓库的组织管理方式决定了它有别于传统数据库的特性,同时也决定了其对外部数据表现形式。要决定采用什么产品和技术来建立数据仓库核心,则需要从数据仓库的技术特点着手分析。
数据仓库遇到的第一个问题是对大量数据的存储和管理。这里所涉及的数据量比传统事务处理大得多,且随时间的推移而累积。从现有技术和产品来看,只有关系数据库系统能够担当此任。关系数据库经过近30年的发展,在数据存储和管理方面已经非常成熟,非其它数据管理系统可比。目前不少关系数据库系统已支持数据分割技术,能够将一个大的数据库表分散在多个物理存储设备中,进一步增强了系统管理大数据量的扩展能力。采用关系数据库管理数百个GB甚至到TB的数据已是一件平常的事情。一些厂商还专门考虑大数据量的系统备份问题,好在数据仓库对联机备份的要求并不高。
数据仓库要解决的第二个问题是并行处理。在传统联机事务处理应用中,用户访问系统的特点是短小而密集;对于一个多处理机系统来说,能够将用户的请求进行均衡分担是关键,这便是并发操作。而在数据仓库系统中,用户访问系统的特点是庞大而稀疏,每一个查询和统计都很复杂,但访问的频率并不是很高。此时系统需要有能力将所有的处理机调动起来为这一个复杂的查询请求服务,将该请求并行处理。因此,并行处理技术在数据仓库中比以往更加重要。
大家可以注意以下,在针对数据仓库的TPC-D基准测试中,比以往增加了一个单用户环境的测试,成为"系统功力"(QPPD)。系统的并行处理能力对QPPD的值有重要影响。目前,关系数据库系统在并行处理方面已能做到对查询语句的分解并行、基于数据分割的并行、以及支持跨平台多处理机的群集环境和MPP环境,能够支持多达上百个处理机的硬件系统并保持性能的扩展能力。
分享到:
相关推荐
数据仓库技术是数据库领域的重要分支,它主要针对分析型处理需求,为企业决策提供支持。传统的数据库技术主要关注操作型处理,即事务处理,这涉及到对数据库的日常查询和修改,强调快速响应、数据安全和完整性。然而...
### 数据仓库技术架构及方案 #### Teradata简介 Teradata是一家全球领先的数据仓库解决方案提供商,成立于1979年,并于2007年10月1日在纽约证券交易所上市,股票代码为“TDC”。作为企业级数据仓库领域的领导者,...
数据仓库技术简介.doc
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据管理 99 5.8 语言...
本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的...
### 数据仓库与联机分析处理技术 #### 数据仓库基本概念 **数据仓库技术产生的背景** 随着信息技术的发展,从20世纪60年代的数据采集到90年代的数据仓库、联机分析处理(OLAP)和数据挖掘技术的出现,数据处理的...
Teradata作为全球领先的企业级数据仓库解决方案提供商,其产品和架构设计原理对于理解数据仓库技术至关重要。本知识点将围绕Teradata数据仓库技术架构进行详细介绍,并深入解析整体架构和ETL架构的概念与应用。 ###...
第5章 数据仓库和技术 96 5.1 管理大量数据 96 5.2 管理多介质 97 5.3 索引/监视数据 97 5.4 多种技术的接口 97 5.5 程序员/设计者对数据存放位置的控制 98 5.6 数据的并行存储/管理 99 5.7 元数据...
### 一、《数据仓库生命周期工具箱》简介 #### 1. 数据仓库基础概念 - **定义**: 首先介绍了数据仓库领域内的一些基本概念,并对这些术语进行了明确界定。例如,“数据仓库”这一术语在不同的背景下可能会有不同的...
数据仓库技术概述 大数据技术中的数据仓库设计与开发是企业信息化建设的关键部分。数据仓库技术可以帮助企业集成大量数据,提供实时查询和数据分析功能,支持管理决策。 一、数据仓库简介 数据仓库是一种面向主题...
本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。 目录 译者序 审、译者简介 前言 第1章 决策支持系统的...
数据仓库技术的兴起源于企业对历史数据的有效管理和分析需求。早在20世纪80年代至90年代初期,大多数企业的信息系统主要关注联机事务处理(OLTP),即处理日常业务活动中的交易数据。随着信息技术的发展和数据量的...
1. 数据抽取:这是将数据从各种来源(如操作型数据库、外部文件等)导入到数据仓库的过程。这个阶段涉及到数据的互连、复制、增量加载、转换(清洗和转换成适合分析的格式)以及调度和监控。数据抽取可以定期进行,...
数据仓库技术架构及方案 数据仓库技术架构及方案是一种复杂的技术架构,旨在提供一个集成的企业级数据仓库解决方案。以下是该架构的详细介绍: Teradata 简介 Teradata 是一家全球领先的数据仓库解决方案提供商,...
#### 第1章 数据仓库和数据挖掘简介 **1.1 数据简介** 在本部分中,作者简要介绍了所使用的数据集来源及其特点。该实验涉及到两个数据集: - **超市交易数据集**:主要用于进行关联规则分析。虽然文本未提供详细...
数据仓库技术介绍(PPT 100页).ppt
- **数据仓库架构**:包括如何构建和维护数据仓库的基本原则和技术。 - **数据集成与清洗**:探讨如何将来自不同源的数据整合到数据仓库中,并确保数据质量。 - **性能优化**:提供提高数据仓库查询性能的最佳实践。...