读了数据仓库第2章,这一章讲解的是数据仓库环境。
梳理出来的知识点:
1、数据仓库是面向主题的。(数据仓库的数据只对于特定的领域或客户是有意义的。)
2、数据仓库集成。这是数据仓库所有特性中最重要的特性。数据仓库中的数据是从多个数据源来的。集成的功能之一就是消除不同数据源对于同一数据的表示差异。
3、数据仓库是非易失的。数据仓库中的数据一般意义上不进行数据更新。
4、数据仓库是随时间变化的。
5、建立数据仓库不是一蹴而就的。相反,数据仓库只能一步一步地进行设计并载入数据。即它是进化的不是革命性的。一下子完整地简历一个数据仓库的费用、所需的资源和对环
境的破坏,都决定了数据仓库的建立要采用有序地反复和一步一步进行的方式。对于数据仓库的开发而言,爆炸式的开发智慧带来灾难性的后果 ,这种方法永远不是合适的选择。
6、当数据仓库数据量非常庞大时可以考虑使用“活样本数据库”。活样本数据库是从数据仓库中取得的真实档案数据或轻度综合数据的一个子集。(个人感觉活样本数据库就是使
用概率论的理论从全集数据库中随机抽取数据以使数据在某一方面统计概率近似于真实数据环境)
本章小结如下:
数据的粒度与分区时进行数据仓库设计决策的两个最重要的方面。对于大部分机构来说,采用双重粒度是非常有意义的。数据分区是将数据分解成为小的物理单元。通常,分区时在应用层而非系统层 进行。
数据仓库开发最好是以反复的方式进行。首先,简历数据仓库的一部分,然后再建立另一部分。幻想一次建成数据仓库是不合适的。其中一个原因是数据仓库的最终用户工作于一种发现模式下,只有在数据仓库的第一次循环开发完成后,开发者才能确定数据仓库中究竟应该包含什么。
数据仓库中数据的粒度是数据仓库设计中最重要的问题。非常低的粒度会带来大量数据,系统最终会被巨大的数据量所压垮。非常高的粒度虽然处理起来高效,但却不能进行许多需要细节数据的分析。此外,数据仓库中的粒度的选择应该在清楚地知道哪些体系结构部件需要从数据仓库获取数据的前提下进行。
令人惊奇的是有许多设计也可以用来处理粒度的问题。其中一种方法是建立一个服务于不同类型查询与分析的双重粒度的多层数据仓库。另一种方法是建立一个活样本数据库,这样统计处理就可以再这个活样本数据库上进行非常高效的处理。
数据仓库的分区也由于许多原因而特别重要。数据分区似的数据可以在小的分开的离散单元中进行管理。这使得数据仓库中的数据装载变得简单,建立索引也更流畅,数据归档也变得容易,等等。至少有两种对数据进行分区的方法---在DBMS/操作西天那个层和在应用层。每一种分区方法都有各自的优缺点。
数据仓库环境中的每一数据单元都有一个时刻与它关联。一般情况下,这个时刻在每个记录中以快照形式出现。另一些情况下,这个时间是应用于整个表的。数据经常是按天、月或季度汇总的。另外,数据以一种连续的方式创建。数据的内部时间组织可以用多种形式实现。
审计可以再数据仓库中进行,但却不应该在其中进行。相反,审计最好置于细节的面向操作系统型事务的环境中进行。在数据仓库中进行审计会强制数据仓库采用某种粒度级,但这可能并不是其他处理所需的力度级。
数据仓库中的数据生命周期包含了数据的清理。开发者经常在设计规范中忽视了清理。结果导致数据仓库永远地增长下去,这当然是不能能的。
分享到:
相关推荐
NF 数据仓库建模简介......................................................................................102.5.2 3NF 数据仓库建模的优点....................................................................
数据仓库读书笔记.pdf
数据仓库学习笔记是一个重要的资源,尤其对于那些希望深入理解数据仓库技术的人来说。在这个Word文档中,作者详尽地概述了数据仓库的关键概念、设计原则以及实际应用。以下是一些主要的知识点: 一、数据仓库的基本...
本书论述在设计和建造数据仓库中涉及的所有主要问题,... 本书主要是面向数据仓库的设计、开发和管理人员,以及构造和使用现代信息系统的人员,也适于信息处理方面的高校师生和从事传统数据库系统技术工作的人阅读。
以下是对这些阅读笔记的详细解读: 1. **数据仓库与 OLTP 系统的对比**: 数据仓库(Data Warehouse)和在线事务处理(OLTP)系统是两种截然不同的数据库应用场景。OLTP系统主要服务于实时业务操作,强调高并发的...
本文将以计算机书籍的读书笔记为参考,探讨ASP.NET框架的运作机制和数据仓库的核心概念,为构建和理解这两项技术提供详实的指导。 ASP.NET是一种广泛使用的Web应用框架,其在.NET平台上构建,允许开发者使用.NET...
数据挖掘可以挖掘的数据类型包括数据库数据、数据仓库、事务数据、时间序列数据、数据流、空间数据、工程设计数据、超文本和多媒体数据等。 数据挖掘的功能包括特征化与区分、频繁模式、关联和相关性挖掘、分类与...
数据中台与数据仓库的差异在于,数据仓库主要用于管理决策和业务分析,而数据中台的目标是将数据服务化,深入到各个业务环节。数据中台与现有信息架构并非竞争关系,而是互补和促进的关系,共同服务于企业的数字化...
《数据仓库与数据挖掘技术原理及应用》读书笔记模板x.pptx
感谢刘的整理:)这本书是数据库题库考试的参考书。
这可能涉及到云计算平台的选择与部署,数据仓库和大数据平台的建设,以及各种新兴技术的集成。 此外,数字化转型中的数据治理不容忽视。数据是数字化转型的燃料,因此,建立有效的数据治理机制,确保数据的质量、...
《数据仓库原理》系列博文,是笔者在学习数据仓库与商业智能时的读书笔记,现重新梳理思路,分享在这里,希望读者批评指正。 本系列主要包括以下几部分内容: [1].数据库与数据仓库 为什么有了数据库还...
《SQL Server 202x数据挖掘与商业智能完全解决方案》读书笔记模板是基于SQL Server 2005的商业智能解决方案的详细讲解,涵盖了数据仓库、商业智能、数据挖掘、商务智能应用、数据报表、OLAP和ETL等方面的知识点。...
数据服务体系建设则关注如何将处理后的数据以服务的形式提供给企业内外部的用户,如通过API接口或者数据仓库实现数据的查询和分析。这需要构建高效的数据服务体系,满足不同时效性和应用场景的需求。 最后,数据中...
数据仓库笔记.docx可能包含了关于数据仓库设计原则、ETL流程详解、数据模型设计实例、性能优化技巧以及工具使用心得等内容。通过阅读这份文档,你可以深入理解数据仓库的概念、构建方法和最佳实践,从而更好地应用于...
读书笔记:本仓库是算法学习的专题笔记内容来源于《数据结构与算法之美》、《Hello算法》和《算法第四版》
"医疗大数据分析与应用读书笔记模板" 本书将对医疗大数据进行全面、透彻的分析,从医疗大数据的现状开始,介绍医疗大数据方向的统计、数据挖掘、数据预处理、建模以及可视化等技术与应用。此外,还介绍了医疗领域的...