数据仓库管理员的主要职责:
1,通过业务领域、工作职责和计算机能力来理解用户
2,通过数据仓库来确定业务用户所需要做的决定
3,使用数据仓库区分最好的用户:制定高效的、大影响力的决定的用户
4,找到潜在的新用户并让它们了解数据仓库
5,选择最有效、最易操作的数据子集到数据仓库,而不是将汪洋大海般的数据都弄过来
6,使得用户界面和应用简单、模板化,特别是匹配用户的认知和理解能力
7,确保数据准确且可信任,让数据保持一致性
8,持续监控数据和发布的报表的准确性
9,搜索新的数据源,持续改进数据仓库,从而适应报表需求和核心业务
10,通过展示数据仓库的业务决策所带来的好处而证明你的软件、职业、硬件开销有价值
11,按规律发布数据
12,保持业务用户对你的信任
13,维持业务用户、执行赞助和老板happy
数据仓库的组件:
1,Operational Source System
即应用遗留系统
2,Data Staging Area
做ETL(extract-transformation-load)的地方,从Operational Source System抽取数据,过滤、合并、消重、转换数据格式,然后加载到展示区
Data Staging Area就相当于厨房,拿到很多原材料,加工之后成为美味佳肴,送给餐厅
Data Staging Area的核心架构需求就是它限制业务用户访问,且不提供面向查询和展示的服务
3,Data Presentation Area
含有一系列的数据集市,每个数据集市展现了一个单独的业务进程需要的数据,这些业务进程跨越了组织功能的界限
数据集市采用dimensional modeling和star schema,和3NF建模方式不同
第一范式(1NF):数据库表中的字段都是单一属性的,不可再分
第二范式(2NF):数据库表中不存在非关键字段对任一候选关键字段的部分函数依赖
第三范式(3NF):在第二范式的基础上,数据表中如果不存在非关键字段对任一候选关键字段的传递函数依赖则符合第三范式
鲍依斯-科得范式(BCNF):在第三范式的基础上,数据库表中如果不存在任何字段对任一候选关键字段的传递函数依赖则符合第三范式
在可查询的Data Presentation Area里的数据必须是dimensional、atomic,必须依附于数据仓库总线架构
4,Data Access Tools
依赖于Data Presentation Area的多种建模、查询、报表、分析、数据挖掘工具
Dimensional Modeling:
1,Fact Table
包含业务数据的表,如daily_sales_fact_table(date, product_key, store_key, quantity_sold, dollar_sales_amount)
fact table分三种粒度类别:transaction/periodic snapshot/accumulating snapshot
2,Dimension Table
Dimension table是fact table的entry point,包含了业务对象的文本描述,如
product_dimension_table(product_key, product_description, sku_number, brand_description, category_description, department_description,...)
Fact table和Dimension table需要join来查询数据,所以又称之为join star schema
每个数据集市可能包含多个fact tables,每个fact table可能对应5到15个dimension tables
现在FW的数据仓库模型就是这样,AS的log和UI/BVI的metadata被extract到BE做ETL,生成Fact table和Dimension Table供UI reporting使用
但是遇到的问题是fact table只有一个,而且特别大,所以可以按业务逻辑相应拆分
另外没有periodic snapshot和accumulating snapshot,加上后对Reporting的performance就会好很多
分享到:
相关推荐
《The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling Third Edition》是数据仓库领域极具权威性的参考书籍,作者Ralph Kimball与Margy Ross共同执笔。本书不仅深入探讨了数据仓库的设计与...
The first edition of Ralph Kimball's The Data Warehouse Toolkit introduced the industry to dimensional modeling, and now his books are considered the most authoritative guides in this space....
《The Data Warehouse Toolkit second edition The Complete Guide To Dimensional Modeling》 《The Data Warehouse Lifecycle Toolkit——Expert Methods for Designing,Developing,and Deploying Data Warehouses...
数据仓库工具箱的最新版 数据仓库领域大师级作品 英文版 [目前国内没出中文版] 2013年出版
- **书名**:《数据仓库工具箱》第三版(The Data Warehouse Toolkit Third Edition) - **作者**:Ralph Kimball 和 Margy Ross - **出版社**:John Wiley & Sons, Inc. - **出版日期**:2013年 - **ISBN**:978-1-...
大师著作的《The Data Warehouse Toolkit-The Complete Guide to Dimensional Modeling》是数仓工程领域最流行的维度建模经典。 在具体建模之前,需要规划好我们的数据体系架构,划定边界,搭建统一规范的体系架构...
在数据仓库中,维度建模(Dimensional Modeling)是一种关键的技术,它通过定义数据的维度和度量来支持数据分析。维度模型通常采用星型模式(Star Schema)或雪花模式(Snowflake Schema)来实现,其中星型模式是最...
##### 1. 多重建模工具箱 (You Have Multiple Models in Your Development Toolkit) - **定义**:面向对象和组件开发项目通常需要使用多种类型的模型来充分描述系统的各个方面。 - **目的**:确保开发团队能够全面...
1. **下载和准备**:首先,你需要从可靠的来源下载HP DMI TOOLKIT工具,确保文件的安全性。文件名可能是“HP+DMI+TOOLKIT”,解压缩后得到相应的可执行文件。 2. **安全模式启动**:由于BIOS问题可能导致系统无法...
《Eclipse Modeling Project: A Domain-Specific Language (DSL) Toolkit》是关于利用Eclipse平台进行领域特定语言(DSL)开发的重要资源。DSL是一种为特定领域或问题设计的编程语言,通常比通用编程语言更为简洁、...
标题中提到的“数据仓库设计经典之作(34种ETL子系统)”指的是Ralph Kimball和Margy Ross合著的《The Data Warehouse Toolkit: The Definitive Guide to Dimensional Modeling》一书。本书是数据仓库设计和维度建模...
数据仓库ETL工具箱 Data Warehouse ETL Toolkit
数据仓库ETL(Extract, Transform, Load)工具箱是构建数据仓库系统的关键组成部分,它涵盖了从源系统中抽取数据、转换数据以及加载到目标数据仓库的一系列过程。在这个压缩包中,我们找到了“数据仓库ETL工具箱 ...
随着The Data Warehouse Toolkit(1996)第1版的出版发行,Ralph Kimball为整个行业引入了维度建模技术。从此,维度建模成为一种被广泛接受的表达数据仓库和商业智能(DW/BI)系统中数据的方法。该经典书籍被认为是维度...
**Coolite Toolkit 学习笔记一至九** Coolite Toolkit 是一个强大的开发工具集,尤其在软件工程领域中,它为开发者提供了丰富的功能,帮助他们更高效地进行应用程序的构建和维护。这篇学习笔记系列涵盖了从基础到...
### 使用 IBM DB2 Migration Toolkit 迁移数据 #### 背景介绍 随着技术的发展,企业经常需要在不同的数据库系统之间迁移数据。IBM DB2 Migration Toolkit (MTK) 是一款强大的工具,它可以帮助用户轻松地将数据从...
《Data warehouse ETL Toolkit》的中文版,中文名为数据仓库ETL工具箱, 一本介绍数据仓库ETL设计与开发的经典书籍,是Kimball数据仓库序列之作中的一本,其它两本为维度建模指南和数据仓库生命周期。
1、percona-toolkit-3.3.1-1-最新版.zip 2、支持centos、redhat、orace linux、ubuntu、debian、麒麟V10、欧拉系统等个版本Linux系统。 3、内部各版本安装包列表如下: percona-toolkit-3.3.1-1.el7.x86_64.rpm、 ...
Apeaksoft iOS Toolkit是一款专业的iOS设备管理与数据恢复软件,它支持iPhone、iPad、iPod touch等多种苹果设备,提供包括联系人、短信、照片、视频、笔记、通话记录等在内的多种数据类型恢复功能。特别版可能包含...