笔记
数据仓库与数据挖掘笔记
相关概念
数据仓库:是一个数据库环境,它提供用户用于决策支持的当前和历史数据,这些数据在传统的数据库中不方便得到。
特点:面向主题,集成的,相对稳定的,反应历史变化的。
组成:数据仓库的数据库,数据抽取工具,元数据,访问工具,数据集市,数据仓库管理,信息发布系统。
数据挖掘:就是从大量数据中获取有效的,新颖的,潜在有用的,最终可理解的模式的过程。
数据挖掘的分析方法:
直接数据挖掘:利用可用的数据建立模型,用模型对剩余的数据进行描述,包括分类,估值,预言等分析方法。
见解数据挖掘:没有选出具体变量并用模型进行描述,而是在搜有的变量中建立起关系,如相关性分组,关联规则,聚集,描述和可视化及复杂数据来兴的挖掘。
数据仓库和数据挖掘的关系:矿井和挖矿的关系。
事务处理分类
OLTP 联机事务处理。
OLAP 联机事务分析。
数据仓库技术
OLAP相关主要概念
多维数据集:联机分析处理的主要对象,它是一个由一组维度和度量值定义的多维结构的集合。
维度:一组数据的属性,(面向对象中对象的属性,数据表中的列)。但是维可能是抽象的,比如时间维可能是对象中年,月,日,属性的合体。
度量值:就是维度属性的值。
多维分析:把多维数据,用切片,切块,钻取,旋转等分析方法剖析数据,使用户从不同的角度来观察数据。
1) 钻取:向上钻取,向下钻取,交叉钻取,钻透。向上钻取:比如现在查看的是年月维度的数据,向上钻取就是现在要查看以年维度的数据。
2) 切片和切块:在一部分维上选定值后,度量值在剩余维的分布,两维是切片,三维是切块。
3) 旋转:变换维的方向,行列互换。
OLAP技术:使分析人员,管理人员,或执行人员能够从多角度对信息进行快速,一致交互存取,进而获得对数据深入了解的技术。
OLAP分类
ROALP 基于关系数据库
MOLAP 基于独立多维数据集
HOLAP 混合方式
工具:通过多维方式对数据进行分析,查询,报表的工具。
数据仓库实施的关键环节和技术
数据抽取:数据从联机事务系统,外部数据源,脱机的数据存储介质中导入数据仓库。
数据存储:数量大,并行处理,查询优化。(B树索引对重复度很高的列作用不大,位图索引将以二进制表示字段的状态,将查询变为筛选),支持多维查询。多维数据库,星形模型(目前主流和前景广阔)
数据表现:多维分析,统计分析,数据挖掘。
数据仓库实施方法
常用产品:
Molap:cognos,essbase,
Rolap:oracle(discoverer,express,reports) 微软(sql server analysis services,sql server integration services,sql server reporting services) IBM(db2 olap server)
数据仓库系统的体系结构
数据源:数据的来源
数据存储与管理:把数据进行抽取,清理,有效的集成,按照主题重新组织,最终确定数据仓库的存储结构。同时组织存储数据仓库的元数据。
Olap服务器:ROLAP基本数据和聚合数据放在RDBMS之中, MOLAP:基础数据和聚合数据放在多维数据集中。HOLAP:基础数据放在 RDBMS中,聚合数据放在多维数据集中。
前端工具与应用:数据分析针对OLAP服务器,报表,挖掘也可针对数据仓库。
两层架构
独立数据集市
依赖型数据集市和操作性数据存储
逻辑性数据集市和实时数据仓库
独立的数据仓库体系结构
由源数据库(内部外部)===》经过抽取清洗,调和,导出 到达 ==》数据集结区===》加载===》数据仓库(唯一的企业级的数据仓库)===》填充====》数据展示:查询工具,报表工具,建模与挖掘工具。
其中抽取转换加载称为ETL过程。
基于数据集市的数据仓库体系结构
基于依赖性数据集市和操作性数据存储的数据仓库体系结构
基于逻辑性数据集市和实时数据仓库的体系结构
相关推荐
数据仓库的概念由William H. Inmon提出,他定义数据仓库是一个面向主题的、集成的、非易失的、随时间变化的数据集合,用于支持管理决策。面向主题意味着数据仓库围绕特定业务领域的关键主题组织,如客户、产品或销售...
数据仓库概念 数据仓库概念是指通过将来自各种来源的数据集成到一起,以支持业务决策的过程。数据仓库是一个大的、集中的存储库,它存储了来自各种来源的数据,并提供了快速和灵活的访问方式,以满足业务决策的需求...
数据仓库概念 数据仓库概念是数据挖掘和商业智能(Business Intelligence,简称BI)中的核心概念之一。数据仓库是一个集成了来自多个数据源的数据存储系统,旨在支持商业智能和数据挖掘的应用。 信息集成问题是...
数据仓库概念、设计及应用是指在企业管理和决策中面向主题的、集成的、与时间相关的、不可修改的数据集合。数据仓库是一个过程,对分布在企业内部各处的业务数据的整合、加工和分析的过程。 知识点1:数据仓库的...
数据仓库概念与技术详解 数据仓库,作为现代企业数据分析的核心组成部分,其概念和技术的重要性不容忽视。数据仓库是一种用于存储和管理历史数据的特殊数据库,旨在支持业务智能(BI)活动,特别是分析报告、数据...
数据仓库是一种专门用于数据分析和决策支持的系统,它从企业的各个分散的事务处理系统中抽取、转换和加载数据,形成一个...通过理解并实施适当的数据仓库概念和设计原则,企业能够更好地利用其数据资产,提升竞争力。
### 数据仓库概念详解 #### 一、数据仓库的组成及作用 **数据仓库**是一种用于存储和管理大量历史数据的特殊类型数据库系统,主要用于支持企业的决策制定过程。它通过收集和存储来自不同来源的数据,为企业提供了...
### 数据仓库概念建模解决方案 #### 摘要与引言 数据仓库设计中的概念建模扮演着至关重要的角色,其目标是从高层次上抽象出数据仓库的结构与过程,以获得实现独立性。本文主要介绍一种称为DFM(维度事实模型)的...
第03章 定义数据仓库概念和术语 共46页.ppt 第04章 业务、逻辑、维度和物理建模 共66页.ppt 第05章 数据库大小、存储、性能和安全注意事项 共52页.ppt 第06章 ETL过程:提取数据 共36页.ppt 第07章 ETL过程:转换...
数据仓库的概念旨在解决企业日常运营中产生的大量分散数据的管理问题,通过整合来自不同业务系统的数据,提供一个统一的视图,以支持决策者进行高效、准确的分析。 数据仓库的关键特性包括: 1. **面向主题**:...
数据仓库概念.pptx
数据仓库概念一览.doc
比较全面的介绍了数据仓库相关的术语和概念等。。。。。。
数据仓库概念、设计应用.pptx
数据仓库概念(1).pptx