1.两种数据结构
Normalize(规范化数据)&De-normalize(反规范化数据)
De-normalize特点:多表数据整合为一,信息综合
数据冗余,占物理空间
直接表单查询,速度快
以'空间'换取'时间'
Normalize:多表多数据查询性能差;表间物理存储独立,关联查询
2.多维模型
多维数据模型
优点:多维数据模型最大的优点就是其基于分析优化的数据组织和存储模式。
缺点:多维模型的缺点就是与关系模型相比其灵活性不够,一旦模型构建就很难进行更改。因此在建立多维模型前,一般会根据需求首先详细的设计模型,确定好包含哪些维和度量,以及数据保持在哪个粒度上才能满足用户的分析需求。
星型模型-----事实表居中,多个维表呈辐射状分布四周通过主键和外键与事实表相连。是反规范化的,有数据冗余,查询时不需要外部连接,速度快维护简单。反规范化设计其实就是第三范式3NF(或2NF)到多维(ROLAP)模型的设计过程。
雪花模型-----事实表跟维表的关联不止一层,对星型模式维表进一步层次化。介于第三范式和星型模式之间的一种设计模式。规范化的,数据冗余少,一定程度上减少了存储空间,却降低了查询性能。
实际应用中,常将两种模型混合使用。不过很多情况下牺牲空间换取时间从而提高性能。
多维数据模型作为一种新的逻辑模型赋予了数据新的组织和存储形式,而真正体现其在分析上的优势还需要基于模型的有效的操作和处理,也就是OLAP(On-line Analytical Processing,联机分析处理)。
OLAP类型:
MOLAP(Multidimensional)
--基于多维数组的存储模型,也是最原始的OLAP,但需要对数据进行预处理才能形成多维结构。
ROLAP(Relational)
--比较常见的OLAP类型,完全基于关系模型进行存放,只是它根据分析的需要对模型的结构和组织形式进行的优化,更利于OLAP。
扩展:
http://webdataanalysis.net/web-data-warehouse/data-cube-and-olap/
- 大小: 51 KB
分享到:
相关推荐
浅谈GIS空间数据模型 GIS空间数据模型是指以计算机能够接受和处理的数据形式,为了反映空间实体的某些结构特性和行为功能,按一定的方案建立起来的数据逻辑组织方式,是对现实世界的抽象表达,反映了现实世界空间...
它基于多维模型,将数据按照不同的维度和度量进行组织,用户可以通过切片、 dice 和钻取操作快速获取所需信息。 6. 数据库建模 在数据仓库的设计中,数据库建模是关键步骤。常见的方法有概念数据模型、逻辑数据模型...
数据仓库的数据模型主要分为两类:Inmon提出的基于第三范式的企业级数据仓库模型和Kimball提出的多维模型。企业级数据仓库模型采用先建立企业级数据仓库,再在其上开发具体应用的方法,优点是信息全面、系统灵活、...
浅谈随机因素对半导体桥点火性能的影响.pdf 本文研究了半导体桥点火性能受随机因素的影响,包括生产工艺和人为因素对火药各点的物理性质、火药成分、表面粗糙度和SCB桥体形状等的影响。文章使用蒙特卡洛方法模拟SCB...
黄源河 -《浅谈图论模型的建立与应用》 楼天城 -《匹配算法在搜索问题中的应用》 贝小辉 -《浅析树的划分问题》 林 涛 -《线段树的应用》 杨思雨 -《伸展树的基本操作与应用》 许智磊 -《后缀数组》 朱泽园 -...
它还提供了一个基于XML的数据定义语言,用于定义多维模型和管理SSAS。 SSAS的对象管理与控制: SSAS中管理对象主要涉及多维数据集(Cubes)、维度(Dimensions)和挖掘结构(Mining Structures)。通过.NET ...
浅谈基于协同过滤的个性化推荐算法 协同过滤是一种在推荐系统中广泛应用的算法,它主要依赖于用户的历史行为和偏好,通过分析用户间的相似性或物品间的相似性来进行个性化推荐。这种算法的基本思想是,如果两个用户...
其在水质评价中的应用主要体现在利用多种数据挖掘方法,识别和处理影响水质的多维数据,通过建立模型和算法,对水质状况进行客观、准确的评价。文章中提到的TOPSIS法(Technique for Order Preference by Similarity...
OLAP通过预先计算和存储在多维数据结构中的数据,能够快速响应用户的查询请求,支持复杂的分析操作。在电力自动化领域中,OLAP技术的运用能够帮助电力工作者更好地理解数据,从而做出更为精准的决策。 电力自动化...
数据湖不同于数据仓库,它允许原始数据以非结构化或半结构化的形式存储,不需要预先定义数据模型,这使得数据湖更适合大数据分析和机器学习任务。数据湖的出现不仅改变了数据架构,还推动了企业对数据管理的思维方式...
通常,数据集市采用星型或雪花型模型,便于多维分析,为数据挖掘提供基础。 在技术选择上,市场上有多种数据仓库解决方案,如微软的SQL Server适用于小型至中型企业,Oracle的DW解决方案适合中型企业,Sybase IQ在...
多维随机变量及其分布对于理解和分析复杂数据结构至关重要。同时,方差分析和回归分析有助于揭示数据间的关联性,随机过程,尤其是Markov过程,则在时间序列分析中起到关键作用。参数估计和Bayes理论则是构建大数据...
它是多学科交叉的产物,融合了数据库技术、统计学、机器学习、模型识别、人工智能、建模技术、电子技术、信息技术等众多领域的成熟工具和技术。 数据挖掘的过程主要包括五个步骤:定义问题、数据准备、数据挖掘、...
通过OLAP及数据挖掘技术,建立高效、易用、实用、灵活的决策支持应用分析模型和数学算法、智能数据挖掘模型。 随着信息化水平的不断提高,数据仓库技术能够帮助教育考试机构充分利用历史数据,为防止生源流失、根据...
1. 三维可视化:三维GIS技术可以将地质数据转换成可视化的三维模型,为地质工程师提供直观的地形地貌和地质结构,包括煤层、断层、褶皱等地质构造,有助于更好地理解矿区复杂的地质条件,为采矿设计和开采计划的制定...
NumPy是Python科学计算的核心库,它提供了高效的多维数组对象以及一系列用于处理数组的函数。NumPy数组允许进行大规模数值计算,并且由于其底层使用C语言实现,性能出色。通过NumPy,科学家可以轻松地执行向量、矩阵...
这些系统通过多维数据查询和分析,将复杂数据以图表形式直观展示。 数据挖掘的过程可以分为多个步骤。首先,需要确定应用领域,这涉及理解领域基本知识和目标。之后,需要建立目标数据集,选择相关的数据集或数据...
数据分析时要考虑到数据的异构性和多维性,确保能够准确地提取信息。 4. 在数据处理阶段,需要对收集到的样本进行预处理,包括填补数据空缺、消除样本间的差异等。数据清洗工作应遵循判定准则,确保数据的准确性和...
Mapreduce则是一种编程模型,用于处理大量数据。除此之外,还有数据存储技术、大数据分析查询技术以及大数据安全技术等。 大数据存储技术的关键在于分布式文件存储系统,如HDFS(Hadoop Distributed File System)...
数据统计分析是通过收集、整理和分析数据来满足用户对数据的需求,其主要方法包括数据ETL(提取、转换、加载),分类统计和多维分析等。数据挖掘则更注重于利用算法在数据中找出潜在关联性,预测未来的发展趋势,...