`

数据仓库建设碎念

 
阅读更多

数据仓库呈现给数据应用人员的是一张张数据表,而仓库建设人员要解决的关键问题是:如何对客观世界的复杂业务逻辑进行建模,高效组织数据,将模型转化成数据表,最大化的发挥数据价值,应对业务变更以及进行上层业务支撑。如果数据组织不好,将会产生大批垃圾数据, 如果数据不被使用,建设数据仓库也就毫无用处。

数据开发

数据仓库严格来说是一种体系结构,在工作过程中,有的同学认为数据开发相对系统开发技术含量低,个人认为造成这种想法的主要原因是:只单纯的通过ETL方式解决单个的需求,没有站在一个全局的高度来解决问题,建设数据。在处理需求过程中,要加深业务理解,将复杂的业务逻辑用简单的模型来表示,比如引入流量漏斗模型,不能停留在处理单个需求层面上,注重总结积累,进行指标体系建设等。

系统开发和仓库建设的目的都是为了解决问题,本质上是一样的,两者都面临着各种各样难以解决的问题,建设好数据仓库是相当不容易的,建设数据仓库过程中也是非常需要采用工程方法来提升效率的,如维护hadoop、hive数据仓库的支撑平台或者将重复性工作自动化起来,所以仓库建设和系统开发并不矛盾,我们应该积极寻找结合点,利用工程方法不断提升我们建设数据仓库的效率,而不能陷入疲于应付需求的泥潭。

数据模型

好的组织方式会提升数据质量,让数据仓库发挥更大价值。不好的组织方式可能会导致各种问题,比如数据重复建设,复用率低,一致性差,进而带来口径不一致,理解困难、不易于使用等等问题,失去数据仓库建设的价值,造成各种资源浪费。

数据模型是对现实事物的反映和抽象,它可以帮助我们更加清晰地了解客观世界。是抽象描述现实世界的一种工具和方法,数据仓库建模在业务需求分析之后开始,是数据仓库构造的正式开始。
在创建数据仓库的数据模型时应考虑:

  (1)满足不同层次不同用户的信息需求。

  (2)兼顾查询效率与数据粒度的需求。数据粒度与查询效率往往是相互矛盾的,细小的粒度保证了信息查询的灵活性,但降低了查询的效率。因此,建模要提供足够的数据粒度,并保证查询的效率。

  (3)适应需求的变化。用户的信息需求随着业务的变化,建模要考虑支持需求的变化。

  (4)提供可扩展性。数据模型的可扩展性决定了数据仓库对新的需求的适应能力,建模既要考虑眼前的信息需求,也要考虑未来的需求。

  合理而完备的数据模型是用户业务需求的体现,是数据仓库成败的技术因素。因此,数据模型的创建能直接反映出业务需求,对系统的物理实施起着指导性的作用,是数据仓库的核心问题。

数据模型的建设主要能够帮助我们解决以下的一些问题:

  1. 进行全面的业务梳理,改进业务流程。在业务模型建设的阶段,能够帮助我们的企业或者是管理机关对本单位的业务进行全面的梳理。通过业务模型的建设,我们应该能够全面了解该单位的业务架构图和整个业务的运行情况,能够将业务按照特定的规律进行分门别类和程序化,同时,帮助我们进一步的改进业务的流程,提高业务效率,指导我们的业务部门的生产。
  2. 建立全方位的数据视角,消灭信息孤岛和数据差异。通过数据仓库的模型建设,能够为企业提供一个整体的数据视角,不再是各个部门只是关注自己的数据,而且通过模型的建设,勾勒出了部门之间内在的联系,帮助消灭各个部门之间的信息孤岛的问题,更为重要的是,通过数据模型的建设,能够保证整个企业的数据的一致性,各个部门之间数据的差异将会得到有效解决。
  3. 解决业务的变动和数据仓库的灵活性。通过数据模型的建设,能够很好的分离出底层技术的实现和上层业务的展现。当上层业务发生变化时,通过数据模型,底层的技术实现可以非常轻松的完成业务的变动,从而达到整个数据仓库系统的灵活性。
  4. 帮助数据仓库系统本身的建设。通过数据仓库的模型建设,开发人员和业务人员能够很容易的达成系统建设范围的界定,以及长期目标的规划,从而能够使整个项目组明确当前的任务,加快整个系统建设的速度。

关系模型

将客观世界划分成关系与实体,数据仓库由一系列的关系以及实体组成,严格遵守3nf范式,数据一致性比较强,冗余度低。

通过参照完整性来保证一致性,采用关系模型生成的数据仓库往往成蜘蛛网结构,可读性差,不容易入手,对于非仓库建设人员要使用数据仓库中的数据成本是非常高的。

维度建模

维度建模方式将客户世界分解成事实和维度,建模过程的一大部分工作体现在抽取维度以及事实,相对来说更加直观,容易理解,在业务变更较为频繁的场景可以更加有效地覆盖业务需求。

数据仓库由一系列的事实表以及维度表组成,事实表与维表之间呈星型连接,事实表之间又通过特定维度联系,形成雪花结构。

3NF范式

3nf在第一范式原子性、第二范式不存在部分依赖基础上加入消除传递依赖,其目的是降低数据冗余度,提高数据一致性。关系模型有时候也被称为范式建模,但是这种说法是不太严谨的。因为关系模型好维度建模生成的表都可以符合3nf范式。

模型选择

划分世界的方式不一样:一个是实体关系,一个是维度模型,但都可以使用范式。

关系模型

优点

  • 灵活性
  • 冗余度低
  • 一致性
  • 易维护

缺点

  • 不直观
  • 获取效率不高

采用这种方式建设数据仓库,通过满足参照完整性,3nf,有利于保证数据一致性,但数据仓库结构相对来说不易于理解,呈蜘蛛网结构,学习成本高。

维度模型

优点

  • 直观性
  • 易用性
  • 访问高效

缺点

  • 可能导致不一致
  • 数据冗余
  • 灵活性差
  • 适用范围有限

数据仓库建设人员

追求数据一致性、灵活性、易维护。

最终用户

追求数据访问高效性、直观,易用使用。

建设方式

先局部再整体构建模式:先创建团购的数据集市,然后在扩大到公司的数据仓库,通过一致性维度和一致性事实和其它数据集市有效整合。

数据仓库问题

数据建设过程存在以下问题。

  • 时效问题
  • 重复建设
  • 数据不完整,缺失
  • 数据不一致
  • 数据不准确
  • 获取困难
  • 有歧义

需要注意的问题

数据采集过程要引起注意,底层数据是仓库基础,如果底层数据出现问题,那么将会严重影响到数据仓库质量,基石崩溃了,意味着构建在基石之上的整个数据仓库都会出问题,另外修改底层数据往往也会引起较大的改动。

数据采集过程

  • 业务理解,深入到系统架构
  • 数据采集过程,引起注意,不出错,不重复,不遗漏
  • 注意验证数据,异常值,控制,有效值完整定义
  • 跟踪方案等一定要健壮,可扩展
  • 拒绝依赖不健壮的数据,不要偷懒,图一时省事,后期维护会极端困难
  • 监控日志数据质量
  • 系统迭代,埋点准确性验证
分享到:
评论

相关推荐

    【推荐】数据仓库建设学习资料合集(38份).zip

    推荐,数据仓库建设学习资料合集,包含建设规范、架构、工具及模型等资料。共38份。 2021数据仓库服务常见问题-华为-51页 2021云数据仓库专业服务-华为-168页 阿里云数据中台-金融行业新一代数据仓库解决方案 ...

    数据仓库建设规范模板.pdf

    数据仓库建设规范模板.pdf 数据仓库建设规范模板是为了提供统一的命名标准和编程规范,提高系统的规整性和代码的可读性,减轻维护工作量,提高工作效率。本文档主要介绍了数据仓库中的数据库对象命名规范、数据库...

    银行数据仓库建设项目方案.docx

    ### 银行数据仓库建设项目方案 #### 一、系统总体架构 **1.1 总体架构设计概述** 总体架构的设计旨在构建一个全面、高效且可扩展的银行数据仓库系统,以支持银行的各项业务需求。它包含了基础技术架构、应用架构...

    浅谈数据仓库建设中的数据建模方法

    浅谈数据仓库建设中的数据建模方法浅谈数据仓库建设中的数据建模方法所谓水无定势兵无常法。不同的行业有不同行业的特点因此从业务角度看其相应的数据模型是千差万别的。目前业界较为主流的是数据仓库厂商主要是IB

    数据中心数据仓库建设规范模板.pdf

    XX数据仓库建设规范 版本号V1.0 修订历史 版本号 作者 内容提要 核准人 发布日期 1.0 初稿 1 概述 本文档制定了XX数据仓库中数据库对象的命名规范(用户、表、 视图、存储过程、函数、表分区、主键、索引、序列等)...

    (完整word版)建设数据仓库的八个步骤.pdf

    数据仓库的建设是一个复杂而关键的过程,涉及到多个步骤和阶段,旨在为企业提供高效的数据存储、管理和分析能力。以下是建设数据仓库的八个核心步骤的详细解释: 1. **系统分析与主题确定**:此阶段主要是与业务...

    精选企业数据仓库建设应用场景数据仓库技术架构ETL工具数据仓库模型数据仓库体系参考学习资料(30份).zip

    15个主流DW各功能性能技术参数详细对比分析.xlsx Good_OneData说明文档(103页).pptx 企业数仓建设体系(50页 PPT).pptx 数据仓库ETL工具全解(58页).docx 数据仓库与数据挖掘原理及应用...数据仓库建设方案.docx

    数据仓库建设方案

    数据仓库建设方案 基于Informatica、oracle、SAP BO

    数据仓库建设方案-2018-3-28.pdf

    数据仓库建设方案是企业信息化建设中的一个重要组成部分,它关乎企业能否有效地管理和分析大数据,进而为企业决策提供支持。本方案深入探讨了数据仓库的整体架构设计、数据挖掘与清洗转换的实施方法,并涉及了相关...

    数据仓库建设中如何持续改进数据的质量

    数据仓库建设中持续改进数据质量的关键在于确保数据的完整性、准确性、一致性、时效性,这四个要素是衡量数据仓库质量的重要标准。数据完整性涉及到数据源的完整性、数据取值的完整性以及维度取值的完整性,确保所有...

    国外交通领域数据仓库建设经验材料

    ### 国外交通领域数据仓库建设经验材料 #### 核心知识点概述 本文档主要介绍了美国马萨诸塞州在交通安全工程领域构建全省范围数据仓库的经验与实践。该文档详细探讨了数据仓库的设计与应用,并针对数据质量、数据...

    数据仓库建设技术 oracle数据仓库设计指南 共7页.pdf

    数据仓库建设是IT行业中至关重要的一个领域,尤其是在大型企业中,数据仓库的构建能够帮助企业进行高效的数据分析,制定明智的决策。Oracle数据仓库设计指南是这个领域的权威参考资料,它为数据仓库的建设和优化提供...

    数据仓库数据湖数据中台建设详解-4.9

    全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、数据湖、数据中台。全面详解数据仓库、...

    数据仓库建设方案详细.docx

    数据仓库建设方案旨在构建一个高效、可扩展的系统,用于收集、存储、分析和提供来自列车监控与检测系统(TCMS)和其他子系统的大量实时和离线数据。这个方案特别适用于互联网环境,其中数据的快速处理和分析至关重要...

    上海银行的数据仓库建设情况

    上海银行的数据仓库建设是应对银行业务快速发展和监管需求日益增加的策略之一。数据仓库的建设旨在解决银行在处理大量用户数据、复杂数据关系以及多样化分析需求时遇到的困难。传统方式下,银行需要依赖人工完成大量...

    2023数据仓库建设方案.pdf

    数据仓库建设方案 数据仓库建设方案是企业信息化建设的重要组成部分,旨在解决企业数据孤岛、报表查询慢、数据标准不一致等问题。该方案旨在建立一个统一的数据仓库系统,实现数据标准化、数据集成和数据分析的一致...

    数据仓库设计说明书

    8.1 数据仓库中的外部数据/非结构化数据 157 8.2 元数据和外部数据 158 8.3 存储外部数据/非结构化数据 159 8.4 外部数据/非结构化数据的不同 组成部分 160 8.5 建模与外部数据/非结构化数据 160 8.6 间接报告 161 ...

    数据仓库之路:数据仓库方法论

    ### 数据仓库方法论详解 #### 一、引言 数据仓库是现代企业信息...Oracle数据仓库方法论(DWM)为数据仓库建设提供了有价值的参考框架,帮助企业更好地理解和实施数据仓库项目,从而在竞争激烈的市场环境中脱颖而出。

Global site tag (gtag.js) - Google Analytics