`
NistCK
  • 浏览: 38558 次
  • 性别: Icon_minigender_1
  • 来自: 合肥
社区版块
存档分类
最新评论

浅析ETL过程的四个步骤

阅读更多

       数据仓库构建方法中,ETL的过程和传统的实现方法有一些不同,主要分为四个阶段,分别是抽取

(extract)、清洗(clean)、一致性处理(comform)和交付(delivery),简称为ECCD。

1.抽取阶段的主要任务是:

     读取源系统的数据模型。

     连接并访问源系统的数据。

     变化数据捕获。

     抽取数据到数据准备区。

2.清洗阶段的主要任务是:

     清洗并增补列的属性。

     清洗并增补数据结构。

     清洗并增补数据规则。

     增补复杂的业务规则。

     建立元数据库描述数据质量。

     将清洗后的数据保存到数据准备区。

3.一致性处理阶段的主要任务是:

     一致性处理业务标签,即维度表中的描述属性。

     一致性处理业务度量及性能指标,通常是事实表中的事实。

     去除重复数据。

     国际化处理。

     将一致性处理后的数据保存到数据准备区。

4.交付阶段的主要任务是:

     加载星型的和经过雪花处理的维度表数据。

     产生日期维度。

     加载退化维度。

     加载子维度。

     加载1、2、3型的缓慢变化维度。

     处理迟到的维度和迟到的事实。

     加载多值维度。

     加载有复杂层级结构的维度。

     加载文本事实到维度表。

     处理事实表的代理键。

     加载三个基本类型的事实表数据。

     加载和更新聚集。

     将处理好的数据加载到数据仓库。

 

        从这个任务列表中可以看出,ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说,ETL系统的设

计应该和目标表的设计同时开始。通常来说,数据仓库架构师和ETL系统设计师是同一个人。
 
 

分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    基于结构图的ETL过程建模方法基于结构图的ETL过程建模方法

    ETL过程是确保数据仓库能够获得高质量数据的关键步骤,在数据仓库的建设和维护过程中占据着极其重要的地位。随着企业数据量的不断增长以及数据来源的日益多样化,ETL过程的复杂性也随之增加。因此,如何有效地设计、...

    ETL过程的概念建模

    数据仓库作为一种重要的数据分析工具,其构建与维护涉及多个复杂步骤,其中最关键的一环就是ETL(Extract-Transform-Load)过程。ETL工具专门用于从不同的数据源提取数据、清洗数据、转换数据格式,并最终加载到数据...

    设计并实现数据仓库ETL过程(IBM讲座)

    数据仓库ETL过程是构建数据仓库的关键步骤,它涉及到数据的提取、转换和加载。IBM讲座的主题即是如何设计和实施这一过程。ETL是数据整合的核心,它从多个业务源抽取数据,清洗并整合这些数据,最后加载到数据仓库中...

    ETL的主要步骤

    ETL过程的质量直接影响到数据仓库中数据的准确性和可用性,因此,了解和掌握ETL的主要步骤对于成功构建和维护数据仓库至关重要。 #### 二、ODS区的数据采集 ##### 1. ODS区的概念 ODS(Operational Data Store,...

    基于UML的ETL过程建模方法

    ETL过程主要包括以下六个关键步骤: 1. **选择抽取数据源**: 确定哪些数据源需要抽取数据,以及如何从这些源中获取数据。 2. **转换数据源**: 包括数据过滤、编码转换、派生值计算、格式转换以及序列号自动生成等...

    ETL流程、数据流图及ETL过程解决方案.pdf

    ETL流程、数据流图及ETL过程解决方案 ETL实施解决方案 ETL流程设计

    论文研究-基于结构图的ETL过程建模方法.pdf

    通过图形化ETL过程中的元素和关联,该模型清晰直观地反映了数据的来源和流向、源数据与目标数据之间的映射和转换关系,辅助设计人员更好地进行ETL过程的设计和ETL过程的编码实现,使整个ETL设计过程更加方便、灵活。

    ETL应用浅析

    #### 四、ETL过程的主要目的 ETL的主要目的是以最小的代价(包括对日常操作的影响和对技能的要求)将针对日常业务操作的数据转化为针对数据仓库而存储的决策支持型数据。这涉及到数据的抽取、清洗、转换以及装载等...

    ETL流程、数据流图及ETL过程解决方案

    这个过程通常涉及多个步骤,每个步骤都有其特定的目标和技术挑战。 首先,"Extract"阶段是ETL流程的起点,这一阶段主要负责从各种源系统中提取数据。这些源系统可能包括关系数据库、文本文件、XML文件、Web服务等。...

    ETL架构师面试题.docx

    4. **ETL过程的四个阶段**:按照Kimball的数据仓库构建方法,ETL分为四个步骤——抽取、清洗、一致性处理和交付。抽取涉及获取源数据,清洗处理数据质量问题,一致性处理确保业务规则和数据的一致性,最后交付将处理...

    ETL规范.doc

    在数据集成过程中,ETL 是一个关键步骤,它将数据从源系统中抽取出来,经过转换和加工后,加载到目标系统中。 数据抽取 数据抽取是 ETL 过程的第一步骤,它涉及到从源系统中抽取数据。数据抽取可以通过各种方式...

    ETL 备份步骤.doc

    ETL(Extract, Transform, Load)是数据仓库和大数据处理中的关键步骤,它涉及从不同源抽取数据,对其进行转换以适应目标系统需求,然后加载到目标数据库或数据仓库。在IBM的数据集成工具DataStage中,ETL过程可以...

    BI ETL ELT Kettle 基础知识中文文档汇总

    ETL应用浅析.pdf ETL开发实施中质量保证的关键要素V1.0.pdf ETL数据增量抽取方案.pdf ETL数据集成方案初步研究.pdf ETL架构师面试题.pdf ETL流程、数据流图及ETL过程解决方案.pdf ETL流程、数据流图及ETL过程...

    ETL系列专题2 ETL数据结构

    ETL数据结构主要指的是在ETL四个核心过程(抽取、转换、清洗、加载)中使用的数据结构,而不包括源系统中的数据结构。 ETL架构设计中经常提到的Staging Area是指数据在从源系统到目标系统转换过程中的一种物理存储...

    ETL清洗转换方式和过程

    ETL主要由三个关键步骤组成:数据抽取(Extract)、数据清洗与转换(Transform)、数据加载(Load)。每一部分都至关重要,并且在设计时需逐一细致规划。 ##### 数据抽取 数据抽取是从各种数据源中提取所需数据的...

    ETL流程数据流图及ETL过程解决方案.ppt

    总的来说,ETL是一个复杂的过程,涉及到多个步骤和策略的制定。理解ETL的定义、模式及其比较,可以帮助我们更好地设计和实施数据仓库项目,以满足决策支持和数据分析的需求。在实践中,还需要持续监控和优化ETL流程...

    ETL流程数据流图及ETL过程解决方案PPT课件.pptx

    ETL流程数据流图及ETL过程解决方案PPT课件.pptx

Global site tag (gtag.js) - Google Analytics