`
阅读更多
由于数据源的多样性,数据传输条件等不确定性以及用户对最终统计数据的选择性等因素,使得ETL在处理上需要考虑业务数据处理的要求,还要考虑数据传递过程中如何解决这些多样性和不确定性,以及数据转换的复杂性等方面都需要考虑。ETL的设计一定是针对具体的应用相关的,针对不同的业务和分析模型有不同的抽取要求。

    所以ETL整体架构的灵活性和可扩展性都是非常重要的。但无论依赖的条件多么变化在设计过程中都要依照一下原则

    1.在ETL设计之前需要根据业务的特性确定分析的主题,和分析模型的结构,区分维度数据和和事实数据,建立相应的数据仓库的模型。在设计过程中需要考虑是否需要预留字段,增加属性等等。

    2.数据的粒度,在同一CUBE中必须统一。事实表中的粒度就是维度表与事实表中相关联的最小级别的数据。在分析过程中尽可能采用粗的粒度可以有效的减少数据量。但是在不同的分析中可能会有差异,比如在话务量的趋势分析和预测的分析主题中可以以小时为粒度,但是在一些实时性要求比较高的忙时分析中需要采用15分钟甚至5分钟的粒度。

    3.数据周期的确定,在设计ETL时需要事先确定抽取的时间,这个可能根据用户实时性的要求作为调整的依据。

    4.抽取的方式尽量采用增量的抽取以减小每次抽取的数量。

    5.数据流和工作流的概念.在ETL中需要考虑数据在每个步骤中的状态和转换行为,数据的清洗转换和加载过程世分为很多步骤完成的,每个步骤一定是数据的一个原子业务操作。步骤可以根据需要进行调整,在数据流当中可能会出现分支的情况,也就是说,在不同条件下采用不同的处理逻辑。

    6.流程的异常处理。在流程中需要考虑各种可能的异常的存在,如网络闪断,数据的延迟产生等等。需要在流程中加入一些补救的措施已于纠正。保证入数据仓库的数据绝对正确。(但是流程的设计尽量依照简单高效的原则)

    7.ETL的调整,运行管理以及监控。针对ETL程序的运行应该有相关的管理和监控工具。一方面用于ETL的设置和调整,另一方面也是方便在ETL处理出现异常时能够及时通过人工的方式进行干预。保证ETL的正常运行。

    8.针对业务的需求进行ETL的配置和设置界面,方便专业维护人员和开发人员能够对抽取的任务进行调整和灵活配置。

    9.ETL对CUBE的管理,ETL程序除了需要针对数据仓库的管理和数据的处理以外很重要的部分是对cube的管理。根据cube的特性需要考虑对维度,cube进行更新,以及对cube中分区的新建,处理,合并等一系列操作。

    10.数据仓库有一个初始化的过程也就是将以前的业务数据进行整理和加载,但是数据量是非常巨大的需要花费较长的时间来完成的,而且抽取的策略和平时的抽取不同。

    11.程序具有自修复功能,任务在任何一步出现异常,ETL程序都能够回到抽取前的状态,而不需要人工干预,更不能影响到已抽取的数据。
分享到:
评论

相关推荐

    《infa手册,调优 etl策略.rar》

    它还可能讨论如何设计ETL流程以减少数据处理时间和资源消耗。 3. **Informatica PowerCenter使用手册**: Informatica PowerCenter是一款强大的ETL工具,提供了一整套数据集成解决方案。手册可能会详细介绍其工作...

    数据仓库和ETL学习笔记

    数据仓库是一种专门设计用于高效分析查询的数据库系统,与传统在线事务...ETL对于确保数据仓库中的数据质量至关重要,通过精心设计的ETL流程,可以构建出满足分析需求的高质量数据仓库,支持企业做出数据驱动的决策。

    ETL_data warehouse etl tookit 数据仓库工具箱中文翻译

    - 本章详细讲解了事实表的设计要点,包括如何选择合适的粒度级别。 - 讨论了事实表加载过程中常见的问题及其解决方案。 - **第七章:开发程序** - 介绍了ETL开发的整体流程,从需求分析到测试部署。 - 提供了...

    数据仓库ETL工具箱中文版(Data warehouse ETL Toolkit)—BI/DW项目的经典之作

    在需求、现状和架构章节中,作者强调了项目成功的核心在于围绕业务需求进行设计,并介绍了架构设计的要点,阐述了数据仓库的基本任务以及ETL团队的具体职责。 ETL数据结构章节讨论了数据集结的概念,介绍了设计集结...

    开源ETL工具KETTLE的深入之作

    它提供了一个图形化的用户界面,方便用户设计复杂的ETL作业和转换。 - **主要组件**: - **Spoon**:Pentaho Kettle的主要GUI工具,用于设计和测试转换。 - **Kitchen**:用于执行作业和转换的命令行工具。 - **...

    寿险行业数据治理规划架构设计方案.pptx

    数据架构规划的设计原则是基于问题现状、改进分析的基础上,结合业务需求要点、主流技术及行业实践。数据架构规划的设计思路包括系统需求分析、业务特征分析、数据分类、业务模型设计、数据模型设计等。 数据架构...

    informatica调优要点(全)

    Informatica是一款强大的数据集成工具,广泛应用于数据仓库建设、数据迁移和ETL(提取、转换、加载)过程中。调优是提升Informatica性能的关键环节,它涉及到多个层面,包括源系统、目标系统、工作流设计、映射逻辑...

    企业集成架构设计

    《企业集成架构设计》是针对软考系统架构设计师的一项重要学习资源,主要涵盖了2009年的考试要点。本教程旨在帮助考生深入理解和掌握企业级系统集成的关键技术和设计理念,为解决实际工作中的复杂问题提供理论指导和...

    数据仓库解决专项方案v要点.doc

    以下是对"数据仓库解决专项方案v要点"的详细阐述: (一) 概述 在信息化快速发展的今天,中国的各行各业都积累了大量的数据。然而,这些数据往往分散在各个业务系统中,格式不统一,难以进行有效的分析和利用。数据...

    数据仓库模型设计说明书

    ### 数据仓库模型设计知识点 #### 一、引言 1. **编写目的**:文档的主要目的是阐述如何通过数据仓库技术来实现特定业务...通过详细描述各阶段的设计要点和技术细节,确保数据仓库能够有效地支持企业的业务决策需求。

    SQL2005_BI需求与设计综合应用

    SQL Server 2005 BI需求与设计综合应用不仅涵盖了BI的基本概念和技术要点,还深入探讨了如何利用这些技术解决实际业务问题。通过对OLAP架构、Cube设计、ETL过程、前端展现等多个方面的详细介绍,为企业和个人提供了...

    SQLServer内部测试题及复习要点.rar

    2. **数据库设计**:理解ER模型(实体关系模型),并能进行数据库的逻辑设计和物理设计,包括表的设计、键的设置(主键、外键、唯一键)、索引的创建与优化等。 3. **数据库管理**:了解如何在SQL Server中创建、...

    基于宽表的自助取数系统设计说明.doc

    本文介绍了基于宽表的自助取数系统的设计思路和实施要点,对于电信运营商提升营销活动的效果具有实际意义。未来,随着大数据和人工智能技术的发展,自助取数系统有望进一步智能化,提供更深入的洞察和预测,以驱动更...

    ppt第二题数据仓库的设计.doc

    【数据仓库设计基础】 数据仓库(Data Warehouse)是一种...以上是关于数据仓库设计的基础知识、文档资料的制作要点以及PPT制作技巧的详细阐述,这些内容对于理解和实践数据仓库项目以及提升PPT展示效果都非常有用。

    寿险行业数据架构规划与数据治理.pptx

    数据架构规划的设计原则是基于问题现状、改进分析的基础上,结合业务需求要点、主流技术及行业实践,进行目标的数据架构规划。同时,数据架构规划还需要考虑到保险行业的特殊性,例如数据安全、隐私保护等。 4. ...

    SQL2005要点.rar

    《SQL Server 2005要点详解》 SQL Server 2005是微软公司推出的一款强大、高效的关系型数据库管理系统,它在企业级数据管理、分析和报告方面展现了卓越的性能。本教程将深入探讨SQL Server 2005的关键特性、功能...

    BW知识点总结及面试笔试要点

    ### SAP BW 知识点总结及面试笔试要点 #### 一、SAP BW 基础概念 **1. SAP BW 的基本结构** - SAP BW(Business Warehouse)是SAP公司开发的一款企业级数据仓库解决方案。 - 它通过抽取、转换、加载(ETL)过程...

    异构数据交换共享软件系统(PMSS)技术研发总体设计方案.doc

    - 总结设计要点,强调系统的重要性和预期成果,为后续的开发和实施提供方向。 这个总体设计方案是异构数据交换共享软件系统开发的核心指导文件,它为项目提供了全面的技术蓝图,确保系统能够有效地解决异构数据...

Global site tag (gtag.js) - Google Analytics