`
seaflower
  • 浏览: 5438 次
  • 来自: ...
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

ETL架构中的38个子系统(一)

阅读更多

The 38 Subsystems of ETL

?

By Ralph Kimball, 20044

?

建立一个成功的数据仓库系统,依靠的是最佳实践而不是直觉。

?

三个简单的字母,E-T-L,很容易的让大家忽视了38ETL子系统在数据仓库建设中的重要性。

?

抽取-转换-加载(ETL)系统,或者非正式的称为“后台系统”,在建立整个数据仓库系统中占据了70的工作量和时间。但是这还不足以说明ETL系统的复杂性。每个人都理解这三个字母的含义,E,从源系统中将数据取出来;T,对这些数据做处理;L,加载到最终用户访问的表中。

?

但是当我们问及如何来分解这三大步骤时,很多设计人员都会说,“具体问题,具体分析”。例如,这依赖于不同的数据源;这依赖于数据的特性;这依赖于脚本语言以及可以使用的ETL工具的情况;这依赖于员工的技术能力;这还依赖于最终用户使用的查询和报表工具。

?

“具体情况,具体分析”是一个很危险的事情,因为它很容易称为系统混乱的一个借口。伴随着几千个成功数据仓库项目的经历,我们整理出了一系列的最佳实践。

?

最近的18个月,我们一直在钻研ETL的实践和ETL的产品。我们标识出了在每一个数据仓库项目的后台部分都会涉及到的38个子系统。坏消息是ETL系统确实占据了数据仓库项目的大部分资源。好消息是如果你能掌握所有的这些子系统,你就可以很容易的使用你的经历来建立成功的数据仓库系统。

?

原文请参阅这里<!----><o:p></o:p>

分享到:
评论

相关推荐

    ETL架构中的38个子系统1

    本文将详细解析ETL架构中的38个子系统,并着重讨论其中的11个核心子系统。 1. 抽取系统(Extract System): 抽取系统是ETL流程的起点,负责从各种数据源获取数据。它通常包含适配器,以适应不同格式和协议的数据...

    ETL Automation使用手册

    工作目录架构是指 ETL Automation 的工作目录结构,该结构包括多个子目录,用于存储不同类型的文件和数据。 ETL Automation 环境变量 (Environment Variable) 介绍 ETL Automation 环境变量是指 ETL Automation ...

    ETL构建数据仓库

    ### ETL构建数据仓库 #### 一、ETL的概念及其重要性 ETL(Extract-Transform-Load)是数据抽取(Extract)、...通过以上五个步骤,我们可以系统地构建出一个高效、准确的企业级数据仓库,为企业提供有力的数据支持。

    数据中心的架构与设计

    其核心功能在于整合来自不同业务系统的数据,通过ETL(Extract, Transform, Load)过程进行处理,并按照一定的模型进行存储,以支持决策支持系统、联机分析处理(OLAP)以及数据挖掘等活动。 ##### 1.2 当前现状 ...

    BOSS系统cvBS系统部分

    cvBS(可能是"Call Volume Business System"的缩写,但具体含义需要更多信息来确认)可能是BOSS系统中的一个子模块,专门负责处理与通话量或业务量相关的功能。描述中提到的“出具库部分关键代码”可能是指cvBS系统...

    个人网上银行CRM系统.doc

    3. **ETL(Extract, Transform, Load)**:是构建数据仓库的关键步骤之一,涉及从源系统中提取数据、转换数据格式以适应数据仓库的需求、然后加载到数据仓库中。 4. **OLAP(Online Analytical Processing)**:在线...

    数据仓库架构星型模型VS雪花模型.pdf

    例如,在数据抽取、转换和加载(ETL)过程中,可以通过雪花模型来优化数据,降低冗余,增强数据一致性。而在数据集市层,使用星型模型则可以确保终端用户能够快速执行复杂的分析查询。这种结合使用的方式不仅能够...

    大数据智能实战应用系统方案.pptx

    大数据智能实战应用系统方案主要关注如何利用大数据与人工智能技术解决现实世界中的问题,尤其是在智慧城市建设和知识图谱构建方面的应用。大数据作为21世纪的新石油,已经深入到各个领域,而人工智能则是赋予这些...

    集团公司数据治理平台功能架构设计规划方案.pptx

    - **数据收集**:通过接口或ETL工具从各业务系统中抽取数据。 - **数据存储**:采用分布式存储架构,确保数据的高可用性和可扩展性。 - **数据分类**:按照数据性质和用途进行分类管理。 - **元数据管理**:记录...

    SAP_BW学习笔记

    SAP BW,全称为Business Information Warehouse,自3.5版本起更名为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与主数据管理和知识管理并列,主要...

    66页三级医院智慧医院电子病历婴儿防盗智慧护理远程医疗信息化规划方案.pptx.zip

    外部系统或数据库重启后不需手动干预启动终端 统一的开发监控界面,均为Web网页界面(BS),方便在线远程配置及监控 界面同时支持中英文双语,并可随时切换语言,尤其适合于国际化医院 提供可开放的集成引擎监控、...

    基于深度学习的回复类型预测聊天机器人.pdf

    机器学习是人工智能的一个子领域,它让计算机拥有从数据中学习的能力,以便预测和决策。机器学习算法通常分为监督学习、无监督学习、半监督学习和强化学习。 3. 聊天机器人(Chatbot): 聊天机器人是人工智能的一...

    Informatica 技术解决方案

    - **适应性**:能够轻松集成到现有的IT环境中,与各类系统无缝配合。 **3. 基本功能** Informatica的核心功能包括: **3.1 字段级操作** - **字段映射**:将源数据的字段映射到目标系统的相应字段。 - **字段...

    SAP_BW_学习笔记

    SAP BW,全称为Business Information Warehouse,自3.5版本后被称为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与Master Data Management和...

    颁奖典礼pptx (8).pptx

    而计算机科学涵盖了算法、编程语言、操作系统、数据库管理、网络通信等多个子领域,是现代科技发展的基石。 在颁奖典礼的背景下,这两个标签可能暗示了奖项与信息技术或计算机科学研究的关联。例如,可能设立了...

    关于数仓基础知识的超全概括.pdf

    它从多个源系统抽取、转换和加载(ETL)数据,经过整合后存储在中央仓库中,以便进行高效分析。 数据仓库的主要任务在于支持决策过程,它能够帮助企业制定年度销售目标,通过历史数据分析来辅助决策,而不是依赖...

    SQLSERVER数据仓库的构建与分析

    多维数据集通常是从数据仓库的一个子集中构建出来的,并被组织成一个多维结构,其中包含了维度和度量值。这种结构有助于提高数据查询的效率和数据分析的灵活性。 **2. 维度** 维度是多维数据集的结构组成部分,它...

    Kettle 动态集群的配置

    Kettle 是一款非常流行的开源数据集成工具,被广泛应用于ETL(Extract-Transform-Load)过程中。随着业务规模的扩大,单一Kettle服务器可能无法满足大数据量处理的需求,因此引入了Kettle集群的概念。本文将详细介绍...

    浅谈数据仓库和大数据.pdf

    Data Lake提供了一种更灵活的数据存储方式,而Data Vault是一种优化的数据仓库架构,旨在提高数据处理速度和效率。 总的来说,大数据和数据仓库之间的关系是相互促进的。大数据技术解决了海量数据处理的问题,而...

    数据工程:有关数据工程领域的项目和研究

    在项目中,"Data-Engineering-master"可能包含了多个子文件或模块,分别对应这些过程的不同阶段。例如,获取数据可能通过ETL(提取、转换、加载)工具完成,这可能涉及到从各种数据源如数据库、API或日志文件中抓取...

Global site tag (gtag.js) - Google Analytics