The 38 Subsystems of ETL
?
By Ralph Kimball, 2004年4月
?
6.审计维度生成系统(Audit Dimension Assembler System)
?
主要功能是将与事实表相关的元数据内容加载到一张审计维度表中,这样最终用户可以像查看普通维度一样查看与事实表相关的元数据。
?
7.数据质量过滤系统(Quality Screen Handler System)
?
主要功能是在ETL的处理过程中自动的检测所有的数据质量问题。检测的结果将进入错误事件处理系统(详见子系统8)。
?
8.错误事件处理系统(Error Event Hander System)
?
主要功能是全面的记录和报告在ETL处理中的所有的错误事件。包括各类错误的分枝处理逻辑,还包括对ETL处理中数据质量的实时监控。
?
9.代理键生成系统(Surrogate Key Create System)
?
主要功能是以一种鲁棒的机制生成流水的代理键,生成规则不依赖与任何维度,也不依赖与任何数据库实例,可以支持分布式系统。
?
10.缓慢变化维处理系统(Slowly Changing Dimension Processor,SCD)
?
主要功能是处理维度表的属性随时间变化的情况,处理方式为:类型1(直接覆盖),类型2(生成新行),类型3(添加新列)。
?
原文请参阅这里。<!----><o:p></o:p>
?
分享到:
相关推荐
本文将详细解析ETL架构中的38个子系统,并着重讨论其中的11个核心子系统。 1. 抽取系统(Extract System): 抽取系统是ETL流程的起点,负责从各种数据源获取数据。它通常包含适配器,以适应不同格式和协议的数据...
ETL Automation Server 架构主要包括三个部分:ETL Automation Server、ETL Automation Repository 和 GUI 前端程序。ETL Automation Server 负责执行数据提取、转换和加载操作,ETL Automation Repository 负责存储...
- **核心特征**:在星型架构的基础上,维度表可以进一步分解为多个子维度表,形成类似雪花状的结构。 - **优点**:结构更加精细,能够提供更丰富的信息。 - **应用场景**:适合于业务需求较为复杂,需要更深层次...
其核心功能在于整合来自不同业务系统的数据,通过ETL(Extract, Transform, Load)过程进行处理,并按照一定的模型进行存储,以支持决策支持系统、联机分析处理(OLAP)以及数据挖掘等活动。 ##### 1.2 当前现状 ...
cvBS(可能是"Call Volume Business System"的缩写,但具体含义需要更多信息来确认)可能是BOSS系统中的一个子模块,专门负责处理与通话量或业务量相关的功能。描述中提到的“出具库部分关键代码”可能是指cvBS系统...
3. **ETL(Extract, Transform, Load)**:是构建数据仓库的关键步骤之一,涉及从源系统中提取数据、转换数据格式以适应数据仓库的需求、然后加载到数据仓库中。 4. **OLAP(Online Analytical Processing)**:在线...
外部系统或数据库重启后不需手动干预启动终端 统一的开发监控界面,均为Web网页界面(BS),方便在线远程配置及监控 界面同时支持中英文双语,并可随时切换语言,尤其适合于国际化医院 提供可开放的集成引擎监控、...
例如,在数据抽取、转换和加载(ETL)过程中,可以通过雪花模型来优化数据,降低冗余,增强数据一致性。而在数据集市层,使用星型模型则可以确保终端用户能够快速执行复杂的分析查询。这种结合使用的方式不仅能够...
- **数据收集**:通过接口或ETL工具从各业务系统中抽取数据。 - **数据存储**:采用分布式存储架构,确保数据的高可用性和可扩展性。 - **数据分类**:按照数据性质和用途进行分类管理。 - **元数据管理**:记录...
大数据智能实战应用系统方案主要关注如何利用大数据与人工智能技术解决现实世界中的问题,尤其是在智慧城市建设和知识图谱构建方面的应用。大数据作为21世纪的新石油,已经深入到各个领域,而人工智能则是赋予这些...
SAP BW,全称为Business Information Warehouse,自3.5版本起更名为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与主数据管理和知识管理并列,主要...
- **适应性**:能够轻松集成到现有的IT环境中,与各类系统无缝配合。 **3. 基本功能** Informatica的核心功能包括: **3.1 字段级操作** - **字段映射**:将源数据的字段映射到目标系统的相应字段。 - **字段...
SAP BW,全称为Business Information Warehouse,自3.5版本后被称为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与Master Data Management和...
它从多个源系统抽取、转换和加载(ETL)数据,经过整合后存储在中央仓库中,以便进行高效分析。 数据仓库的主要任务在于支持决策过程,它能够帮助企业制定年度销售目标,通过历史数据分析来辅助决策,而不是依赖...
机器学习是人工智能的一个子领域,它让计算机拥有从数据中学习的能力,以便预测和决策。机器学习算法通常分为监督学习、无监督学习、半监督学习和强化学习。 3. 聊天机器人(Chatbot): 聊天机器人是人工智能的一...
Kettle 是一款非常流行的开源数据集成工具,被广泛应用于ETL(Extract-Transform-Load)过程中。随着业务规模的扩大,单一Kettle服务器可能无法满足大数据量处理的需求,因此引入了Kettle集群的概念。本文将详细介绍...
而计算机科学涵盖了算法、编程语言、操作系统、数据库管理、网络通信等多个子领域,是现代科技发展的基石。 在颁奖典礼的背景下,这两个标签可能暗示了奖项与信息技术或计算机科学研究的关联。例如,可能设立了...
ETL过程是数据仓库构建的关键步骤之一,它包括以下三个阶段: - **数据抽取**(Extract):从各种数据源中抽取数据。 - **数据转换**(Transform):将抽取的数据转换成适合数据仓库的形式,包括数据清洗、格式调整...
首先,数据仓库是一个专门用于数据分析和决策支持的系统,它从各种不同的数据源收集数据,并对其进行整合、清洗和存储。不同于传统的数据库,数据仓库更注重数据的历史性和稳定性,以支持复杂的分析操作。常见的数据...
在项目中,"Data-Engineering-master"可能包含了多个子文件或模块,分别对应这些过程的不同阶段。例如,获取数据可能通过ETL(提取、转换、加载)工具完成,这可能涉及到从各种数据源如数据库、API或日志文件中抓取...