The 38 Subsystems of ETL
?
By Ralph Kimball, 2004年4月
?
1.抽取系统(Extract System)
?
主要功能包括源数据的适配器,推/拖/搬运数据的工作调度,对源数据的过滤和排序功能,数据格式的转换,迁移到ETL环境后的数据暂存功能。
?
2.变化数据捕获系统(Change Data Capture System)
?
主要功能包括对源数据日志文件的阅读功能,源数据日期和序列号的过滤功能,基于CRC算法的记录比较功能。
?
3.数据概况分析系统(Data Profiling System)
?
主要功能包括字段属性分析,如参照域的分析;结构分析,如主外键关系分析;数据规则分析;值规则分析等。
?
4.数据清洗系统(Data Cleansing System)
?
主要功能包括一个典型的数据字典驱动的系统,用于解析个体和组织的名称、地址等信息,也用来解析产品、场所等内容;一个“De-duplication”系统,用于鉴别和移除个体和组织信息,也用于产品和场所;一个“Surviving”系统,使用特定的数据合并逻辑,用来保存特定数据源的指定字段,这个特定数据源的数据将成为数据仓库的最终版本;为所有的数据源维护后台数据的对应关系,如自然键和代理键对应关系等内容。
?
5.数据一致性处理系统(Data Conformer System)
?
主要功能包括标识和生成专用的一致性维度属性、一致性事实的度量属性,这两组属性作为数据整合工作的基础,用来支持跨多个数据源的数据集成工作。
?
原文请参阅这里。<!----><o:p></o:p>
<o:p>?</o:p>
?
分享到:
相关推荐
本文将详细解析ETL架构中的38个子系统,并着重讨论其中的11个核心子系统。 1. 抽取系统(Extract System): 抽取系统是ETL流程的起点,负责从各种数据源获取数据。它通常包含适配器,以适应不同格式和协议的数据...
工作目录架构是指 ETL Automation 的工作目录结构,该结构包括多个子目录,用于存储不同类型的文件和数据。 ETL Automation 环境变量 (Environment Variable) 介绍 ETL Automation 环境变量是指 ETL Automation ...
- **核心特征**:在星型架构的基础上,维度表可以进一步分解为多个子维度表,形成类似雪花状的结构。 - **优点**:结构更加精细,能够提供更丰富的信息。 - **应用场景**:适合于业务需求较为复杂,需要更深层次...
#### 二、数据仓库架构 ##### 2.1 架构图 数据中心架构主要包括以下几个关键组成部分: - **数据源**:包括业务系统中的数据库、网络接口获取的数据以及其他非结构化数据源。 - **ETL过程**:涉及数据的提取、转换...
cvBS(可能是"Call Volume Business System"的缩写,但具体含义需要更多信息来确认)可能是BOSS系统中的一个子模块,专门负责处理与通话量或业务量相关的功能。描述中提到的“出具库部分关键代码”可能是指cvBS系统...
3. **ETL(Extract, Transform, Load)**:是构建数据仓库的关键步骤之一,涉及从源系统中提取数据、转换数据格式以适应数据仓库的需求、然后加载到数据仓库中。 4. **OLAP(Online Analytical Processing)**:在线...
例如,在数据抽取、转换和加载(ETL)过程中,可以通过雪花模型来优化数据,降低冗余,增强数据一致性。而在数据集市层,使用星型模型则可以确保终端用户能够快速执行复杂的分析查询。这种结合使用的方式不仅能够...
- **数据收集**:通过接口或ETL工具从各业务系统中抽取数据。 - **数据存储**:采用分布式存储架构,确保数据的高可用性和可扩展性。 - **数据分类**:按照数据性质和用途进行分类管理。 - **元数据管理**:记录...
大数据智能实战应用系统方案主要关注如何利用大数据与人工智能技术解决现实世界中的问题,尤其是在智慧城市建设和知识图谱构建方面的应用。大数据作为21世纪的新石油,已经深入到各个领域,而人工智能则是赋予这些...
本土化:对产品进行深度的本土化二次开发,增加了国内常用功能和易用性。 多用途:在统一的BS构架界面下,将ETL、ESB和集成引擎功能合为一体, 支持热备容灾方案, 符合原卫生部三级等保的要求 外部系统或数据库重启...
- **适应性**:能够轻松集成到现有的IT环境中,与各类系统无缝配合。 **3. 基本功能** Informatica的核心功能包括: **3.1 字段级操作** - **字段映射**:将源数据的字段映射到目标系统的相应字段。 - **字段...
SAP BW,全称为Business Information Warehouse,自3.5版本起更名为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与主数据管理和知识管理并列,主要...
它从多个源系统抽取、转换和加载(ETL)数据,经过整合后存储在中央仓库中,以便进行高效分析。 数据仓库的主要任务在于支持决策过程,它能够帮助企业制定年度销售目标,通过历史数据分析来辅助决策,而不是依赖...
SAP BW,全称为Business Information Warehouse,自3.5版本后被称为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与Master Data Management和...
机器学习是人工智能的一个子领域,它让计算机拥有从数据中学习的能力,以便预测和决策。机器学习算法通常分为监督学习、无监督学习、半监督学习和强化学习。 3. 聊天机器人(Chatbot): 聊天机器人是人工智能的一...
Kettle 是一款非常流行的开源数据集成工具,被广泛应用于ETL(Extract-Transform-Load)过程中。随着业务规模的扩大,单一Kettle服务器可能无法满足大数据量处理的需求,因此引入了Kettle集群的概念。本文将详细介绍...
而计算机科学涵盖了算法、编程语言、操作系统、数据库管理、网络通信等多个子领域,是现代科技发展的基石。 在颁奖典礼的背景下,这两个标签可能暗示了奖项与信息技术或计算机科学研究的关联。例如,可能设立了...
多维数据集通常是从数据仓库的一个子集中构建出来的,并被组织成一个多维结构,其中包含了维度和度量值。这种结构有助于提高数据查询的效率和数据分析的灵活性。 **2. 维度** 维度是多维数据集的结构组成部分,它...
首先,数据仓库是一个专门用于数据分析和决策支持的系统,它从各种不同的数据源收集数据,并对其进行整合、清洗和存储。不同于传统的数据库,数据仓库更注重数据的历史性和稳定性,以支持复杂的分析操作。常见的数据...
在项目中,"Data-Engineering-master"可能包含了多个子文件或模块,分别对应这些过程的不同阶段。例如,获取数据可能通过ETL(提取、转换、加载)工具完成,这可能涉及到从各种数据源如数据库、API或日志文件中抓取...