The 38 Subsystems of ETL
?
By Ralph Kimball, 2004年4月
?
16.交易粒度事实表加载系统(Transaction grain fact table loader)
?
主要功能是更新交易粒度事实表,包括对数据、索引和分区的处理。通常是用来处理增量数据,即最新的数据。需要使用代理键替换管道系统(详见子系统19)。
?
17.周期快照事实表加载系统(Periodic snapshot grain fact table loader)
?
主要功能是更新周期快照事实表,包括对数据、索引和分区的处理。包括对当期数据的增量更新策略。需要使用代理键替换管道系统(详见子系统19)。
?
18.累计快照事实表加载系统(Accumulating snapshot grain fact table loader)
?
主要功能是更新累积快照事实表,包括对数据、索引和分区的处理,同时更新维度外键和累积事实。需要使用代理键替换管道系统(详见子系统19)。
?
19.代理键替换管道系统(Surrogate key pipeline)
?
主要功能是使用多线程技术将来到数据仓库数据的自然键替换为代理键。
?
20.迟到事实处理系统(Late arriving fact handler)
?
主要功能是处理对迟到事实记录的插入和更新策略。
?
原文请参阅这里。<!----><o:p></o:p>
?
分享到:
相关推荐
本文将详细解析ETL架构中的38个子系统,并着重讨论其中的11个核心子系统。 1. 抽取系统(Extract System): 抽取系统是ETL流程的起点,负责从各种数据源获取数据。它通常包含适配器,以适应不同格式和协议的数据...
工作目录架构是指 ETL Automation 的工作目录结构,该结构包括多个子目录,用于存储不同类型的文件和数据。 ETL Automation 环境变量 (Environment Variable) 介绍 ETL Automation 环境变量是指 ETL Automation ...
- **核心特征**:在星型架构的基础上,维度表可以进一步分解为多个子维度表,形成类似雪花状的结构。 - **优点**:结构更加精细,能够提供更丰富的信息。 - **应用场景**:适合于业务需求较为复杂,需要更深层次...
其核心功能在于整合来自不同业务系统的数据,通过ETL(Extract, Transform, Load)过程进行处理,并按照一定的模型进行存储,以支持决策支持系统、联机分析处理(OLAP)以及数据挖掘等活动。 ##### 1.2 当前现状 ...
cvBS(可能是"Call Volume Business System"的缩写,但具体含义需要更多信息来确认)可能是BOSS系统中的一个子模块,专门负责处理与通话量或业务量相关的功能。描述中提到的“出具库部分关键代码”可能是指cvBS系统...
3. **ETL(Extract, Transform, Load)**:是构建数据仓库的关键步骤之一,涉及从源系统中提取数据、转换数据格式以适应数据仓库的需求、然后加载到数据仓库中。 4. **OLAP(Online Analytical Processing)**:在线...
例如,在数据抽取、转换和加载(ETL)过程中,可以通过雪花模型来优化数据,降低冗余,增强数据一致性。而在数据集市层,使用星型模型则可以确保终端用户能够快速执行复杂的分析查询。这种结合使用的方式不仅能够...
- **数据收集**:通过接口或ETL工具从各业务系统中抽取数据。 - **数据存储**:采用分布式存储架构,确保数据的高可用性和可扩展性。 - **数据分类**:按照数据性质和用途进行分类管理。 - **元数据管理**:记录...
大数据智能实战应用系统方案主要关注如何利用大数据与人工智能技术解决现实世界中的问题,尤其是在智慧城市建设和知识图谱构建方面的应用。大数据作为21世纪的新石油,已经深入到各个领域,而人工智能则是赋予这些...
- **适应性**:能够轻松集成到现有的IT环境中,与各类系统无缝配合。 **3. 基本功能** Informatica的核心功能包括: **3.1 字段级操作** - **字段映射**:将源数据的字段映射到目标系统的相应字段。 - **字段...
外部系统或数据库重启后不需手动干预启动终端 统一的开发监控界面,均为Web网页界面(BS),方便在线远程配置及监控 界面同时支持中英文双语,并可随时切换语言,尤其适合于国际化医院 提供可开放的集成引擎监控、...
SAP BW,全称为Business Information Warehouse,自3.5版本起更名为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与主数据管理和知识管理并列,主要...
它从多个源系统抽取、转换和加载(ETL)数据,经过整合后存储在中央仓库中,以便进行高效分析。 数据仓库的主要任务在于支持决策过程,它能够帮助企业制定年度销售目标,通过历史数据分析来辅助决策,而不是依赖...
SAP BW,全称为Business Information Warehouse,自3.5版本后被称为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,位于Information Integration层。这一层与Master Data Management和...
机器学习是人工智能的一个子领域,它让计算机拥有从数据中学习的能力,以便预测和决策。机器学习算法通常分为监督学习、无监督学习、半监督学习和强化学习。 3. 聊天机器人(Chatbot): 聊天机器人是人工智能的一...
Kettle 是一款非常流行的开源数据集成工具,被广泛应用于ETL(Extract-Transform-Load)过程中。随着业务规模的扩大,单一Kettle服务器可能无法满足大数据量处理的需求,因此引入了Kettle集群的概念。本文将详细介绍...
而计算机科学涵盖了算法、编程语言、操作系统、数据库管理、网络通信等多个子领域,是现代科技发展的基石。 在颁奖典礼的背景下,这两个标签可能暗示了奖项与信息技术或计算机科学研究的关联。例如,可能设立了...
多维数据集通常是从数据仓库的一个子集中构建出来的,并被组织成一个多维结构,其中包含了维度和度量值。这种结构有助于提高数据查询的效率和数据分析的灵活性。 **2. 维度** 维度是多维数据集的结构组成部分,它...
首先,数据仓库是一个专门用于数据分析和决策支持的系统,它从各种不同的数据源收集数据,并对其进行整合、清洗和存储。不同于传统的数据库,数据仓库更注重数据的历史性和稳定性,以支持复杂的分析操作。常见的数据...
在项目中,"Data-Engineering-master"可能包含了多个子文件或模块,分别对应这些过程的不同阶段。例如,获取数据可能通过ETL(提取、转换、加载)工具完成,这可能涉及到从各种数据源如数据库、API或日志文件中抓取...