`
- 浏览:
622986 次
- 性别:
- 来自:
上海
-
对于数据仓库以及ETL的知识,我基本上是个门外汉。一切都得从头开始,记个笔记,方便自已了解学习进度。
首先,我们来了解最基本的定义:
嗯,也有人将ETL简单称为数据抽取。至少在未学习之前,领导告诉我的是,你需要做一个数据抽取的工具。
其实呢,抽取是ETL中的关键环节,顾名思义,也就将数据从不同的数据源中抓取(复制)出来。
太简单了!
上面的解释无首无尾,有点象能让你吃饱的第七个烧饼,
仔细一想,抽取是不可能单独存在,我们需要将与之关联的一些其它环节拿出来。
于是,得到ETL的定义:
将数据抽取(Extract)、转换(Transform)、清洗(Cleansing)、装载(Load)的过程。
好的,既然到了这一个层次,我们完全会进一步展开联想,引出上面这个抽象事件的前因后果,
抽取的源在哪里?
装载的目的又是什么呢?
抽取源:大多数情况下,可以认为是关系数据库,专业一点,就是事务处理系统(OLTP)。当然,广义一点,可能会是其它数据库或者是文件系统。
目的地:OK,我们希望是数据仓库。数据仓库是啥?在学习之前,它对我来说是个抽象的怪物,看过一些简单的资料之后,才了解这个怪物一点都不怪。堆积用来分析的数据的仓库。是了,是用来分析的,于是,它区别于OLTP中的数据存储。
然后,我们来看看为什么要ETL?
在我看来,有两个原因。
一:性能 将需要分析的数据从OLTP中抽离出来,使分析和事务处理不冲突。咦?这不是数据仓库的效果吗?是了,
数据仓库,大多数情况下,也就是通过ETL工具来生成地。
二:控制 用户可以完全控制从OLTP中抽离出来的数据,拥有了数据,也就拥有了一切。
嗯,OLAP分析,数据挖掘等等等……。
分享到:
Global site tag (gtag.js) - Google Analytics
相关推荐
【ETL学习笔记8.1】 - Informatica PowerCenter8.1 安装与配置详解 ETL(Extract, Transform, Load)是数据仓库和大数据处理中的关键过程,用于从不同源系统抽取数据,经过清洗和转换,最终加载到目标系统。...
### ETL学习笔记之Kettle下载与部署与使用 #### 一、Kettle概念与应用场景 Kettle是一款功能强大的开源ETL(Extract-Transform-Load)工具,它使用纯Java编写,因此可以在多种操作系统上运行,包括Windows、Linux...
数据仓库是一种专门设计用于高效分析查询的数据库系统,与传统在线事务处理(OLTP)系统相比,它更注重数据的汇总、历史存储和查询性能。ETL(Extract, Transform, Load)则是数据仓库构建的核心过程,包括从各种...
"ETL学习笔记 Kettle基本知识交流" Kettle 是一款国外开源的 ETL 工具,纯 Java 编写,可以在 Window、Linux、Unix 上运行,绿色无需安装,数据抽取高效稳定。Kettle 中文名称叫水壶,该项目的主程序员 MATT 希望把...
在学习ETL课程的笔记中,我们了解到ETL的主要目的是将分布在不同系统和格式中的数据整合、转换后,加载到数据仓库中,以支持决策制定和数据分析。 首先,OLTP(在线联机事务处理)系统主要用于处理日常业务,如订单...
数据仓库和ETL学习笔记 数据仓库是企业级别的数据存储系统,旨在支持商业智能应用程序。ETL(Extract, Transform, Load)是数据仓库的重要组件,负责从多个数据源中抽取数据,转换数据格式,并加载到数据仓库中。 ...
在本“ETL学习笔记”中,我们将深入探讨这个流程的各个方面。 首先,提取(Extract)阶段是ETL过程的起点,涉及到从各种数据源获取信息。这些数据源可能包括关系型数据库、非关系型数据库、Excel文件、文本文件、...
数据仓库和ETL学习笔记 数据仓库是指将来自多个来源的数据整合到一个仓库中,以便进行报表和分析的系统。ETL(Extract、Transform、Load)是数据仓库中最重要的三个步骤,分别是数据抽取、数据转换和数据装载。 ...
etl工程师面试必备。里面涉及ORACLE面试题及优化方案和常见的etl面试题。 目录: DBA操作详细笔记 ETL面试资料 Oracle常见企业面试题集锦 Oracle常见企业面试题集锦-云端 ...Oracle全方位学习笔记 百万级数据库优化方案
【标题】: "DWS学习笔记" 【描述】: "DWS(Data Warehouse System,数据仓库系统)是用于企业数据分析的重要工具,它整合了来自不同业务系统的数据,为决策支持提供高效、一致的信息。这份学习笔记主要涵盖了DWS的...
在这个"第二套ETL使用说明"中,我们将深入理解如何配置和运行一个ETL流程,特别关注在G3业务基础上新增加的AA任务。 首先,确保ETL环境已经搭建完毕。接下来,我们将逐个步骤地解释这个流程: 1. **配置文件修改**...
这篇学习笔记将深入探讨这两个系统的概念、特性和应用。 一、Oracle数据库系统 Oracle数据库是由甲骨文公司开发的一款强大、高性能的数据库解决方案。其主要特点包括: 1. **分布式数据库**:Oracle支持多节点的...
数据挖掘是一种从海量数据中提取有价值信息的过程,它结合了计算机科学、统计学和机器学习等领域的知识。在这个“数据挖掘课件(ETL工具)”中,我们重点关注的是数据预处理的重要环节——ETL(Extract, Transform, ...
SAP BW,全称为Business Information Warehouse,自3.5版本后被称为SAP Business Intelligence,是SAP Netweaver体系架构中的重要组成部分,...在后续的学习笔记中,会逐步探讨ETL Services中的Extraction等具体模块。
【Kettle学习笔记】 Kettle,也称为Pentaho Data Integration (PDI),是一种强大的数据集成工具,广泛用于ETL(提取、转换、加载)过程,实现数据迁移和整合。Kettle提供了丰富的图形化界面和命令行工具,使得数据...
**Informatica PowerCenter 8.1.1 学习笔记** Informatica PowerCenter是一款强大的企业级数据集成工具,尤其在数据提取、转换和加载...文档《ETL学习笔记.doc》将更详细地介绍这些内容,建议仔细阅读以加深理解。
"大数据ETL开发之图解Kettle工具(入门到精通)"这个主题通常会包含以下内容: - Kettle安装与环境配置 - 数据源与数据目标的设置 - 创建基本转换和工作流 - 使用各种转换步骤,如表输入、表输出、字段选择、过滤等 ...
Hive 是一种基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(HiveQL)来处理和分析存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集。以下是对Hive的一些关键知识点的详细解释: 1. **数据...
作为SQL Server的学习笔记,以下是一些核心知识点的详细解释。 1. **SQL语言基础**:SQL(Structured Query Language)是用于管理关系数据库的语言。包括数据查询、数据插入、更新和删除,以及创建和修改表、视图等...