数据仓库中的数据来自于多种业务数据源,这些数据源可能来自于不同硬件平台,使用不同的操作系统,数据模型也相差很远,因而数据以不同的方式存在于不同的数据库中。如何获取并向数据仓库加载这些数据量大、种类多的数据,已成为建立数据仓库所面临的一个关键问题。针对目前系统的数据来源复杂,而且分析应用尚未成型的现状,强烈推荐使用专业的数据抽取、转换和装载工具--DataStage
DataStage用来做什么
DataStage 是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。
DataStage 能够处理多种数据源的数据,包括主机系统的大型数据库、开放系统上的关系数据库和普通的文件系统等,以下列出它所能处理的主要数据源:
大型主机系统数据库:IMS,DB2,ADABAS,VSAM等
开放系统的关系数据库:Informix,Oracle,Sybase,DB2,Microsoft SQL Server等
ERP系统:SAP/R3,PeopleSoft系统等
普通文件和复杂文件系统:FTP文件系统,XML等
Web服务器系统:IIS,Netscape,Apache等
Email系统:Outlook等
DataStage可以从多个不同的业务系统中,从多个平台的数据源中抽取数据,完成转换和清洗,装载到各种系统里面。其中每步都可以在图形化工具里完成,同样可以灵活地被外部系统调度,提供专门的设计工具来设计转换规则和清洗规则等,实现了增量抽取、任务调度等多种复杂而实用的功能。其中简单的数据转换可以通过在界面上拖拉操作和调用一些DataStage预定义转换函数来实现,复杂转换可以通过编写脚本或结合其他语言的扩展来实现,并且DataStage提供调试环境,可以极大提高开发和调试抽取、转换程序的效率。
编辑本段
数据抽取工作步骤
根据以往的项目实施经验,通常数据抽取工作分抽取、清洗、转换、装载几个步骤:
抽取主要是针对各个业务系统及不同网点的分散数据,充分理解数据定义后,规划需要的数据源及数据定义,制定可操作的数据源,制定增量抽取的定义。
清洗主要是针对系统的各个环节可能出现的数据二义性、重复、不完整、违反业务规则等问题,允许通过试抽取,将有问题的记录先剔除出来,根据实际情况调整相应的清洗操作。
转换主要是针对数据仓库建立的模型,通过一系列的转换来实现将数据从业务模型到分析模型,通过内建的库函数、自定义脚本或其他的扩展方式,实现了各种复杂的转换,并且支持调试环境,清楚的监控数据转换的状态。
装载主要是将经过转换的数据装载到数据仓库里面,可以通过数据文件直接装载或直连数据库的方式来进行数据装载,可以充分体现高效性。在应用的时候可以随时调整数据抽取工作的运行方式,可以灵活的集成到其他管理系统中。
编辑本段
DataStage工具介绍
DataStage是基于客户机/服务器的数据集成架构,优化数据收集,转换和巩固的过程。它提供了一套图形化的客户工具:
包括:Designer(设计者):创建执行数据集成任务Job的同时,对数据流和转换过程创建一个可视化的演示。
Manager(管理者):对每个工程的各个单元,包括:库表定义,集中的数据转换,元数据连接等对象进行分类和组织。
Director(指挥者):为启动,停止,监视作业提供交互式控制。
Administrator(管理者):在服务器端管理DataStage的项目和使用者权限的分配
在v8.1版本中,Manager(管理者)已经取消,合并到Designer。
分享到:
相关推荐
《Datastage 8.0:数据集成的强大工具》 Datastage是IBM公司开发的一款企业级数据集成工具,它在数据仓库、ETL(提取、转换、加载)领域有着广泛的应用。"Datastage_8.0.7z"这个标题表明我们讨论的是Datastage的第8...
在IT领域,DataStage是一款强大的ETL(Extract, Transform, Load)工具,广泛应用于数据仓库建设和数据集成。本文主要从三个方面总结了DataStage的使用经验,包括如何调用存储过程、设计调度以及作业日志入库。 1. ...
根据提供的信息,我们可以深入探讨DataStage 7.5这一ETL工具的相关知识点,包括其功能、应用场景以及如何获取等。 ### DataStage 7.5简介 DataStage 是一款由IBM开发的强大ETL(Extract, Transform, Load)工具,...
根据提供的信息来看,这里主要涉及的是DataStage控件的使用指南。尽管原文中提到了Oracle Cognos BI的公开课信息,但重点似乎放在了DataStage的相关控件介绍上。因此,接下来将对DataStage中的一些常见控件进行详细...
《DataStage 11.5 安装指南》 DataStage是IBM提供的一款强大的数据集成工具,用于构建高效、可扩展的数据集成解决方案。在本文中,我们将深入探讨如何在Linux服务器端和Windows客户端环境中安装DataStage 11.5。 1...
Datastage是一款强大的数据集成工具,由IBM公司开发,用于构建和执行复杂的数据集成、转换和清洗任务。本指南将详细介绍如何在Linux环境下安装和配置Datastage产品。 **1. 引言** 在开始Datastage的安装和配置之前...
DATASTAGE 运维手册 DATASTAGE 运维手册是 Datastage 在开发和运维中常见的错误解决方案和思路的集合,旨在帮助用户快速查询报错对应的解决方法。本手册涵盖了 DATASTAGE 的产品概述、基础架构、客户档介绍、日常...
DATASTAGE经验积累与分享 DATASTAGE是ETL(Extract-Transform-Load)工具中的一种重要组件,主要用于数据处理和转换。下面是对DATASTAGE的经验积累和分享。 一、JOB的分类和作用 (DATASTAGE)中有多种类型的JOB,...
DataStage是一款强大的企业级数据集成工具,由IBM公司开发,用于构建高效、可扩展的数据集成解决方案。本入门文档将引导初学者逐步了解DataStage的基本概念、功能和操作流程,为后续深入学习和实际项目应用打下坚实...
**DataStage ETL 开发指南** DataStage 是一个强大的企业级数据集成工具,由 IBM 公司开发,用于实现 Extract, Transform, Load (ETL) 过程。它提供了高效、灵活的数据处理能力,适用于大数据量的企业级数据仓库...
### DataStage 8.5 客户端安装指南 #### 一、DataStage 8.5 客户端概述 DataStage 是一款由 IBM 开发的企业级数据集成平台,广泛应用于数据清洗、转换以及加载(ETL)等场景。DataStage 8.5 客户端是指用于 ...
IBM Information DataStage V11.5安装部署操作手册 IBM Information DataStage V11.5是一款功能强大的数据集成工具,它可以帮助企业集成各种数据源,进行数据转换、数据清洁和数据分析等操作。下面是关于IBM ...
DataStage是一款强大的企业级数据集成工具,由IBM公司开发,用于构建高效、可靠的数据整合解决方案。这个"DataStage学习版文档"提供了丰富的资料,帮助初学者掌握DataStage的基本概念、功能以及操作技巧。 1. **...
【DataStage与Informatica PowerCenter对比】 DataStage与Informatica PowerCenter都是业界广泛采用的数据集成工具,主要用于构建和维护数据仓库和数据集市。两者在功能、特性以及使用体验上都有各自的特点。 1. *...
根据提供的标题、描述、标签及部分内容,我们可以总结出关于DataStage 8.7在Linux环境下的安装与配置的相关知识点。 ### DataStage 8.7 on Linux 安装文档概述 #### 一、DataStage 8.7 简介 DataStage 是 IBM 提供...
在IBM DataStage Java包开发手册中,我们主要关注的是DataStage中Java Client阶段和Java Transformer阶段的使用方法,以及如何开发这两个阶段所调用的JAVA类的开发包。该手册为开发者提供了详细指导和示例代码,帮助...
Datastage学习资料集合(分卷1)部分 DataStage+V7.5在RHEL4+Linux下的安装.doc DataStage8.5安装手册1.0.docx DataStage_V7.5_学习总结.doc DATASTAGE——DATASTAGE经验积累.pdf DataStage企业版产品白皮书之一....