`

什么是informatic?

    博客分类:
  • BI
阅读更多

一、总体概述

ETL包括Extract、Transform、Cleaning和Load,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。

其中ETL培训的内容是如何利用Informatic PowerCenter把源数据库的内容提取存放到目标数据库中。主要

Informatic主要包括四个部分:Client,Reposity Server,Reposity Database和Informatic Server 每个部分实现自己的功能。

二、系统体系结构

此部分介绍了Informatic ETL工具包括的主要内容。

1. Client

Informatic Client主要有五个部分。Client可以和Reposity分离,通过TCP/IP连接,连接到远程的Reposity Server。

² Reposity Manager

主要用于进行一个Reposity库的管理,当用户使用Client工具登录一个Reposity服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。

² Designer

主要是进行数据抽取的转换工具的设计,主要是mapping的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作(Transformation)。

同一个Reposity的folder之间可以建立shortcut方式,多个reposity的folder之间只能做拷贝。

² Workflow Manager

主要用于流程任务(workflow Task)的设计。

进行任务流程的设计、每一个Tast针对一个Session,一个session针对一个mapping,其中workflow中的Folder和Designer中的folder相对应的关系。一版来说,用户都是建立自己的Folder。

² Workflow Monitor

主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括Session日志和Workflow日志,可以设置生成日志的循环个数。分析session运行是对源数据库的数据抽出信息和对目标数据库的更新信息。

² Reposity Server Application Console

主要进行Reposity的管理,包括Reposity Server的start,shutdown操作。

进行Reposity 库的backup、restore等操作,进行Reposity库级别的管理,级别较高。

2. Reposity Server

Reposity server是为客户端服务的,客户端可以和各种client不在一台服务器上。关于数据抽取的设计成果转换成为XML格式的源数据,都是通过Reposity Server存放到Reposity Database Server上的。

3. Reposity Database Server

用于存放的是进行ETL设计的元数据。可以支持各类的数据库。方式为数据库中用户的一个表目录和用户关系即可。

Reposity Database可以和Reposity server不安装在一台服务器。如果在一台机器上,server通过native方式连接到database,如果不在一台及其上,需要在database上安装一个reposity agent,用户通过agent,以native方式连接到reposity数据库,然后reposity agent再以tcp/ip方式连接到reposity server。

4. Informatic Server

Informatic server 是实际执行数据抽取任务的运行环境。即workflows、task、sessions等。它是根据定义的workflow元数据库,然后在自己的实际环境中,执行数据抽取操作。

三、系统组件功能

Informatic的功能主要体现在Designer 和Workflow Manager上,其中Designer实现的是对数据抽取的数据转换方式设计,以及效率设计目标等。而在Workflow Manager中再把具体的数据转换方式应用到一个具体的工作任务中,包括目标库、源库的选择,以及一条具体的执行任务的属性设置等等。包括任务的insert、truncate、delete、increment insert等。

1. Designer

² 工作区

在Designer中,涉及到的工作区主要包括有Source Analyzer、Warehouse Designer、Transformation Designer、Mapplet Designer和Mapping Designer。

其中每个工作区的功能分别介绍:

Source Analyzer:

Source Analyzer的功能是实现对源数据库表的设计,可以手工的进行源数据库的设计,一般都是通过从Flat File或者Relation DBMS中导入数据库的表结构。XLS文件结构。

Warehouse Designer

用于设计目标数据库库的结构,可以利用手工设计,也可以利用import工具导入导一个warehouse的结构。

Transformation Designer

用户设计可重用的transformation组件,这里的组件,在一个folder里面都是可以重用的,而且以shortcut的方式使用。Transformation组件的修改,会直接反映到使用此transformation的mapping中。

Mpplet

设计可以重用的多个组件,只要有output组件,可以有input组件,也可以没有input组件,实现的功能就和一个expression的功能类似,实现功能。



Mapping Designer

实现的功能是设计具体进行抽取数据的mapping,这些mapping应用到一个workflow中,形成了workflow的一个session(task)。



² 组件功能

ETL支持的组件主要包括两类:Active组件和Passive组件,其中Active组件是对输入记录集在输出时个数有变化的组件,Passive组件,输入的记录集,输出时记录集的个数不发生改变。

Informatic提供的组件包括:

(1) Source Qualifier: reads data from flat file & relational sources

(2) Expression: performs row-level calculations

(3) Filter: drops rows conditionally

(4) Sorter: sorts data

(5) Aggregator: performs aggregate calculations

(6) Joiner: joins heterogeneous sources

(7) Lookup: looks up values and passes them to other objects

(8) Update Strategy: tags rows for insert, update, delete, reject

(9) Router: splits rows conditionally

(10) Sequence Generator: generates unique ID values

(11) Normalizer: normalizes records from relational or VSAM sources

(12) Rank: filters the top or bottom range of records

(13) Union: merges data from multiple pipelines into one pipeline

(14) Transaction Control: allows user-defined commits

(15) Stored Procedure: calls a database stored procedure

(16) External Procedure : calls compiled code for each row

(17) Custom: calls compiled code for multiple rows

(18) Midstream XML Parser: reads XML from database table or message queue

(19) Midstream XML Generator: writes XML to database table or message queue

每一类组件都有自己独特的功能和特点,这里介绍主要的组件包括上述红色的内容。每一种组件的详细功能这里不详细介绍。

2. Workflow

Workflow是对执行任务的执行进行控制,可以在执行时对执行的任务进行传参数进行传入,这样就能在执行的时候把数据库表进行动态的设置。

可以在执行的时候选择参数文件,对mapping、workflow中的Session的参数进行传入。达到动态执行的目的。

Workflow中定义workflow、session等任务,对这些任务的执行进行管理控制。

四、补充说明

(1) Source Qualifier支持同构数据源的连接,衣钩数据源的连接通过N-1个jointer组件实现。

(2) Lookup为passive组件,查出的多条记录集,要么取first,或者last,或者报错。

(3) Lookup可以时动态/静态 ,可以connected/unconnect

分享到:
评论
1 楼 datawarehouse 2012-10-12  
来学习了。

相关推荐

    informatic

    informatic_2

    Informatic大数据工作手册

    《Informatic大数据工作手册》是一份全面指导手册,旨在帮助专业人士理解大数据的概念,实施大数据项目,并实现业务目标。工作手册从大数据的背景知识讲起,逐步深入到项目实施的细节。 首先,企业实施大数据项目的...

    informatic安装包2

    informatic安装包2

    informatic教程

    很抱歉,根据您提供的信息,"informatic教程"的描述中提到这是一个空的压缩包,因此无法直接提供相关的IT知识点。不过,考虑到"informatic"通常指的是信息学,这是一个涵盖广泛领域的学科,包括数据处理、计算机科学...

    DataStage与Informatic对比

    【DataStage与Informatica PowerCenter对比】 DataStage与Informatica PowerCenter都是业界广泛采用的数据集成工具,主要用于构建和维护数据仓库和数据集市。两者在功能、特性以及使用体验上都有各自的特点。...

    DataStage_与Informatic_对比

    DataStage_与Informatic_对比

    informatic安装包8

    informatic安装包8

    informatic安装包9

    informatic安装包9

    informatic安装包10

    informatic安装包10

    informatic ETl流程

    ### Informatic ETL 流程解析 #### 一、Informatica ETL 简介 Informatica 是一款广泛应用于企业数据集成领域的软件工具,尤其在ETL(Extract, Transform, Load)过程中扮演着极其重要的角色。ETL过程是指从源系统...

    informatic client 使用方法

    **Informatica PowerCenter Client 使用指南** Informatica PowerCenter是一款强大的数据集成工具,广泛应用于企业级的数据提取、转换和加载(ETL)过程。其客户端组件是数据分析师和开发人员进行数据整合工作的...

    Informatic PowerCenter7基础培训

    Informatica PowerCenter 7 是一款强大的企业级数据集成平台,专为处理复杂的数据整合任务而设计。本基础培训旨在帮助初学者理解并掌握其核心概念、架构和主要功能。 1. **Informatica PowerCenter 体系结构** ...

    INFORMATIC培训

    ### INFORMATICA PowerCenter 培训知识点概览 #### 一、INFORMATICA PowerCenter 简介 INFORMATICA PowerCenter是一款业界领先的数据集成平台,它为企业提供了高效的数据抽取、转换和加载(ETL)功能。...

    Python for Informatic非计算机专业人士处理数据信息的python

    本书《Python for Informatics: Exploring Information》是由Charles Severance所著,针对非计算机专业人士设计,旨在教授他们如何使用Python语言来处理和分析数据。本书是《Think Python: How to Think Like a ...

    informatic安装包3

    informatic安装包3

    informatic课件

    这个名为“informatic课件”的资料包,显然是为了帮助我们更好地理解和掌握信息学的核心概念。 首先,我们需要了解信息学的基本定义。信息学是一门研究信息的获取、存储、处理、传播和利用的学科,它涉及计算机科学...

    Informatic 实用资料整理

    标题 "Informatic 实用资料整理" 暗示了这个压缩包包含的是关于Informatica这一数据集成工具的相关学习材料。Informatica是一款强大的企业级数据整合平台,广泛用于数据迁移、数据清洗、数据仓库建设和ETL(提取、...

Global site tag (gtag.js) - Google Analytics