`

Informatica数据抽取工具

阅读更多
公司介绍

  创立于 1993 年,总部位于 Palo Alto, California of USA 的 Informatica ( Nasdaq:INFA )公司,作为电子商务分析型软件市场的领先者,一直致力于通过自身的产品和服务提升企业的竞争性优势。其拳头产品 Informatica Insight Network(Infrastructure and Analytics) 已被全球 1 , 800 多家企业用来集成、分析和个性化企业的关键商务信息,优化整个商务价值链的表现和响应速度。拥有包括 Citigroup, Deutsche Bank, AT&T, British Telecom, Motorola, Cisco, HP, Boeing, National Semiconductor, Timer Warner, News Group 在内的广泛的客户群。

  Informatica 作为电子商务分析软件,数据集成和分析型应用解决方案提供商,拥有包括分析型应用软件、广泛的支持服务和强大的数据集成平台在内的综合性产品家族。 Informatica 的基础设施产品以可伸缩的、可扩展的企业级数据集成平台为特点,并广泛支持来自 Informatica 和其他的领先智能商务提供商的数据仓库基础设施和分析型应用软件的开发和管理。

  Informatica 的分析型应用软件也是建立在数据集成平台之上,旨在为企业解决任何可能出现的有关相关性、性能、瓶颈、战略和其他的种种问题。

一、总体概述

  ETL 包括 Extract 、 Transform 、 Cleaning 和 Load ,它是用于从生产库中提取数据到数据仓库中,再由具体的报表、统计、分析工具对数据仓库的内容进行分析,分析出自己所需要的数据。

  其中 ETL 培训的内容是如何利用 Informatic PowerCenter 把源数据库的内容提取存放到目标数据库中。主要

  Informatic 主要包括四个部分: Client , Reposity Server , Reposity Database 和 Informatic Server 每个部分实现自己的功能。

二、系统体系结构

  此部分介绍了 Informatic ETL 工具包括的主要内容。

1.Client

  Informatic Client 主要有五个部分。 Client 可以和 Reposity 分离,通过 TCP/IP 连接,连接到远程的 Reposity Server 。

2. Reposity Manager

  主要用于进行一个 Reposity 库的管理,当用户使用 Client 工具登录一个 Reposity 服务器之后,进行文件夹权限的创建,用户权限、密码的管理等。

3. Designer

  主要是进行数据抽取的转换工具的设计,主要是 mapping 的设计、设计源数据库的结构,目标数据库的结构,然后设计把源数据导入到目标数据库中,所需要进行的转换操作( Transformation )。

  同一个 Reposity 的 folder 之间可以建立 shortcut 方式,多个 reposity 的 folder 之间只能做拷贝。

4. Workflow Manager

  主要用于流程任务( workflow Task )的设计。

  进行任务流程的设计、每一个 Tast 针对一个 Session ,一个 session 针对一个 mapping ,其中 workflow 中的 Folder 和 Designer 中的 folder 相对应的关系。一版来说,用户都是建立自己的 Folder 。

5. Workflow Monitor

  主要进行流程运行、及任务运行时的流程运行情况跟踪。可以跟踪日志。包括 Session 日志和 Workflow 日志,可以设置生成日志的循环个数。分析 session 运行是对源数据库的数据抽出信息和对目标数据库的更新信息。

6. Reposity Server Application Console

  主要进行 Reposity 的管理,包括 Reposity Server 的 start , shutdown 操作。进行 Reposity 库的 backup 、 restore 等操作,进行 Reposity 库级别的管理,级别较高。

7. Reposity Server

  Reposity server 是为客户端服务的,客户端可以和各种 client 不在一台服务器上。关于数据抽取的设计成果转换成为 XML 格式的源数据,都是通过 Reposity Server 存放到 Reposity Database Server 上的。

8. Reposity Database Server

  用于存放的是进行 ETL 设计的元数据。可以支持各类的数据库。方式为数据库中用户的一个表目录和用户关系即可。

  Reposity Database 可以和 Reposity server 不安装在一台服务器。如果在一台机器上, server 通过 native 方式连接到 database ,如果不在一台及其上,需要在 database 上安装一个 reposity agent ,用户通过 agent ,以 native 方式连接到 reposity 数据库,然后 reposity agent 再以 tcp/ip 方式连接到 reposity server 。

9.Informatic Server

  Informatic server 是实际执行数据抽取任务的运行环境。即 workflows 、 task 、 sessions 等。它是根据定义的 workflow 元数据库,然后在自己的实际环境中,执行数据抽取操作。

三、系统组件功能

  Informatic 的功能主要体现在 Designer 和 Workflow Manager 上,其中 Designer 实现的是对数据抽取的数据转换方式设计,以及效率设计目标等。而在 Workflow Manager 中再把具体的数据转换方式应用到一个具体的工作任务中,包括目标库、源库的选择,以及一条具体的执行任务的属性设置等等。包括任务的 insert 、 truncate 、 delete 、 increment insert 等。

1.Designer 组件

( 1 )工作区

  在 Designer 中,涉及到的工作区主要包括有 Source Analyzer 、 Warehouse Designer 、 Transformation Designer 、 Mapplet Designer 和 Mapping Designer 。

  其中每个工作区的功能分别介绍:

Source Analyzer :

  Source Analyzer 的功能是实现对源数据库表的设计,可以手工的进行源数据库的设计,一般都是通过从 Flat File 或者 Relation DBMS 中导入数据库的表结构。 XLS 文件结构。

Warehouse Designer

  用于设计目标数据库库的结构,可以利用手工设计,也可以利用 import 工具导入导一个 warehouse 的结构。

Transformation Designer

  用户设计可重用的 transformation 组件,这里的组件,在一个 folder 里面都是可以重用的,而且以 shortcut 的方式使用。 Transformation 组件的修改,会直接反映到使用此 transformation 的 mapping 中。

Mpplet

  设计可以重用的多个组件,只要有 output 组件,可以有 input 组件,也可以没有 input 组件,实现的功能就和一个 expression 的功能类似,实现功能。

Mapping Designer

实现的功能是设计具体进行抽取数据的 mapping ,这些 mapping 应用到一个 workflow 中,形成了 workflow 的一个 session ( task )。

( 2 ) 组件功能

  ETL 支持的组件主要包括两类: Active 组件和 Passive 组件,其中 Active 组件是对输入记录集在输出时个数有变化的组件, Passive 组件,输入的记录集,输出时记录集的个数不发生改变。

Informatic 提供的组件包括:

(1) Source Qualifier: reads data from flat file & relational sources

(2) Expression: performs row-level calculations

(3) Filter: drops rows conditionally

(4) Sorter: sorts data

(5) Aggregator: performs aggregate calculations

(6) Joiner: joins heterogeneous sources

(7) Lookup: looks up values and passes them to other objects

(8) Update Strategy: tags rows for insert, update, delete, reject

(9) Router: splits rows conditionally

(10) Sequence Generator: generates unique ID values

(11) Normalizer:izes records from relational or VSAM sources

(12) Rank: filters the top or bottom range of records

(13) Union : merges data from multiple pipelines into one pipeline

(14) Transaction Control: allows user-defined commits

(15) Stored Procedure: calls a database stored procedure

(16) External Procedure : calls compiled code for each row

(17) Custom: calls compiled code for multiple rows

(18) Midstream XML Parser: reads XML from database table or message queue

(19) Midstream XML Generator: writes XML to database table or message queue

  每一类组件都有自己独特的功能和特点,这里介绍主要的组件包括上述红色的内容。每一种组件的详细功能这里不详细介绍。

2.Workflow 组件

  Workflow 是对执行任务的执行进行控制,可以在执行时对执行的任务进行传参数进行传入,这样就能在执行的时候把数据库表进行动态的设置。

  可以在执行的时候选择参数文件,对 mapping 、 workflow 中的 Session 的参数进行传入。达到动态执行的目的。

  Workflow 中定义 workflow 、 session 等任务,对这些任务的执行进行管理控制。

四、补充说明

Source Qualifier 支持同构数据源的连接,衣钩数据源的连接通过 N-1 个 jointer 组件实现。
Lookup 为 passive 组件,查出的多条记录集,要么取 first ,或者 last ,或者报错。
Lookup 可以时动态 / 静态 ,可以 connected/unconnect 。
分享到:
评论

相关推荐

    Informatica增量抽取.docx

    Informatica是一款强大的数据集成工具,广泛应用于数据仓库和大数据环境中的数据抽取、转换和加载(ETL)过程。增量抽取是数据仓库管理中的关键概念,它允许只处理自上次提取以来发生更改的数据,从而提高效率并减少...

    informatica简单增量抽取

    1. **验证数据抽取效果**: - 在PL/SQL环境中向源表中插入一条新的记录。 - 再次启动工作流,检查目标表中的数据变化情况,验证增量抽取的效果。 #### 四、注意事项 - **变量与表达式的正确性**:确保变量和...

    Informatica-时间增量抽取更新图文教程.docx

    在数据集成领域,Informatica 是一款强大的数据整合工具,它支持多种数据抽取、转换和加载(ETL)策略。增量更新是一种重要的数据处理方法,它只处理自上次抽取以来发生改变的数据,从而节省时间和资源。本教程将...

    Informatica数据迁移解决方案

    这包括但不限于数据抽取、转换和加载(ETL)工具,以及高级的数据清洗和匹配算法。 2. **方法**:基于丰富的实践经验,Informatica总结了一系列最佳实践和技术组合,以指导数据迁移项目的成功实施。这些方法涵盖了...

    Informatica元数据和血缘关系

    梳理Informatic的元数据,理清ETL背后的数据加工流水线基础数据,基于SQL析可以获取目标表依赖的源表和映射,然后基于映射可以追溯到相应的会话、工作集、工作流,完成整个数据加工链的血缘

    Informatica 数据整合案例

    1. **数据抽取**: - 从各种不同的数据源中抽取数据。 - 支持结构化和非结构化数据格式。 2. **数据清洗与转换**: - 清洗数据,去除重复项或错误数据。 - 转换数据格式,使其符合目标系统的规范。 3. **数据加载*...

    转:数据抽取核心问题

    数据抽取是大数据处理和...综上所述,数据抽取是数据驱动决策的基础,涉及多种技术和工具,需要综合运用编程、数据库管理、统计分析和业务理解。对于IT专业人士来说,掌握高效的数据抽取方法是提升数据分析能力的关键。

    informatica全量,按时间戳增量更新抽取

    本文将详细介绍如何使用Informatica实现数据的全量覆盖以及基于时间戳的增量更新抽取。 #### 二、全量覆盖抽取 全量覆盖抽取是指将源系统的全部数据一次性加载到目标表中,并覆盖掉之前的数据。这通常用于初次加载...

    INFORMATICA从ACCESS数据库导数据到ORACLE

    INFORMATICA是一款强大的数据集成工具,它允许用户从各种数据源抽取、转换和加载(ETL)数据到不同的目标系统。在这个场景中,我们将讨论如何使用INFORMATICA将数据从ACCESS数据库导出并导入到ORACLE数据库。 首先...

    Informatica 警告邮件解决方案

    标题中的“Informatica 警告邮件解决方案”指的是在使用Informatica这个数据集成工具时,如何设置和实施一个系统,以便在数据处理的Session出现问题时,自动向管理员发送警告邮件。这种解决方案对于实时监控和快速...

    Informatica中关于FTP的使用

    Informatica是一款广泛使用的ETL(抽取、转换、加载)工具,在数据集成和数据仓库项目中扮演着重要的角色。本文主要讨论了在Informatica中如何使用安全文件传输协议(Secure File Transfer Protocol,SFTP)来推送...

    Informatica字符集整理

    Informatica 字符集整理是指在使用 Informatica PowerCenter 工具对数据进行抽取转换时,对字符集编码格式进行详细的说明,并通过一些实例来详解字符集的问题。 Informatica 字符集整理理论基础从数据通路的角度看,...

    Informatica安装、平抽、增量抽取[整理].pdf

    【Informatica数据抽取】 数据抽取是Informatica的核心功能,包括平抽(Full Load)和增量抽取(Incremental Load)。 1. 平抽:在PL/SQL中创建与源表结构相同的空目标表。在Informatica PowerCenter Designer中,...

    INFORMATICA CLIENT的使用

    Informatica Client的强大之处在于其灵活的Transformation设计,可以根据具体需求构建复杂的逻辑,确保数据抽取的准确性和效率。通过深入理解和熟练掌握上述步骤,用户能够高效地利用Informatica Client进行数据管理...

    informatica PowerCenter培训文档

    Informatica PowerCenter是一款强大的数据集成工具,它帮助企业进行数据抽取(Extract)、转换(Transform)和加载(Load,简称ETL)过程,从而构建高效的数据仓库和数据湖。本培训文档旨在帮助学员掌握PowerCenter...

    informatica

    Sources 文件夹包含数据抽取的源头,如数据库中的表。你可以使用 Source Analyzer 导入源表结构,或者手动创建与现有表结构匹配的源表。 Targets 文件夹存储抽取后数据的目标位置,即目标表。通过 Warehouse ...

    informatica的使用.doc

    Informatica是一款强大的数据集成工具,广泛用于数据抽取、转换和加载(ETL)过程。本文主要讲解如何使用Informatica的客户端工具,包括Repository Manager和Designer,以及它们在数据处理中的关键功能。 首先,...

    Informatica中引入Excel文件

    Informatica是一款广泛使用的ETL工具,它可以帮助企业实现数据的集成、转换和加载。在很多业务场景中,需要从Excel文件中提取数据,并将数据加载到关系数据库中,作为源(Source)或者目标(Target)。本文将介绍...

    INFORMATICA资料

    - **数据抽取(Extract)**:从各种数据源如数据库、文件、API等抽取数据。 - **数据转换(Transform)**:使用映射设计器进行数据清洗、校验、合并、拆分等操作。 - **数据加载(Load)**:将转换后的数据加载到...

Global site tag (gtag.js) - Google Analytics