`
yinwxiang
  • 浏览: 65286 次
  • 性别: Icon_minigender_1
  • 来自: 上海
社区版块
存档分类
最新评论

Informatica transformations优化

    博客分类:
  • ETL
阅读更多
Optimizing Aggregator Transformations
Group by simple columns
:用简单的字段来做group by 用数字字段替代用字符类型的。
Use sorted input
:用已经排过序的数据来进行汇总,这个选项勾上,infa不会再对数据进行排序,可以用SQ或sorter 组件来对数据进行排序后再汇总
Use incremental aggregation
Filter data before you aggregate it
:在汇总前先过滤掉不没有用处的数据
Limit port connections
:减少input/output port降低cache使用

Optimizing Joiner Transformations
使用的时候一次cache 100 唯一的key values
确保master 少重复key values
确保master数据量小,因为master是被用来匹配detail的每一行数据
尽可能的把join的动作放在数据库中执行
normal join要比outer join快 并得到较少的结果。当不能在数据库中直接join的(不同的数据库,或者有flat file)的时候可以创建一个per_session 存储过程,或者在SQ中优化join

最后可以给它传,已经排过序的数据,以减少对磁盘的读写次数(这边排序是要用到cache的)

Optimizing Lookup Transformations
选用一个最佳的数据源 本地的驱动要比odbc性能更好。
在打开cache的时候,infa会把在cache上做,不打开的时候,只能在源上面一条一条的来处理。
选用适当的cache类型
:shared cache 不同的组件可以共享一个无命名的cache在同一个mapping中,不同的组件可以共享一个命名的cache在不同的mapping间
:Persistent cache 保存一个重用的cache 文件,保证在运行session时源不会改动,这样保证了,不会再从数据库中读取数据来创建这个cache
开启并发的cache
:并发的创建cache来代替一个一个顺序的传建
选择最优的匹配
:最先返回指,还是最后返回值,也会影响性能,当然可以选择最先返回值
减少cache行
:可以直接override SQL添加过滤条件来减少源的行数
重新order by语句
:是用override SQL注释掉不要进行排序的字段,一般情况下,return字段都是不用排序的,可以自己写出sql 用--注释掉infa自己加上去的部分。
使用更多的机器内存
添加indexing lookup table
Cached lookups  在order by columns上添加index 可以在session logs上面找到对应的语句
Uncached lookups 在lookup condition 字段添加index  这是对表中每一行进行查询。


Sequence Generator Transformations
没什么具体好说的,可以创建一个复用的Sequence, 或者配置一个适当的数据cache 如果你不要设置,直接把这个值设为0  默认情况下也为0


Sorter Transformations
分配足够的内存给它让它给它排序。
:默认的情况下intergration  service 给Sorter设置16M的cache size 那么你必须要给出实际物理内存也要16M 否则会直接导致无法分配内存而失败。
在数据量大于cache的时候,它会把数据放在它的work directory下面,实际占用的要比数据量两倍一上的空间
Use the following formula to determine the size of incoming data:
# input rows ([Sum(column size)] + 16) 这个怎么设置,暂时不是很明白。
使用分区的时候,给其分配不同的工作目录
:不同的分区,存在放在不同的目录下,最好是分别把这些目录放在不同的物理盘上。


Source Qualifier Transformations
可以选中distinct选项得到唯一的数据, 在data flow 前面就把不需要的数据直接过滤掉


Optimizing SQL Transformations
不要使用transaction语句当只做查询的时候
1
2
分享到:
评论

相关推荐

    informatica 性能调优

    - 性能优化不仅限于Informatica本身,还包括与之交互的数据库和硬件资源。理想情况下,应用软件、数据库和硬件应协同工作,实现最佳性能平衡。这意味着要确保所有组件都在其最佳状态下运行,以提升整体系统性能。 ...

    informatica 实例

    10. **优化技巧**:在实际工作中,了解如何优化 transformations 和 mappings 对提升 ETL 性能至关重要。例如,合理设置 joiner 转换的策略、利用 expression 转换减少不必要的计算,都能有效提高数据处理效率。 ...

    Informatica 日志管理

    通过有效管理 Informatica 的日志,用户可以追踪错误、优化性能以及进行问题排查。 【描述】:“NULL 博文链接:https://yinwxiang.iteye.com/blog/1178789” 尽管描述中没有提供具体信息,但通常 Informatica ...

    Informatica 性能调优

    - **培训和知识更新**:保持团队对Informatica最新版本和性能调优技术的了解,以充分利用新功能和优化策略。 通过以上方法,我们可以系统地进行Informatica的性能调优,逐步解决性能瓶颈,提升整个数据处理流程的...

    informatica 元数据表说明

    - `MAP_TRANSFORMATIONS`: 描述了映射中的每个转换,如过滤器、连接器、聚合等。 4. **工作流元数据表(Workflow Metadata)** - `WORKFLOWS`: 记录工作流的基本信息,如工作流ID、名称、状态和调度信息。 - `...

    FlatFiles_Informatica样本数据

    10. **监控与调试**:Informatica提供详细的日志和监控工具,帮助开发者调试和优化数据处理过程,确保平面文件的正确导入和转换。 总的来说,"FlatFiles_Informatica样本数据"可能包含了一些示例平面文件以及相关的...

    Informatica Transformation Guide

    在 Informatica PowerCenter 中,Transformations 是工作流中的关键组件之一,用于执行数据转换任务。通过 Transformations,用户可以定义复杂的业务规则来处理和转换数据,确保数据质量并符合业务需求。每个 ...

    Informatica case study Compare_Values_Between_Records

    Informatica 7.1版本可能优化了性能,提升了比较大量记录的效率,并可能提供了更丰富的比较选项和错误处理机制。同时,可能增强了用户界面,使配置和监控比较任务更加直观易用。 总结,"Compare_Values_Between_...

    informatica_powercenter资料库元数据查询.pdf

    ### Informatica PowerCenter 资料库元数据查询知识点详解 #### 一、概述(Overview) **Informatica PowerCenter** 是一款业界领先的数据集成工具,主要用于处理大量的数据转换与加载需求。它支持多种数据源,并...

    Informatic 实用资料整理

    首先,我们来看"Transformation中文教程7.1.1.pdf",这很可能是关于Informatica PowerCenter中的Transformations的中文指南。Transformations是Informatica工作流程中的核心部分,它们负责对输入数据进行处理和转换...

    Informatica powercenter lab7 带脚本及文件

    7. **脚本(Transformations)**:在数据流中添加自定义逻辑,例如SQL脚本或定制代码。 在“实验室7”中,`PowerCenterLAB.pdf`文档很可能是实验指南,提供了详细的步骤和解释,帮助用户理解如何使用脚本来增强数据...

    info1_presentations:Informaticaes Informatica1 UTN FRBA

    5. **Transformations**:Transformations是Informatica中处理数据的关键步骤,如Filter、Joiner、Aggregator、Router等,可以实现数据清洗、合并、聚合和筛选。 6. **工作流与作业**:工作流是多个任务的逻辑组合...

    Aggregator Transformation组件 详解

    Aggregator Transformation组件是Informatica PowerCenter中的一种主动型(Active)和连接型(Connected)转换,主要用于执行数据的聚合操作,比如计算平均值、求和等。与Expression Transformation不同,Aggregator...

    infa_sem2_2021

    在Informatica的上下文中,C++可能被用来编写自定义的transformations或connectors,以便扩展Informatica的功能,处理特定的数据格式,或者提高性能。 【压缩包子文件的文件名称列表】"infa_sem2_2021-master"看...

    Kettle基本使用.docx

    - **高性能**:虽然Informatica可能在某些场景下性能更强,但通过对数据库和Kettle的适当优化,Kettle也能实现高效的数据处理。 - **开源与成本效益**:Kettle的开源特性降低了入门门槛,减少了企业的初期投入。 ##...

    powercenter中文使用说明.doc

    在Designer中,你可以通过拖放方式构建数据流,使用Transformations处理数据,如过滤、转换和聚合。 - **Mapping Parameters和Variables**:Parameters和Variables用于动态控制Mapping的运行。Parameters是在设计时...

    关系数据库向XML的转换技术研究.pdf

    1. **基于SQL查询的转换**:通过编写SQL查询语句,从数据库中检索所需的数据,然后使用XSLT(Extensible Stylesheet Language Transformations)将查询结果转换为XML。 2. **中间件或API**:使用中间件工具,如...

    数据库转化为xml文件

    - ETL工具(Extract, Transform, Load)如Apache NiFi或Informatica也可以用于从数据库到XML的转换,提供图形化的数据流设计。 - 自动化脚本:Python的pandas库和sqlalchemy模块,或Java的JDBC,允许编写脚本来...

    PowerCenter811基础培训资料

    PowerCenter是由Informatica公司开发的一款强大的数据集成平台,主要用于企业级的数据整合、数据迁移和数据治理任务。它以可视化的方式提供了ETL(Extract, Transform, Load)功能,帮助用户从各种异构数据源抽取...

Global site tag (gtag.js) - Google Analytics