- 浏览: 65403 次
- 性别:
- 来自: 上海
最新评论
Optimizing Aggregator Transformations
Group by simple columns
:用简单的字段来做group by 用数字字段替代用字符类型的。
Use sorted input
:用已经排过序的数据来进行汇总,这个选项勾上,infa不会再对数据进行排序,可以用SQ或sorter 组件来对数据进行排序后再汇总
Use incremental aggregation
Filter data before you aggregate it
:在汇总前先过滤掉不没有用处的数据
Limit port connections
:减少input/output port降低cache使用
Optimizing Joiner Transformations
使用的时候一次cache 100 唯一的key values
确保master 少重复key values
确保master数据量小,因为master是被用来匹配detail的每一行数据
尽可能的把join的动作放在数据库中执行
normal join要比outer join快 并得到较少的结果。当不能在数据库中直接join的(不同的数据库,或者有flat file)的时候可以创建一个per_session 存储过程,或者在SQ中优化join
最后可以给它传,已经排过序的数据,以减少对磁盘的读写次数(这边排序是要用到cache的)
Optimizing Lookup Transformations
选用一个最佳的数据源 本地的驱动要比odbc性能更好。
在打开cache的时候,infa会把在cache上做,不打开的时候,只能在源上面一条一条的来处理。
选用适当的cache类型
:shared cache 不同的组件可以共享一个无命名的cache在同一个mapping中,不同的组件可以共享一个命名的cache在不同的mapping间
:Persistent cache 保存一个重用的cache 文件,保证在运行session时源不会改动,这样保证了,不会再从数据库中读取数据来创建这个cache
开启并发的cache
:并发的创建cache来代替一个一个顺序的传建
选择最优的匹配
:最先返回指,还是最后返回值,也会影响性能,当然可以选择最先返回值
减少cache行
:可以直接override SQL添加过滤条件来减少源的行数
重新order by语句
:是用override SQL注释掉不要进行排序的字段,一般情况下,return字段都是不用排序的,可以自己写出sql 用--注释掉infa自己加上去的部分。
使用更多的机器内存
添加indexing lookup table
Cached lookups 在order by columns上添加index 可以在session logs上面找到对应的语句
Uncached lookups 在lookup condition 字段添加index 这是对表中每一行进行查询。
Sequence Generator Transformations
没什么具体好说的,可以创建一个复用的Sequence, 或者配置一个适当的数据cache 如果你不要设置,直接把这个值设为0 默认情况下也为0
Sorter Transformations
分配足够的内存给它让它给它排序。
:默认的情况下intergration service 给Sorter设置16M的cache size 那么你必须要给出实际物理内存也要16M 否则会直接导致无法分配内存而失败。
在数据量大于cache的时候,它会把数据放在它的work directory下面,实际占用的要比数据量两倍一上的空间
Use the following formula to determine the size of incoming data:
# input rows ([Sum(column size)] + 16) 这个怎么设置,暂时不是很明白。
使用分区的时候,给其分配不同的工作目录
:不同的分区,存在放在不同的目录下,最好是分别把这些目录放在不同的物理盘上。
Source Qualifier Transformations
可以选中distinct选项得到唯一的数据, 在data flow 前面就把不需要的数据直接过滤掉
Optimizing SQL Transformations
不要使用transaction语句当只做查询的时候
Group by simple columns
:用简单的字段来做group by 用数字字段替代用字符类型的。
Use sorted input
:用已经排过序的数据来进行汇总,这个选项勾上,infa不会再对数据进行排序,可以用SQ或sorter 组件来对数据进行排序后再汇总
Use incremental aggregation
Filter data before you aggregate it
:在汇总前先过滤掉不没有用处的数据
Limit port connections
:减少input/output port降低cache使用
Optimizing Joiner Transformations
使用的时候一次cache 100 唯一的key values
确保master 少重复key values
确保master数据量小,因为master是被用来匹配detail的每一行数据
尽可能的把join的动作放在数据库中执行
normal join要比outer join快 并得到较少的结果。当不能在数据库中直接join的(不同的数据库,或者有flat file)的时候可以创建一个per_session 存储过程,或者在SQ中优化join
最后可以给它传,已经排过序的数据,以减少对磁盘的读写次数(这边排序是要用到cache的)
Optimizing Lookup Transformations
选用一个最佳的数据源 本地的驱动要比odbc性能更好。
在打开cache的时候,infa会把在cache上做,不打开的时候,只能在源上面一条一条的来处理。
选用适当的cache类型
:shared cache 不同的组件可以共享一个无命名的cache在同一个mapping中,不同的组件可以共享一个命名的cache在不同的mapping间
:Persistent cache 保存一个重用的cache 文件,保证在运行session时源不会改动,这样保证了,不会再从数据库中读取数据来创建这个cache
开启并发的cache
:并发的创建cache来代替一个一个顺序的传建
选择最优的匹配
:最先返回指,还是最后返回值,也会影响性能,当然可以选择最先返回值
减少cache行
:可以直接override SQL添加过滤条件来减少源的行数
重新order by语句
:是用override SQL注释掉不要进行排序的字段,一般情况下,return字段都是不用排序的,可以自己写出sql 用--注释掉infa自己加上去的部分。
使用更多的机器内存
添加indexing lookup table
Cached lookups 在order by columns上添加index 可以在session logs上面找到对应的语句
Uncached lookups 在lookup condition 字段添加index 这是对表中每一行进行查询。
Sequence Generator Transformations
没什么具体好说的,可以创建一个复用的Sequence, 或者配置一个适当的数据cache 如果你不要设置,直接把这个值设为0 默认情况下也为0
Sorter Transformations
分配足够的内存给它让它给它排序。
:默认的情况下intergration service 给Sorter设置16M的cache size 那么你必须要给出实际物理内存也要16M 否则会直接导致无法分配内存而失败。
在数据量大于cache的时候,它会把数据放在它的work directory下面,实际占用的要比数据量两倍一上的空间
Use the following formula to determine the size of incoming data:
# input rows ([Sum(column size)] + 16) 这个怎么设置,暂时不是很明白。
使用分区的时候,给其分配不同的工作目录
:不同的分区,存在放在不同的目录下,最好是分别把这些目录放在不同的物理盘上。
Source Qualifier Transformations
可以选中distinct选项得到唯一的数据, 在data flow 前面就把不需要的数据直接过滤掉
Optimizing SQL Transformations
不要使用transaction语句当只做查询的时候
发表评论
-
Kettle学习
2013-11-10 20:55 01、资源库:(元数据) 2、数据库连接(异构的数据源连接) 3 ... -
Informatica aix服务端,windows客户端安装手册
2011-10-24 15:37 1342Informatica8.5.1服务端在AIX服务器上,客 ... -
Informatica 找出性能瓶颈
2011-10-18 14:46 2139以下提到的Session log ... -
Informatica 运用Debug调试
2011-10-17 14:35 2416在开发的时候,总是少不了要出错进行调试,informati ... -
Informatica 更换License
2011-10-08 15:01 3498因为在做Informatica 的升级,还没有正式的买Li ... -
Informatica 更换License
2011-10-08 14:57 0因为在做Informatica 的升级,还没有正式的买Li ... -
Informatica 8.5.1升级8.6.1
2011-09-29 12:00 1983前段时间一直在忙Informatica 8.5.1升级到8.6 ... -
Informatica Schedule元数据信息
2011-09-28 11:01 1798近日,被问及Informatica 的Scheduler ... -
Informatica Schedule元数据信息
2011-09-27 14:34 3对应着rep_all_schedulers这个view的中Ru ... -
Informatica Schedule调用还是shell调用
2011-09-26 15:12 4098首先介绍下Infomatica Wo ... -
Informatica Infasetup命令简单说明
2011-09-23 14:44 4179当前,大部分的公司使用的Informatica,任然是8.5. ... -
Informatica 日志管理
2011-09-23 10:51 4577前一段时间一直在忙Informatica 升级的事情,现在 ... -
Informatica数据加载机制
2011-09-22 16:52 4404很长一段时间,对info ... -
Informatica 安装用户元数据解析
2011-07-19 15:21 3722OPB_ATTR : INFORMATICA (Designe ... -
informatica workflow调用shell脚本以及返回状态参数处理
2010-11-01 17:59 6008informatica,用shell脚本调用workflow, ... -
Informatica aix服务端,windows客户端安装手册
2010-10-25 08:44 124整了一整天,最终写完了这个完整,详细的安装手册呀。 -
pmcmd
2010-10-11 17:09 213pmcmd命令 可以对Workflow调度做控制;停止Info ... -
Informatica pmcmd命令执行时出错 not load
2010-10-11 16:30 1830在AIX系统中执行PMCMD的结果如下: $pmcmd Co ... -
informatica 资料学习转载
2010-09-13 10:04 4555Informatica简明使用手册 ...
相关推荐
- 性能优化不仅限于Informatica本身,还包括与之交互的数据库和硬件资源。理想情况下,应用软件、数据库和硬件应协同工作,实现最佳性能平衡。这意味着要确保所有组件都在其最佳状态下运行,以提升整体系统性能。 ...
10. **优化技巧**:在实际工作中,了解如何优化 transformations 和 mappings 对提升 ETL 性能至关重要。例如,合理设置 joiner 转换的策略、利用 expression 转换减少不必要的计算,都能有效提高数据处理效率。 ...
通过有效管理 Informatica 的日志,用户可以追踪错误、优化性能以及进行问题排查。 【描述】:“NULL 博文链接:https://yinwxiang.iteye.com/blog/1178789” 尽管描述中没有提供具体信息,但通常 Informatica ...
- **培训和知识更新**:保持团队对Informatica最新版本和性能调优技术的了解,以充分利用新功能和优化策略。 通过以上方法,我们可以系统地进行Informatica的性能调优,逐步解决性能瓶颈,提升整个数据处理流程的...
- `MAP_TRANSFORMATIONS`: 描述了映射中的每个转换,如过滤器、连接器、聚合等。 4. **工作流元数据表(Workflow Metadata)** - `WORKFLOWS`: 记录工作流的基本信息,如工作流ID、名称、状态和调度信息。 - `...
10. **监控与调试**:Informatica提供详细的日志和监控工具,帮助开发者调试和优化数据处理过程,确保平面文件的正确导入和转换。 总的来说,"FlatFiles_Informatica样本数据"可能包含了一些示例平面文件以及相关的...
在 Informatica PowerCenter 中,Transformations 是工作流中的关键组件之一,用于执行数据转换任务。通过 Transformations,用户可以定义复杂的业务规则来处理和转换数据,确保数据质量并符合业务需求。每个 ...
Informatica 7.1版本可能优化了性能,提升了比较大量记录的效率,并可能提供了更丰富的比较选项和错误处理机制。同时,可能增强了用户界面,使配置和监控比较任务更加直观易用。 总结,"Compare_Values_Between_...
### Informatica PowerCenter 资料库元数据查询知识点详解 #### 一、概述(Overview) **Informatica PowerCenter** 是一款业界领先的数据集成工具,主要用于处理大量的数据转换与加载需求。它支持多种数据源,并...
首先,我们来看"Transformation中文教程7.1.1.pdf",这很可能是关于Informatica PowerCenter中的Transformations的中文指南。Transformations是Informatica工作流程中的核心部分,它们负责对输入数据进行处理和转换...
7. **脚本(Transformations)**:在数据流中添加自定义逻辑,例如SQL脚本或定制代码。 在“实验室7”中,`PowerCenterLAB.pdf`文档很可能是实验指南,提供了详细的步骤和解释,帮助用户理解如何使用脚本来增强数据...
5. **Transformations**:Transformations是Informatica中处理数据的关键步骤,如Filter、Joiner、Aggregator、Router等,可以实现数据清洗、合并、聚合和筛选。 6. **工作流与作业**:工作流是多个任务的逻辑组合...
Aggregator Transformation组件是Informatica PowerCenter中的一种主动型(Active)和连接型(Connected)转换,主要用于执行数据的聚合操作,比如计算平均值、求和等。与Expression Transformation不同,Aggregator...
在Informatica的上下文中,C++可能被用来编写自定义的transformations或connectors,以便扩展Informatica的功能,处理特定的数据格式,或者提高性能。 【压缩包子文件的文件名称列表】"infa_sem2_2021-master"看...
- **高性能**:虽然Informatica可能在某些场景下性能更强,但通过对数据库和Kettle的适当优化,Kettle也能实现高效的数据处理。 - **开源与成本效益**:Kettle的开源特性降低了入门门槛,减少了企业的初期投入。 ##...
在Designer中,你可以通过拖放方式构建数据流,使用Transformations处理数据,如过滤、转换和聚合。 - **Mapping Parameters和Variables**:Parameters和Variables用于动态控制Mapping的运行。Parameters是在设计时...
1. **基于SQL查询的转换**:通过编写SQL查询语句,从数据库中检索所需的数据,然后使用XSLT(Extensible Stylesheet Language Transformations)将查询结果转换为XML。 2. **中间件或API**:使用中间件工具,如...
- ETL工具(Extract, Transform, Load)如Apache NiFi或Informatica也可以用于从数据库到XML的转换,提供图形化的数据流设计。 - 自动化脚本:Python的pandas库和sqlalchemy模块,或Java的JDBC,允许编写脚本来...
PowerCenter是由Informatica公司开发的一款强大的数据集成平台,主要用于企业级的数据整合、数据迁移和数据治理任务。它以可视化的方式提供了ETL(Extract, Transform, Load)功能,帮助用户从各种异构数据源抽取...