`
chenj847
  • 浏览: 53606 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

DataStage---lookup和join的区别 [转]

阅读更多

关于lookupjoin的区别,不同工具有类似的方式和原理,但功能特点各有不同。

首先lookup典型的1N关联,而join可以NM。此外lookup一般是左外连接(假设主表在左的设计思路),join则可以分开指定内或左外或者右外或者全外连接。lookup通常可以全部或部分缓冲进入内存,join则不一定,不同工具的做法差别挺大。lookup其实不少工具并不需要sort,因为是通过lookup key类似hash索引来定位,而join则分merge joinhash joinmerge sort做数据仓库的时候很吃亏的,因为数据需要先排序才能join,以数据仓库的大数据这么join几次后就开销很大了,通常etl工具本身所实现的方式都是sort mergehash join那就不需要将数据排序后关联,而现在最新的oracle,db2,teradata都有hash join的方式来提高性能,sql 2005好像也有了,iq就不是很清楚,其他的就更不清楚了。实际项目中,工具中的join未必比数据库快,还是要具体项目看,当然工具的好处是可以join异构数据源。但是往往etl工具作lookup比在db里面join效率要高。

讲到这里就可以清楚了,工具很多时候都在推荐lookup。在偶做过的项目中,NM的关联其实并不多,基本上都可以用lookup来实现。lookup的一些差别就是体现在lookup实现的复杂程度、性能和维护工作量。这块的技巧性也比较强。

分享到:
评论

相关推荐

    DataStage IBM-面试题

    #### 十四、Lookup Stage 与 Join Stage 的区别 - **Lookup Stage**(查找阶段) - 功能:将数据加载到内存中进行查找,提高效率。 - 缺点:占用较多内存资源。 - **Join Stage**(连接阶段) - 功能:实现两个...

    datastage产品安装和使用指南

    - **创建用户及组**:安装DataStage Server之前,需要创建一个专用的操作系统用户和组,以避免权限问题和潜在的安全风险。 - **系统参数设置**:配置系统的参数,比如内存、用户资源限制等,以满足DataStage运行时的...

    DATASTAGE经验积累与分享

    (DATASTAGE)处理原则是保留前者,例如,在JOIN、LOOKUP、MERGE等STAGE中,对同名字段的处理方式不同。 DATASTAGE是ETL工具中的一种重要组件,通过了解DATASTAGE的经验积累和分享,可以更好地使用DATASTAGE来处理...

    DataStage

    鉴于其在多个项目中的广泛应用,编写本指南旨在总结DataStage的使用经验和最佳实践,以促进快速学习和高效应用。 #### 二、产品概述 DataStage Enterprise Edition不仅能够处理大容量数据,还具备高可扩展性和并行...

    DataStage性能优化培训笔记

    本次培训不仅分享了基础的性能调优方法,还深入探讨了高级技巧,包括但不限于多节点读取、数据分区、数据源选择、以及作业监控等,旨在帮助用户深入了解并掌握DataStage的内部机制,从而更高效地管理和优化数据处理...

    DataStage_项目经验分享.doc

    Join Stage和Lookup Stage的分区方式不同,当选择Auto时,DataStage可能无法有效地处理数据关联。 这些经验教训强调了在DataStage项目实施中需要注意的关键点,包括日志分析、环境配置、数据处理效率以及正确理解...

    DataStage学习文档V0.1.doc

    - **编写目的**:本文档旨在帮助用户快速了解并掌握IBM WebSphere DataStage的基本功能和使用方法,以便于用户能够更快地投入到实际的数据整合项目中去。 - **帮助使用**:文档仅提供简单的介绍和示例,更多详细的...

    datastage常用Stage介绍

    LookUp Stage和Join Stage的区别 - **区别**: - LookUp Stage通常用于简单的数据匹配和查找。 - Join Stage则支持更复杂的多表连接逻辑。 ##### 12. Merge Stage - **简介**:Merge Stage用于合并来自不同数据...

    Datastage控件使用指南

    DataStage 是一款强大的数据集成工具,主要用于数据提取、转换和加载(ETL)的过程。DataStage 提供了一系列控件来帮助用户完成各种数据处理任务。以下将详细介绍一些常用的控件及其功能。 #### 2. 常用STAGE使用...

    datastage面试300题

    18. **实现SCD Type 2的最佳方法**:通常包括使用JOIN、FILTER和LOOKUP阶段,以及对历史数据的管理和维护。 19. **提高大规模数据处理的性能**:优化作业设计、增加资源分配、合理使用并行处理和索引等。 20. **...

    Datastage工具学习

    - **Join**:在输入数据集上执行连接操作,支持inner、left outer、right outer 和 full outer 连接类型。 - **ExternalFilter**:允许通过Unix 命令行指定过滤器来处理数据,为数据筛选提供额外的灵活性。 - **...

    DataStage企业版本(DSEE)与DataStage标准版本(DSSE)对比

    DSEE提供更多的组件,包括用于开发测试和数据转换的组件,如Lookup、Join、Merge、Filter等。这些组件不仅功能强大,还具有更精细的设置选项,有助于提升数据质量。例如,DSEE支持多种Lookup实现方式,使得关联操作...

    DataStage_ETL开发指南_EE

    - **LookUp Stage 和 Join Stage 区别**:两者虽然都可以实现查找功能,但 LookUp 更侧重于查找单个记录,而 Join 可以实现更复杂的多表连接。 - **Merge Stage**:将多个有序数据流合并成一个有序数据流。 - **...

    ETL开发指南(DataStage_EE使用介绍)V2.0.pdf

    **3.1.11 Lookup Stage 和 Join Stage 的区别** - **Lookup Stage** 主要用于简单的数据查询操作,如查找匹配项等。 - **Join Stage** 更侧重于两个或多个表之间的复杂连接操作。 **3.1.12 Merge Stage** 将来自...

    Datastage产品开发使用指南

    本指南详细阐述了每个阶段的配置、使用方法和注意事项,是学习和实践Datastage的宝贵资源,尤其对于那些涉及Oracle数据库的数据仓库项目,Datastage的高效连接和处理能力显得尤为重要。通过深入学习和实践,读者将...

    DataStage开发指南

    3.1.11 LookUp Stage与Join Stage的区别:LookUp用于一对一或一对多的关联,而Join支持多对多关系。 3.1.12 Merge Stage:用于合并相同键值的数据。 3.1.13 Modify Stage:修改数据字段的值,实现数据清洗和格式化。...

    datastage控件指南

    本指南将深入探讨这些控件的使用方法,帮助用户更好地理解和掌握DataStage的强大功能。 1. 引言 在数据集成领域,DataStage以其灵活性和高性能著称。控件是DataStage设计工作台中的基本构建块,它们负责数据的读取...

    Datastage产品开发使用指南.pdf

    DataStage是一款由IBM开发的数据集成工具,广泛用于企业级数据仓库和大数据应用的数据抽取、转换和加载(ETL)任务。DataStage产品开发使用指南为用户提供了关于如何使用DataStage进行数据集成项目开发的详细指导。...

Global site tag (gtag.js) - Google Analytics