`

Kettle 合并记录和Merge Join组件实现数据增量迁移(数据同步比插入更新快

 
阅读更多
该步骤用于将两个不同来源的数据合并,这两个来源的数据分别为旧数据和新数据,该步骤将旧数据和新数据按照指定的关键字匹配、比较、合并。

需要设置的参数:

旧数据来源:旧数据来源的步骤

新数据来源。新数据来源的步骤

标志字段:设置标志字段的名称,标志字段用于保存比较的结果,比较结果有下列几种。

1. “identical” – 旧数据和新数据一样

2. “changed” – 数据发生了变化;

3. “new” – 新数据中有而旧数据中没有的记录

4. “deleted” –旧数据中有而新数据中没有的记录


关键字段:用于定位两个数据源中的同一条记录。

比较字段:对于两个数据源中的同一条记录中,指定需要比较的字段。

合并后的数据将包括旧数据来源和新数据来源里的所有数据,对于变化的数据,使用新数据代替旧数据,同时在结果里用一个标示字段,来指定新旧数据的比较结果。

注意:(必须排序 字段名一定要相同 合并记录不能使用复制数

特此备注下:合并记录 之前先 进行 排序(如下图红框标记的部分)



1.旧数据和新数据需要事先按照关键字段排序。

2.旧数据和新数据要有相同的字段名称。

使用多主键进行增量抽取案例:




使用Merge Join 进行增量更新












  • 大小: 12.5 KB
  • 大小: 19 KB
  • 大小: 29.9 KB
分享到:
评论
发表评论

文章已被作者锁定,不允许评论。

相关推荐

    kettle合并记录处理同表数据更新等操作

    kettle合并记录处理同表数据更新等操作.doc

    kettle数据增量同步实现

    kettle的使用手册,及个人实现的数据增量同步,亲测可行!

    kettle实现时间戳增量同步案例

    在这个“kettle实现时间戳增量同步案例”中,我们将探讨如何利用Kettle来实现Oracle数据库中基于时间戳的数据增量同步。 1. **理解时间戳增量同步** 时间戳增量同步是指只同步自上次同步以来发生改变的数据,通常...

    Kettle实现增量抽取数据

    总之,Kettle实现Oracle两表之间的增量数据抽取是一项涉及数据库连接、数据过滤、状态追踪和更新策略等多个环节的任务。通过合理设计和配置,可以实现高效、准确的数据同步,满足企业对实时数据分析的需求。

    使用Kettle同步mysql数据,增量同步教程执行步骤

    在MySQL数据库间进行增量同步,我们关注的是捕获和应用自上次同步以来新插入或更新的记录。 下面是一个使用Kettle进行MySQL增量同步的详细步骤教程: 1. **创建数据库连接**: - 在Kettle的Spoon界面中,创建新的...

    使用Kettle同步mysql数据,增量同步

    1. 只增加、无更新、无删除:针对数据库中只有数据插入(Insert),没有数据更新(Update)和删除(Delete)的情况。如果基表存在更新字段,例如一个时间戳或自增ID,可以通过在Kettle的“表输入”步骤中加入条件...

    kettle 增量更新并标识删除的记录

    ETL之kettle 增量更新并标识删除的记录 不删除原始数据

    Kettle增量同步.rar

    Kettle增量同步,里边包含项目文件可能需要你新建数据库。源数据为Oracle,目标数据库为PostgreSQL. 增量记录表.SQL 用来生成 edp_etl_record 表 记录每次更新数据的执行记录过程。 更新时先取出edp_etl_record 表...

    kettle全量多表数据同步

    ### Kettle全量多表数据同步 #### 一. 建立资料库 在进行全量多表数据同步之前,首先需要建立一个资源库来存放所有的转换和作业。资源库是Kettle的一个核心概念,它用于存储和管理转换、作业和其他与数据处理相关...

    kettle增量方案数据同步

    kettle增量方案全量比对取增量-根据唯一标示

    kettle实现SQL关联查询

    Kettle的Merge Join Step是数据集成过程中的强大工具,可以方便地处理复杂的数据关联问题,尤其在处理大量数据时,其高效性和灵活性得以充分体现。通过熟练掌握这个Step,我们可以更好地进行数据清洗、转换和加载,...

    Kettle数据增量同步

    【Kettle数据增量同步】是数据处理领域中的一个重要概念,主要应用于大数据环境中的实时或准实时数据更新。Kettle,也称为Pentaho Data Integration(PDI),是一款强大的ETL(提取、转换、加载)工具,它允许用户...

    Kettle根据ID增量更新.zip

    在这个"Kettle根据ID增量更新.zip"压缩包中,我们关注的是如何利用Kettle实现基于ID的增量数据更新,以确保不同系统间的数据一致性。 首先,理解增量更新的原理。增量更新是指只处理自上次同步以来发生更改的数据...

    kettle同步数据库所有的表数据到其他库.rar

    - **增量同步**:若需要持续同步,可以设置基于时间戳或自增ID的增量更新,只同步源数据库中新增或修改的记录。 5. **错误处理和日志记录**: 在同步过程中,应启用错误处理步骤,如"错误处理"或"跳过错误",以...

    Kettle增量抽取数据实例.docx

    在IT行业中,ETL(Extract, Transform, Load)是一个关键的过程,用于从各种数据源抽取数据,进行转换处理,...在实际应用中,根据业务场景选择合适的增量策略,结合Kettle的特性,可以有效地管理和利用大量的数据。

    Kettle 增量式更新.docx

    今天,我们将探讨如何使用 Kettle 实现 Oracle 数据库的增量式同步,包括插入、更新和删除操作。 增量式更新方案 为了实现增量式同步,我们将使用 Kettle 的 Transformation 功能。该方案分为两个独立的 ...

    kettle 同步

    kettle 提供了一种对比增量更新的机制处理这种情况,可通过“合并记录”步骤实现,该步骤的输入是新旧两个数据源,通过关键字进行数据值比对,对比结果分为四种类型:“Identical”、“changed”、“new”、...

    kettle工具——用于数据迁移等

    5. **实时数据处理**:Kettle的Kitchen和Pan组件可用于调度和执行定时任务,实现数据的实时处理。 通过理解Kettle的基本概念和特点,我们可以更有效地利用这个工具来解决实际的ETL问题,提升数据处理的效率和质量。...

    kettle增量抽取数据

    ### Kettle增量抽取数据知识点详解 #### 一、Kettle简介与重要性 Pentaho Data Integration (PDI),也称为Kettle,是一款开源的数据集成工具,被广泛应用于数据清洗、转换以及ETL(Extract, Transform, Load)过程...

Global site tag (gtag.js) - Google Analytics