`

增量数据抽取

阅读更多

 a.触发器:在要抽取的表上建立需要的触发器,一般要建立插入、修改、删除三个触发器,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入一个临时表,抽取线程从临时表中抽取数据,临时表中抽取过的数据被标记或删除。触发器方式的优点是数据抽取的性能较高,缺点是要求业务表建立触发器,对业务系统有一定的影响。

   b.时间戳:它是一种基于快照比较的变化数据捕获方式,在源表上增加一个时间戳字段,系统中更新修改表数据的时候,同时修改时间戳字段的值。当进行数据抽取时,通过比较系统时间与时间戳字段的值来决定抽取哪些数据。有的数据库的时间戳支持自动更新,即表的其它字段的数据发生改变时,自动更新时间戳字段的值。有的数据库不支持时间戳的自动更新,这就要求业务系统在更新业务数据时,手工更新时间戳字段。同触发器方式一样,时间戳方式的性能也比较好,数据抽取相对清楚简单,但对业务系统也有很大的倾入性(加入额外的时间戳字段),特别是对不支持时间戳的自动更新的数据库,还要求业务系统进行额外的更新时间戳操作。另外,无法捕获对时间戳以前数据的delete和update操作,在数据准确性上受到了一定的限制。

   c.全表比对:典型的全表比对的方式是采用MD5校验码。ETL工具事先为要抽取的表建立一个结构类似的MD5临时表,该临时表记录源表主键以及根据所有字段的数据计算出来的MD5校验码。每次进行数据抽取时,对源表和MD5临时表进行MD5校验码的比对,从而决定源表中的数据是新增、修改还是删除,同时更新MD5校验码。MD5方式的优点是对源系统的倾入性较小(仅需要建立一个MD5临时表),但缺点也是显而易见的,与触发器和时间戳方式中的主动通知不同,MD5方式是被动的进行全表数据的比对,性能较差。当表中没有主键或唯一列且含有重复记录时,MD5方式的准确性较差。

   d.日志对比:通过分析数据库自身的日志来判断变化的数据。

分享到:
评论

相关推荐

    Kettle实现增量抽取数据

    在本场景中,我们将探讨如何使用Kettle从Oracle数据库中的两个表之间实现增量数据抽取,且这个过程并不依赖于时间戳。 首先,理解增量抽取的概念至关重要。增量抽取是从源系统中提取自上次抽取以来发生改变的新数据...

    Data Integration Kettle 插件 增量数据抽取

    本主题主要关注Kettle插件在增量数据抽取中的应用。 增量数据抽取是一种高效的数据处理策略,它仅处理自上次抽取以来发生变化的数据,而不是每次都全量加载所有数据。这种方法对于大型数据库尤其有效,因为它减少了...

    ODI工具CDC增量数据抽取

    ### ODI工具CDC增量数据抽取知识点 #### 一、ODI与CDC概念解析 - **ODI (Oracle Data Integrator)**:是一种企业级的数据集成工具,由Oracle公司提供,主要用于ETL(Extract, Transform, Load)操作,即数据的提取、...

    清华大学精品大数据之数据清洗课程PPT课件(48页)含习题 第5章 文本、web、数据库、增量数据抽取.pptx

    课程通过PPT形式,详细讲解了数据清洗的重要环节——数据抽取,包括文本文件抽取、Web数据抽取、数据库数据抽取以及增量数据抽取等关键知识点。 **第五章 数据抽取** 1. **文本文件抽取** - 文本文件抽取的核心是...

    清华大学精品大数据之数据清洗课程PPT课件(48页)含习题 第5章 文本、web、数据库、增量数据抽取.rar

    **大数据之数据清洗:文本、Web、数据库与增量数据抽取** 在大数据领域,数据清洗是一项至关重要的任务,它直接影响到数据分析结果的准确性和可靠性。清华大学的这门精品课程聚焦于数据清洗,特别是针对第五章中...

    kettle增量抽取数据

    通过上述步骤,我们可以看到如何利用Kettle实现高效的增量数据抽取。这种方法不仅适用于大数据场景下的数据处理,同样也可以应用于各种规模的数据集。通过合理设计和配置,可以有效提升数据处理的效率和质量,为数据...

    Kettle增量抽取数据实例.docx

    本文将详细介绍Kettle进行增量数据抽取的实例及其关键步骤。 1. **增量抽取数据的基本概念** 增量抽取是ETL过程中的一种优化策略,只处理自上次抽取以来发生更改的数据,而不是每次都全量处理所有数据。这种策略...

    ETL中的数据增量抽取机制研究

    在这个过程中,增量数据抽取机制对于提高数据更新效率具有重要意义。 #### 二、ETL概述 ETL是数据仓库构建中的关键环节,主要包括以下三个步骤: 1. **数据抽取**:从源系统中抽取需要的数据,这些数据可能来自...

    抽取增量数据算法说明

    增量数据抽取是数据挖掘和大数据处理中的关键技术,它主要用于跟踪数据库中的变化,以便高效地获取新数据或更新数据,而不必每次都重新处理整个数据库。在本例中,我们将讨论一种适用于SQL Server数据库系统的增量...

    ODI如何通过logminer创新发展从oracle数据库中抽取增量数据.pdf

    在具体的实现方式上,Oracle Simple 和 Oracle Consistent 是采用同步方式进行增量数据抽取的,ODI 通过在源系统相关表上添加触发器,将变化数据插入到增量表中。触发器的调用是包含在交易中的,这就决定了变化数据...

    关于数据增量抽取模拟实现原理

    在实际操作中,为了降低对源系统的影响并提高效率,通常采用增量数据抽取的方式。本文重点探讨基于时间戳的增量数据抽取方法。 ### 增量抽取的必要性 在大规模数据处理场景下,全量数据抽取不仅耗时耗力,而且会...

    ODI如何通过logminer技术从oracle_数据库中抽取增量数据

    ODI针对Oracle数据库的增量数据抽取提供了三种主要的知识模块: 1. **Oracle Simple**: 适用于表间没有主外键约束的情况。如果存在主外键关系,则可能导致目标端数据完整性问题。 2. **Oracle Consistent**: 专门...

    SAP中的增量机制及提取方式

    SAP中的增量机制是指在数据处理过程中,对数据的变化进行跟踪和记录,实现在数据抽取和加载过程中的高效和准确性。增量机制可以根据不同的需求和场景,采用不同的增量类型和提取方式,以满足不同的业务需求。 在SAP...

    数据增量抽取的解决方案

    其中,数据抽取、转换和加载(ETL)是数据仓库建设过程中的关键环节,它负责将源系统中的数据转换并加载到目标数据仓库中。而数据增量抽取作为ETL的一种优化策略,旨在提高数据处理效率,减少资源消耗,保证数据的...

    ETL数据增量抽取方案

    常见的数据抽取方式包括全量抽取和增量抽取。全量抽取类似于数据迁移或复制,是将源数据源中的所有数据完整地抽取出来。增量抽取则是指仅抽取上次抽取以来,源数据源中新增或修改的数据。由于全量抽取在数据量大时...

    CDC(Change Data Capture)增量抽取

    通过Oracle提供的CDC功能,可以在数据库级别实现高效的增量数据捕获与处理,无需对原始表结构进行更改,也不需要复杂的算法实现。这一特性自Oracle 9i版本起引入,旨在简化增量数据捕获流程,提高数据处理效率。 ##...

    kattle增量抽取数据02.rar

    本文将详细介绍如何利用Kettle的Kettle Transformation(KTR)文件进行增量数据抽取,以实现不同数据库之间的表的增、删、改同步。 标题“kattle增量抽取数据02.rar”表明这是一个关于Kettle增量同步操作的压缩包...

    BW FI/CO数据抽取

    传统的每日全量加载已经无法满足现代企业的高效数据处理需求,因此需要支持增量数据抽取。 #### 三、FI数据抽取 ##### 1. 数据源与目标 FI数据抽取涉及的数据源主要包括: - BSAD:已结清的账项。 - BSID:未结清...

    20210504_时间增量抽取数据到本地ES中.kjb

    kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 kettle抽取MySQL 增量数据 到 ES中 ...

    logstash-5.6.1数据增量抽取工具

    3. **数据抽取**:Logstash可以通过众多输入插件从各种源(如系统日志、网络设备、数据库等)抽取数据,然后通过过滤插件进行清洗、转换,最后通过输出插件将处理好的数据发送到目的地,如Elasticsearch或Kafka。...

Global site tag (gtag.js) - Google Analytics