`
piperzero
  • 浏览: 3518565 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
文章分类
社区版块
存档分类
最新评论

数据抽取技术大全--欢迎大家补充

阅读更多
<iframe align="center" marginwidth="0" marginheight="0" src="http://www.zealware.com/csdnblog.html" frameborder="0" width="728" scrolling="no" height="90"></iframe>

数据抽取技术:

1 静态数据捕获
用于一、数据仓库初时化时,二、需要完全修改的数据

2 增量数据捕获

(1)# 通过交易日志,或数据库日志,包括诸如Oracle的Flashback query等日志捕获。可以使用 diff 工具帮助分析差异
(2) 从数据库触发器中捕获:触发器将信息写在一张增量数据变化表内(包括删除的信息)。其它集成组件定期读取该表。
(3) 基于日期和时间标记的捕获 / 类似的包括基于绝对自增id的捕获:无法解决删除问题
Oracle 10g以上版本和MS-SQLServer类似,有一个rowVersion,也可做类似的时间标记
如果某些源数据没有这些字段,那可以考虑再不破坏原有表的基础上增加一些上述的标记字段。可以先咨询源系统开发商。
(4) 对于拥有集合运算函数数据库例如oracle拥有minus,可以根据一些主键做集合运算,将差异结果存到单独的表中供其它程序读取。
(5)# 通过全表扫描比较来捕获:比较源数据的两个快照。当数据特别大时,性能成为问题。这是对于没有(3)中字段,且其它方法都不可

用时候的最差选择。可以充分利用各种分段扫描算法。
(6)# 从源应用程序中捕获:修改源应用代码

(7)定制自己的jdbc驱动程序:法一,直接修改或重写驱动程序。法二,使用AOP技术对现有的驱动程序的接口进行weaver,对捕获的SQL进行分析处理。

#表示通常很少使用

欢迎大家补充。




分享到:
评论

相关推荐

    (1)Kettle数据抽取---全量抽取

    Kettle 数据抽取---全量抽取 Kettle 数据抽取是数据集成和数据处理中非常重要的一步,它可以将数据从一个源系统中抽取出来,并将其转换成目标系统所需的格式,以便进行进一步的处理和分析。在本节中,我们将详细...

    中文实体关系抽取数据集 Chinese-Literature-NER-RE-Dataset

    基于几个可用的NER和RE数据集定义了7个实体标签和9个关系标签。实体(Entity):每个实体都由带有多个属性的T标签标识。关系(Relation):每个关系由R标签标识,该标签可以具有多个属性。

    篇章级事件抽取 DuEE-fin数据集

    篇章级事件抽取任务采用DuEE-fin数据集,包含13个事件类型的1.17万个篇章。数据集分为以下5个部分: 事件类型约束:共定义了13个事件类型及其对应的92个论元角色类别。 训练集:约7000个篇章,包含其中对应的事件...

    基于Oracle_Linux环境数据抽取技术的研究与实践

    ### 基于Oracle_Linux环境数据抽取技术的研究与实践 #### 一、研究背景与意义 随着信息技术的发展,企业面临着海量数据的管理和利用问题。数据仓库作为一种重要的数据分析工具,在现代企业的决策支持系统中扮演着...

    CO-PA 数据抽取 Step By Step

    CO-PA 数据抽取 Step By Step CO-PA(Controlling Profitability Analysis)是一种SAP R/3系统中的财务分析工具,用于计算贡献边际(销售、销售成本、间接成本)。CO-PA 数据抽取是指从SAP R/3系统中提取CO-PA相关...

    (2)Kettle数据抽取--增量抽取

    在数据处理过程中,增量抽取是一项重要的技术,尤其是在大数据场景下,能够有效减少不必要的数据处理,提高效率。 增量抽取是指仅处理自上次抽取以来发生更改的数据,而不是重新处理整个数据集。这种策略对于保持...

    清华大学精品大数据之数据清洗课程PPT课件(48页)含习题 第5章 文本、web、数据库、增量数据抽取.pptx

    课程通过PPT形式,详细讲解了数据清洗的重要环节——数据抽取,包括文本文件抽取、Web数据抽取、数据库数据抽取以及增量数据抽取等关键知识点。 **第五章 数据抽取** 1. **文本文件抽取** - 文本文件抽取的核心是...

    ETL数据抽取方案

    ### ETL数据抽取方案知识点详解 #### 一、ETL体系结构概述 ETL(Extract, Transform, Load)是一种常用的...不同的抽取方式和加载策略各有优劣,选择合适的方案需要综合考虑数据特性、业务需求和技术实现难度等因素。

    elasticsearch或kafka的数据抽取工具:logstash-5.6.1

    在标题和描述中提到的 "elasticsearch或kafka的数据抽取工具:logstash-5.6.1",我们主要关注的是 Logstash 在数据处理流程中的角色以及其与 Elasticsearch 和 Kafka 的集成。 1. **Logstash 的基本概念**: - **...

    Kettle实现增量抽取数据

    在这个案例中,我们不依赖时间戳,可能需要用到其他的追踪机制,如触发器、序列号或者更改数据捕获(CDC)技术。 以下是实现这一目标的一般步骤: 1. **创建基础转换**:在Kettle中,我们需要创建一个新的转换,这...

    Deep+Web数据抽取关键技术研究

    - **Web数据抽取技术的研究现状**:分析了当前主流的数据抽取方法及其优缺点,包括基于自然语言处理、基于抽取规则推导、基于本体、基于模式等多种方法。 - **基于字符串模式匹配的页面模板生成方法**:提出了一种新...

    ETL设计之数据抽取工具

    ### ETL设计之数据抽取工具 #### 一、数据抽取工具概述 数据抽取作为ETL(Extract, Transform, Load)过程中的第一步,至关重要。它负责从各种数据源中提取数据,为后续的数据处理和分析奠定基础。根据数据来源的...

    技术领域+数据抽取+应用工具ES.rar

    数据抽取是信息技术领域中的一个重要概念,它涉及到从各种数据源获取信息,并将其转换为可用于分析、决策或存储在数据仓库中的格式。在这个场景中,"技术领域+数据抽取+应用工具ES" 指的是使用特定的应用工具——...

    复赛数据 2021 数据抽取挑战赛

    复赛数据 2021 数据抽取挑战赛复赛数据 2021 数据抽取挑战赛复赛数据 2021 数据抽取挑战赛复赛数据 2021 数据抽取挑战赛复赛数据 2021 数据抽取挑战赛复赛数据 2021 数据抽取挑战赛复赛数据 2021 数据抽取挑战赛复赛...

    CCKS2019-IPRE(人物关系抽取)任务数据集

    数据分为三大部分,即训练集、验证集、测试集。数据分为两种颗粒度,一种是句子级别的关系和包(若干个句子)级别的关系。以及用于训练词向量和语言模型的大规模无标注语料。

    事件抽取数据集事件抽取数据集

    在给定的"事件抽取数据集事件抽取数据集事件抽取数据集"标题中,我们可以推断出这个数据集专门用于训练和评估事件抽取模型。通常,这样的数据集包含多个经过人工标注的文本样本,每个样本都有对应的事件类型和事件...

    实现ORACLE与SQLSERVER数据库间的数据抽取与转换工具

    在IT行业中,数据抽取、转换和加载(ETL)是数据仓库和大数据处理的重要环节。本文将探讨如何实现一个工具,用于在Oracle和SQL Server数据库之间进行数据的抽取与转换。Oracle是广受欢迎的关系型数据库管理系统,而...

    etl数据抽取

    ### ETL 数据抽取详解 #### 一、ETL 概述 ETL 是 Extract-Transform-Load 的缩写,指的是数据抽取、转换、装载的过程。它是一种常用的将数据从源系统移动到目标系统的数据集成方法。ETL 过程通常涉及从多个数据源...

Global site tag (gtag.js) - Google Analytics