`

转:数据抽取核心问题

阅读更多

第一章 简介

1.1    数据抽取核心问题

数据抽取是数据仓库技术中最谨慎的工作,因为其涉及到其它正式系统,成功的数据抽取必须保证对正式系统影响足够小,同时数据抽取性能足够好。这样就有如下结构性建设建议:

n         链接正式系统用户只有查询权限,并且数据库链接用户及密码保密。我们公司的链接正式系统用户为MBBI,该用户密码由网络管理科管理,所以DBLINK由网络管理科进行配置;

n         数据抽取速度足够快。数据抽取分初始化和增量抽取,抽取初始化数据量较大,需要网络管理开放一定的网络速度,按当前速度1小时可以抽取5000万条以上数据,增量抽取因为数据量较小,可以把网络速度控制在正常范围内。增量抽取分日志完全增量方式和关键字段增量抽取,现在大部分BI公司采用的是后者,比如说把近一个月数据抽取过来,每天更新,这种方式除了每天抽取数据量远远超过实际增量外,还在理论上存在数据空隙的风险。

n         需要在DW端保留一个业务备用库。数据仓库的设计不可能一步到位,而如果每次数据仓库的改动都需要从业务库读取数据,那么对业务库的影响将非常明显,可用的解决办法就是在DW端保留一个业务映像库,该库保持和业务系统库完全一致的结构。

n         必须清楚业务库的改动和DW之间的关系,知道其解决办法。常遇到的问题是业务库表结构变化,这时我们采用的武汉视图映像业务库技术就会遇到问题,其必须有解决办法。

分享到:
评论

相关推荐

    大数据处理的基本流程:数据抽取与集成+数据分析+数据解释.pdf

    大数据处理的基本流程包括数据抽取与集成、数据分析以及数据解释,这三个环节构成了大数据处理的核心步骤。 首先,数据抽取与集成是大数据处理的起点,它涉及到从各种分散、异构的源头获取数据并将其整合到一个统一...

    ETL数据抽取方案

    ### ETL数据抽取方案知识点详解 #### 一、ETL体系结构概述 ETL(Extract, Transform, Load)是一种常用的数据处理流程,主要用于从不同来源提取数据,转换为统一格式,然后加载到目的地数据源中。典型的ETL体系结构...

    ETL数据抽取方案简介.pdf

    ETL 数据抽取方案简介 ETL(Extract、Transform、Load)是企业数据集成的主要解决方案,旨在将不同来源、格式和特点的数据在逻辑上或物理上有机地集中,提供全面的数据共享。ETL 过程中主要包括三个环节:数据抽取...

    基于Oracle_Linux环境数据抽取技术的研究与实践

    综上所述,基于Oracle_Linux环境的数据抽取技术为解决企业数据管理问题提供了一种有效的方法。通过本文的研究与实践,不仅提高了数据抽取的效率和质量,也为未来数据仓库技术的发展奠定了基础。未来的研究方向包括但...

    ETL中的数据增量抽取机制研究

    在这个过程中,增量数据抽取机制对于提高数据更新效率具有重要意义。 #### 二、ETL概述 ETL是数据仓库构建中的关键环节,主要包括以下三个步骤: 1. **数据抽取**:从源系统中抽取需要的数据,这些数据可能来自...

    技术领域+数据抽取+应用工具ES.rar

    **数据抽取** 是数据挖掘和信息管理的关键步骤,主要包括三个核心部分:提取(Extract)、转换(Transform)和加载(Load,即ETL过程)。提取是从原始数据源中获取数据,这可能包括数据库、文件、网页或其他API接口...

    java调用kettle提供的API实现数据抽取DEMO

    Java调用Kettle API实现数据抽取DEMO是一个典型的ETL(提取、转换、加载)过程,其中Kettle(又称Pentaho Data Integration或KDI)是一个强大的数据集成工具,允许开发者通过图形化界面或者编程方式处理数据迁移和...

    Fresoar Data Migration 2.0 数据抽取(ETL) 工具

    ### Fresoar Data Migration 2.0 数据抽取(ETL) 工具知识点解析 #### 一、概述 Fresoar Data Migration 2.0(以下简称FDM 2.0)是一款专注于数据抽取、转换、加载(ETL)的专业工具。它不仅提供了强大的数据迁移...

    ETL数据抽取使用

    在进行多次数据抽取时,通常需要处理增量数据问题。例如,从两个不同的数据库中抽取数据,并合并后加载到第三个数据库中。 1. **新建多个数据库连接**:在主对象树中为每个数据库新建连接。 2. **配置表输入**:...

    Fresoar Data Manager 数据抽取工具(ETL)

    Frescoar Data Manager 是一款强大的数据迁移工具,其核心功能在于ETL(Extract, Transform, Load),即数据抽取、转换和加载。该软件专为高效、稳定的数据迁移设计,不仅提供软件产品,还配套全面的数据迁移解决...

    ETL数据抽取工具

    通过阅读这份用户手册,无论是初学者还是有经验的开发者,都能深入理解Kettle的工作原理,熟练掌握其功能,从而更高效地实现数据抽取、转换和加载的过程。Kettle的强大之处还在于它的灵活性和可扩展性,用户可以通过...

    ODI工具抽取数据操作手册

    ODI(Oracle Data Integrator)工具是Oracle公司提供的一个数据集成解决方案,主要用于数据抽取、转换和加载(ETL)过程。本操作手册将详细介绍如何使用ODI进行数据抽取实验。 首先,准备工作至关重要。你需要安装...

    关于数据增量抽取模拟实现原理

    在海量数据环境下,如何高效地进行数据抽取成为了一个重要问题。本文重点介绍基于时间戳的数据增量抽取模拟实现原理及其应用。 二、ETL简介 ETL是数据仓库建设的关键步骤之一,主要包括三个过程: 1. **数据抽取...

    ETL数据增量抽取方案

    ETL数据增量抽取方案,即Extraction, Transformation and Loading,是一种数据处理方法,...不过,无论技术如何发展,ETL数据增量抽取方案始终围绕着高效的数据抽取、准确的数据转换和稳定的数据加载三个核心环节展开。

    一种基于分块的Web数据实体抽取方法

    这些元素虽然增强了用户体验,但同时也为数据抽取带来了挑战。传统的文本处理技术在面对这种非结构化且语义内聚性差的数据时,其效果往往大打折扣。 #### 网页信息解析的重要性 网页信息解析的目标是从网页中精确...

Global site tag (gtag.js) - Google Analytics