`
suifeng
  • 浏览: 179432 次
  • 性别: Icon_minigender_1
  • 来自: 天津
社区版块
存档分类
最新评论

ETL面临的问题

阅读更多

ETL面临的问题

一, 数据同步
二, 数据关联

 

一, 数据同步

业务系统的数据库变化了, 怎么同步到DW中, 常见方法如下

 

1, 全部删除, 重新导入
   优点 : 简单
   缺点 : 无法保存历史记录, 时间代价大

 

2, 时间戳增量更新
   优点 : 简单, 快速
   缺点 : 必须有时间戳字段

 

3, 全表对比增量更新
   优点 : 限制条件少
   缺点 : 时间代价昂贵, 处理复杂

 

二, 数据关联

 
数据仓库中保存维度数据的历史版本, 如同一个公司, 在2008年名称叫"股份A公司", 2009年1月1日升级了叫"集团A公司", 原来的版本1, 现在版本2; 很显然2008年以前的交易数据, 我希望看到的收款公司 应该是 "股份A公司", 2009年产生的交易, 里面的收款公司 应该是 "集团A公司".

 

前提是:业务系统没有版本的概念, 就记录现在的.

 

怎么才能使ETL抽取的数据正确关联恰当的公司名称?

 

采用扩展ID 就是:

 

扩展ID == ID * 1000 + version

 

一般来时 一个公司能变更的次数不可能超过999次, 如此公司存在100年, 一年就要变更10次, 这也太夸张了.

采用扩展ID后, 数据就能正确关联到相应的数据了.

 

 

分享到:
评论

相关推荐

    ETL系列专题2 ETL数据结构

    3. 检验型Staging数据:在数据仓库系统中,源数据种类繁多,中间转换过程复杂,因此,Staging数据可以用来比较原始数据和DW/DM数据的差异,从而分析ETL处理过程中是否存在错误。 在实际操作中,ETL团队在设计...

    ODS ETL体系建设

    这一过程中面临的挑战主要包括:巨大的数据量、复杂的数据关系以及参差不齐的数据质量等。为了应对这些挑战,需要设计一套高效且灵活的ETL系统结构,同时还需要遵循一些基本原则: 1. **支持ODS项目的ETL功能实现**...

    ETL过程的概念建模

    针对ETL活动中存在的问题,研究者提出了一个概念模型,该模型具有以下几个特点: - **追踪属性间关系**:在数据仓库项目的早期阶段,通过该模型可以追踪不同属性之间的关系及其相应的ETL活动。 - **丰富常用ETL活动...

    如何使用ETL 技术

    市场上存在多种ETL工具,选择适合自身需求的工具是非常重要的一步。在选择ETL工具时,应考虑以下几个关键因素: 1. **跨平台支持**:确保工具能够处理来自不同平台的数据,如Windows、Linux等。 2. **数据库兼容性*...

    etl-kettle讲稿

    然而,ETL过程中也面临诸多挑战,如如何有效地处理空值、确保数据格式的一致性、验证数据的正确性和处理数据源的多样性。解决这些问题需要对业务理解深入,选择合适的ETL工具,并进行精心设计和测试。 总结来说,...

    达梦ETL批量流程向导

    ### 达梦ETL批量流程向导:详细解析与应用指南 #### 一、引言 随着企业数据规模的不断增长以及对数据处理效率要求的提高...希望读者能够掌握这一强大工具,并在未来的工作中灵活运用它来解决各种复杂的数据处理问题。

    etl原理.doc

    优化游标使用可以通过限制处理数据的范围,如利用时间戳筛选最新的更新,或者在INSERT和UPDATE时添加条件过滤已存在记录,减少不必要的操作。 3. **其他优化技巧**: - **并行处理**:通过并行化ETL任务,可以显著...

    一种基于MySQL的可扩展ETL系统的研究与实现.pdf

    本文旨在研究和实现一种基于 MySQL 的可扩展 ETL(Extract, Transform, Load)系统,旨在解决当前 ETL 系统存在的复杂性和可扩展性问题。该系统使用 PERL 语言实现,采用插件式结构,能够将大量数据高效地加载到数据...

    ETL课程全部笔记.pdf

    ETL面临的挑战包括如何明确业务所需的数据、设计ETL转换作业、连接到所需数据源、大数据业务场景下的数据抽取策略等。在数据集成过程中,数据质量的保证、增量数据捕获(CDC)、数据检验等环节也是需要特别注意的...

    ETL概述及部分工具比较

    市面上存在多种ETL工具,它们在功能、性能、易用性和成本方面各具特色,下面将对几种主流的ETL工具进行简要比较: 1. **Informatica PowerCenter** - **优势**:强大的数据集成能力,广泛的数据源支持,高度可扩展...

    基于 Flink 的流式 ETL 建设.pdf

    - 游戏行业常使用MongoDB等无模式文档数据库,导致ETL服务在数据清洗过程中面临字段不一致和格式变化的挑战。 - 反范式设计的数据库模式避免了实时join操作,但也使得数据结构复杂,存在多层嵌套的问题。 - 随着...

    ETL中的数据清洗设计

    只有通过选择合适的ETL处理方式、解决数据质量问题和进行复杂的数据清洗步骤,才能保证数据仓库数据质量。 在实际应用中,数据清洗可以应用在各种领域,如客户关系管理、供应链管理、财务管理等。数据清洗可以帮助...

    ETL工具数仓必备品.pdf

    市场上存在众多ETL工具供应商,每个都有自己独特的价值。一些知名的商用ETL工具有长达15年以上的历程,它们通常具备丰富的功能、稳定的表现以及良好的社区支持。这些工具通常提供图形化界面,便于用户设计和管理数据...

    ETL学习资料

    在成本上,两者相差不大,但在具体功能和使用体验上存在一些差异。Datastage早期版本对流程支持不足,但自6.0版本开始引入Job Sequence特性,使得流程图的展示和依赖关系管理更为直观。Powercenter则有Workflow的...

    ETL技术综述

    除了上述各个阶段的具体问题外,整个ETL过程还面临着一系列挑战,例如: - **性能优化**:随着数据量的增长,如何提高ETL过程的执行效率成为了一个重要的问题。这可以通过并行处理、增量加载、缓存机制等方式来解决...

    提高数据仓库的ETL效率

    2. **避免重复数据**:在INSERT和UPDATE时,使用子查询或NOT EXISTS子句,过滤掉已存在于维表的记录。 3. **显式游标**:显式游标比隐式游标更高效,因为它避免了不必要的重复操作。 除了上述策略,还有其他优化...

    ETL 软件产品 比对单

    由Oracle公司推出的ODI,虽然在自定义函数这一功能上存在未知状态,但在其他方面表现得相当全面。它支持追加数据处理、存储过程、自定义SQL、E_MAIL通知、调试监控、断点、出错回滚以及大字段支持。值得注意的是,...

    数据仓库ETL资料(全)

    市场上存在多种ETL工具,如Informatica、Talend、Microsoft SQL Server Integration Services (SSIS)等,它们提供了图形化的界面和预定义的工作流,帮助简化ETL流程的开发和管理。 6. **ETL流程设计** 设计良好的...

    数据仓库中的ETL和元数据

    1. 解决数据分散的问题:由于企业内部可能存在多个分散的数据源,ETL能够把各种数据聚集起来,为统一的分析和处理打下基础。 2. 解决数据不清洁的问题:通过ETL中的清洗过程,可以识别并纠正错误或不一致的数据,...

Global site tag (gtag.js) - Google Analytics