ETL :提取 转换 加载
大数据的的一个最重要特点是,很多数据是无用的,必须经过一定的处理之后才有加载。而将杂乱无章的数据处理成有用的数据的过程叫ETL。BI系统发展了很多年,形成了很多ETL方法,工具。主要分为以下几类:
第一类:传统ETL,如DATASTAGE,INFORMATIC。这类是最传统的ETL,可以接入多种数据源,用户通过工具自带的界面定制任务和处理流程,复杂业务逻辑可以通过工具支持的脚本语言编程实现。任务和流程定制完成之后,转发成JAVA任务,自动在集群负荷分担。传统ETL存在效率底,对数据的处理支持有限的问题。
第二类:数据库厂商,如ORACLE ODI,充分利用自身的数据库作为高效引擎。数据的转换和抽取都在数据库中完成,任务用SQL实现。通常,为了区分传统的ETL,数据库厂商都称自己为ELT。之所以叫ELT,主要区分是使用数据库作为引擎的时候,加载动作在转换之前。
第三类:是专业的企业任务调度。在这类调度里面,CONTROL-M 2009年被甘特评为领导厂商。另外国内的有 TASKCTL。这种调度,将数据库和DATASTAGE作为执行引擎。支持多种引擎和数据源。
另外如果不用这些成熟的调度工具,自己编码实现的话,SPRING-BATCH是一个好的选择。SPRING-BATCH就是将任务调度框架抽象出来,用户只需要专注业务编码即可。
分享到:
相关推荐
根据提供的文件内容,以下是对标题“基于MapReduce的分布式ETL调度优化方法.pdf”和描述中知识点的详细解读。 分布式ETL调度优化方法是近年来大数据处理领域的一个热点技术。在大数据处理过程中,ETL(抽取 Extract...
这是一个企业级ETL调度系统, 在成熟的spring框架基础上,实现ETL调度服务. 权限管理部分,采用asofdate项目,asofdate项目采用golang开发,asofdate-etl采用java重写了asofdate后台api,由于两个项目都是采用jwt加密用户...
【PBS ETL调度算法概述】 PBS(Predictive-Based Scheduling)是一种面向集群环境的ETL(Extract-Transform-Load)调度算法,旨在提高数据抽取、转换和加载过程的执行效率。随着企业对大数据分析需求的增长,传统的...
首先,本文介绍了分布式ETL任务调度框架的组成,该框架由调度器(scheduler)和若干执行器(actuators)构成。任务调度过程主要由任务预处理、任务调度分配和任务执行三个阶段完成。在任务预处理阶段,通过建立权重...
**ETL调度工具TASKCTL详解** ETL,即Extract-Transform-Load的缩写,是数据处理领域中的关键环节,用于从不同的数据源抽取数据,进行清洗、转换,然后加载到目标系统中。而在大数据环境下,高效、稳定的ETL调度工具...
在了解“粒子群算法在分布式ETL任务调度中的应用”这一主题之前,需要先明白几个关键概念:分布式ETL、任务调度以及粒子群优化算法。 分布式ETL(Extraction, Transformation, Loading)是数据仓库构建过程中的核心...
分布式ETL(Extract, Transform, Load)作业调度是指在分布式计算环境中,对数据进行抽取、清洗、转换和加载的过程。改进的分布式ETL作业调度方法能够有效提升大数据处理的性能和可靠性,减少系统资源的浪费,并能更...
本技术方案说明书主要探讨了ETL调度系统的构建,旨在确保系统的稳定、安全、可扩展、易操作和易维护。 **前言** 在背景部分,我们了解到ETL调度系统是为了解决数据处理过程中的自动化和效率问题。其目的是为了提供...
TASKCTL是ETL调度领域专业的调度产品,适用于各行业的企业级、项目级ETL调度平台建设。此版是在C/S桌面客户端的基础上,TASKCTL 重新构建了一套基于web浏览器的B/S版本; 其中 TASKCTL 基础版的设计核心是以开发...
本文档旨在详细介绍ETL调度系统的技术方案,包括基础架构、模型设计、模块设计及流程设计等内容。目的是为开发人员、使用人员和维护人员提供全面的技术指南,帮助他们更好地理解和应用该系统。 #### 二、系统需求...
ETL调度英文版,很详细,介绍automation是怎么的运作原理,希望使用调度的朋友可以得到一些帮助
ETL Automation 是由 Teradata 公司发布的 ETL 流程调度产品,使用 JAVA 程序开发,支持跨平台部署,安装、维护简单。
ETL平台分为三个主要模块:ETL元数据驱动模块负责根据配置信息生成ETL作业,ETL调度模块配置调度并结合数据质量校验控制执行,而ETL元数据管理模块则用于管理和检索ETL配置信息。 2.1.2.2 ETL平台技术架构 技术...
**ETL解决方案介绍** ETL,即数据抽取(Extract)、转换(Transform)和加载(Load)的简称,是数据仓库和商业智能(BI)系统中不可或缺的环节。它负责从不同来源提取数据,进行清洗、转换,然后将其加载到目标...
Etl本质原理和关键技术介绍 ETL(Extract, Transform, Load)是一种数据整合解决方案,旨在将来自不同数据源的数据提取、转换和加载到目标系统中。在数据仓库系统中,ETL扮演着关键的一环,它不是一次性的工作,...
1. ETL调度系统设计: - **调度系统功能**:系统需具备配置JOB任务依赖关系、优先级、调度频率的能力,以及高配置性和可视化的界面,以提高开发和维护效率。调度流程包括手动配置调度配置表、每天初始化调度状态表...
【标题】中的“基于Web版Kettle开发的一套分布式综合调度、管理、ETL开发的用户专业版BS架构工具”指的是使用Kettle(Pentaho Data Integration)进行ETL(提取、转换、加载)过程,并且是Web化的版本,便于在浏览器...
ETL_调度系统技术方案说明书_V1.0.pdf ETL中的数据清洗设计.pdf ETL交流.pdf ETL培训.ppt ETL工具比较.pdf ETL应用浅析.pdf ETL开发实施中质量保证的关键要素V1.0.pdf ETL数据增量抽取方案.pdf ETL数据集成...
它包含了三个主要组件:etl-engine引擎、etl-designer云端设计器和etl-crontab调度设计器。 **etl-engine引擎** 是整个系统的基石,其主要职责是解析ETL配置文件并执行相应的数据处理任务。它可以处理来自不同数据...