`

阿里ETL工具datax学习(一)

阅读更多
阿里云开源离线同步工具DataX3.0介绍
一. DataX3.0概览
​ DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。




  ● 设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
  ● 当前使用现状
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。
此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。Github主页地址:https://github.com/alibaba/DataX。


介绍多的不说了官网介绍比较详细,本文主要介绍xdata在windows系统的部署和使用

二.如何使用
安装好jdk和python配置好环境变量
下载datax

解压后目录为





示例  oracle库赋值到oracle库
1.配置job的json
{
    "job": {
        "setting": {
            "speed": {
                "channel": 3
            }
        },
        "content": [
            {
                 "reader": {
                    "name": "oraclereader",
                     "parameter": {
                        "column": ["",""],
                        "connection": [
                            {
                                "jdbcUrl": [
                                    "jdbc:oracle:thin:@192.10.1:1521:orcl"
                                ],
                                 "table": [
                                    ""
                                ],
                            }
                        ],
                        "username": "",
                        "password": "",
                    }
                },
                "writer": {
                    "name": "oraclewriter",
                    "parameter": {
                        "username": "",
                        "password": "",
                         "column": ["", ""],
                        "preSql": [
                           "truncate table "
                        ],
                        "connection": [
                            {
                                "jdbcUrl": "jdbc:oracle:thin:@127.0.0.1:1521:liuxu",
                                "table": [
                                    ""
                                ]
                            }
                        ]
                    }
                }
            }
        ]
    }
}

2.执行



3.查看结果


  • 大小: 47.4 KB
  • 大小: 123.8 KB
  • 大小: 131.4 KB
  • 大小: 7.3 KB
2
0
分享到:
评论

相关推荐

    阿里开源ETL工具DATAX

    阿里开源的DATAX是一款强大的数据同步...总结来说,DATAX是阿里开源的一款强大、灵活的ETL工具,具有丰富的数据源支持和高可用性,适用于各种数据迁移场景。其开源特性鼓励社区参与,促进了其功能的持续优化和扩展。

    ETL对比datax-nifi

    DataX是阿里巴巴研发的一款开源数据同步工具,其主要功能在于实现不同数据源之间的高效数据同步。它支持多种数据源,如MySQL、Oracle、HDFS、Hive等,并且具有强大的扩展性和灵活性。 ##### DataX 3.0 特性详解 - *...

    ETL-DataX-ETL-DataX

    **DataX** 是一款由阿里巴巴集团开发的高效离线数据同步工具/平台,它旨在实现不同数据源之间的数据同步,例如MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等多种异构数据源。该工具采用了框架加插件的...

    5、ETL工具的比较(DataPipeline,Kettle,Talend,Informatica,Datax ,Oracle

    在众多的ETL工具中,DataPipeline、Kettle、Talend、Informatica、Datax 和 Oracle GoldenGate 是较为常见的几款。下面将对这些工具进行详细比较,以帮助你了解它们的特点和适用场景。 1. **DataPipeline** ...

    数据同步工具datax-web可视化工具

    数据同步工具DataX-Web是一款基于DataX的可视化数据迁移工具,它提供了用户友好的界面,使得数据库之间的数据同步变得更加简单和直观。DataX是阿里巴巴开源的一款强大的数据同步框架,支持多种数据库之间的数据迁移...

    ETL解决方案大PK:Apache NiFi、DataX、Kettle哪个更适合你?

    ### ETL解决方案大PK:Apache NiFi、DataX、Kettle哪个更适合你?...在选择合适的ETL工具时,需要根据项目的具体需求和技术背景综合考虑。希望本文能帮助读者更好地理解和选择适合自己的ETL解决方案。

    datax-web-2.1.2,大数据、etl工具、数据抽取

    DataX Web 2.1.2 正是这样一款针对大数据处理的专业工具,专为数据抽取、转换和加载(ETL)而设计,为企业提供强大的数据集成能力。本文将深入解析DataX Web的功能、优势以及在实际应用中的操作流程。 一、DataX ...

    datax-web-2.1.2.tar.gz+datax.tar.gz

    总的来说,DataX是一款强大且灵活的ETL工具,无论是小型项目还是大型企业级应用,都能找到适合的解决方案。通过DataX-web的图形化界面和DataX引擎的插件化设计,我们可以轻松地管理和执行数据迁移任务,实现数据的...

    ETL – ETL工具介绍

    1. DataX:由阿里巴巴开源,它是一个支持多种异构数据源之间同步的工具,包括关系型数据库、Hadoop生态组件、NoSQL存储等。DataX设计为高性能和高可用,能够处理大规模的数据迁移任务。然而,DataX不支持实时数据...

    DataX-Web:图形化界面简化大数据任务管理-datax-web

    在大数据处理领域,DataX作为一个高性能的数据同步工具,由阿里巴巴开源,是解决大规模数据同步问题的有效手段。它支持在各种数据源之间高效地进行数据迁移和同步,如HDFS、MySQL、HBase等,并具有良好的可扩展性。...

    datax-mysql8驱动

    DataX是一个高效、稳定且易于使用的ETL工具,它由阿里巴巴开源社区提供支持。DataX的设计目标是解决在各种异构数据源之间高效数据迁移的问题。它具备良好的扩展性,用户可以根据自己的需求编写相应的插件。DataX的...

    datax on azkaban——datax as a service

    DataX是阿里巴巴开源的一款高效、稳定、强大的数据同步工具,它能够支持多种数据源之间的数据迁移。Azkaban则是LinkedIn开发的一个工作流作业调度系统,它为企业级的大数据处理提供了灵活的调度能力。将DataX与...

    datax.tar.gz

    DataX是阿里巴巴开源的一款强大的数据同步工具,它主要用于在各种数据存储之间进行高效的数据迁移。在大数据领域,ETL(Extract, Transform, Load)过程是不可或缺的,DataX的出现就是为了简化这一过程,使得数据的...

    Datax实现增量同步数据到Postgres

    1. **Datax 工具**:Datax 是一个Java编写的ETL(Extract, Transform, Load)工具,用于大量数据的批量迁移。它提供了丰富的数据源支持,包括关系型数据库、NoSQL数据库、Hadoop生态等,可以实现离线数据同步。 2. ...

    Datax的hologresjdbcwriter组件

    DataX是一个由阿里巴巴开源的大数据同步工具,它支持在各种异构数据源之间高效地进行数据同步。DataX设计了灵活的框架体系和模块化的插件机制,可以轻松地通过编写不同的插件来支持不同的数据源,使得开发者能够快速...

    4、datax同步sybase相关-sybase到hdfs

    DataX 是阿里巴巴开源的一款高效、稳定、可靠的批处理数据同步工具,支持多种数据源之间的数据迁移。本篇主要介绍如何使用 DataX 将 Sybase 数据库中的数据同步到 Hadoop 分布式文件系统(HDFS)。 1. **...

    大数据系列2020-数据迁移工具资料汇总(sqoop、kettle、datax).zip

    DataX 是阿里巴巴开源的一个企业级数据同步框架,适用于大数据实时同步。DataX 支持多种数据源,如MySQL、Oracle、HDFS、HBase等,提供稳定、高效的数据同步服务。DataX的设计理念是“一切皆为插件”,这意味着...

    doriswriter-datax

    DataX是一款由阿里巴巴开源的数据同步工具,它支持多种数据源之间的数据迁移,旨在实现离线数据同步。在这个主题中,我们将重点探讨DataX中的DorisWriter组件,以及如何通过JobJSON配置文件进行数据同步任务的设置。...

    java调用shell向DataX传递参数,where条件,包含特殊字符

    在IT行业中,数据迁移是一项常见的任务,而DataX是一个由阿里巴巴开源的数据同步工具,它能够高效地处理数据在不同存储系统之间的迁移。本问题聚焦于如何通过Java调用shell脚本,向DataX传递参数,特别是包含特殊...

    3、通过datax同步oracle相关-oracle到hdfs

    DataX是阿里巴巴开源的一款数据同步框架,支持多种数据源间的双向数据同步,包括全量和增量同步。在Oracle到HDFS的同步场景中,DataX扮演着ETL(Extract-Transform-Load)的角色,将Oracle中的数据抽取出来,经过...

Global site tag (gtag.js) - Google Analytics