`
zyj0825cn
  • 浏览: 1211 次
  • 性别: Icon_minigender_1
  • 来自: 银川
社区版块
存档分类
最新评论

阿里巴巴离线数据同步dataX3.0实现定时数据同步

 
阅读更多

阿里巴巴离线数据同步dataX3.0实现定时数据同步

1、熟悉dataX3.0使用,网址:https://github.com/alibaba/DataX/wiki/Quick-Start

2、建立数据同步配置,创建作业的配置文件json文件

{
    "job": {
        "setting": {
            "speed": {
                "byte":10485760
            },
            "errorLimit": {
                "record": 0,
                "percentage": 0.02
            }
        },
        "content": [
            {
                "reader": {
                    "name": "streamreader",
                    "parameter": {
                        "column" : [
                            {
                                "value": "DataX",
                                "type": "string"
                            },
                            {
                                "value": 19890604,
                                "type": "long"
                            },
                            {
                                "value": "1989-06-04 00:00:00",
                                "type": "date"
                            },
                            {
                                "value": true,
                                "type": "bool"
                            },
                            {
                                "value": "test",
                                "type": "bytes"
                            }
                        ],
                        "sliceRecordCount": 100000
                    }
                },
                "writer": {
                    "name": "streamwriter",
                    "parameter": {
                        "print": false,
                        "encoding": "UTF-8"
                    }
                }
            }
        ]
    }
}

3、测试执行数据同步,要下载编译后的版本,并且要安装python2.6以上才能执行。

 

4、编写windows下批处理文档bat执行python脚本,同步昨天的数据。

 

# -*- coding:utf-8 -*-
## windows 定时任务
## author zhujunbo
## 该文件放在datax的bin目录下

import time
import datetime
import os

def startask(path, yesterday):
    files = os.listdir(path)
    for f in files:
        if(os.path.isfile(path + '/' + f)):
            ## fileList.append(f)
            file = path + f
            #执行datax 命令
            os.system('python D:\\datax\\bin\\datax.py -p ''-Dyesterday='+str(yesterday)+'' + '  ' +  file);

            #print  'python D:\\datax\\bin\\datax.py -p ''-Dyesterday='+str(yesterday)+'' + '  ' +  file

if __name__ == "__main__":
    today = datetime.date.today();
    ##昨天日期
    yesterday = today - datetime.timedelta(1)
    startask('D:\\datax\\job\\', yesterday)

5、windows定时任务脚本编写,定时任务设置、测试、运行

@echo off
D:
cd D:\datax\bin
start python autoDataSync.py
exit

 

 

分享到:
评论

相关推荐

    1、datax3.0部署与验证

    DataX3.0是阿里云DataWorks数据集成的开源版本,专注于离线数据同步,广泛应用于阿里巴巴集团内部。它旨在高效地同步多种异构数据源,如MySQL、Oracle、HDFS等,通过其强大的Reader和Writer插件体系,能够支持任意...

    dataX3.0安装使用手册

    DataX是阿里巴巴开源的一款高效、稳定、智能的数据同步工具,它能够实现离线数据同步(批处理)和实时数据同步(流处理)。DataX3.0作为其最新版本,优化了性能,增加了更多的数据源支持,使得数据迁移更加灵活和...

    dataX3.0安装使用手册.docx

    DataX 3.0 是一个数据处理和迁移的工具,它提供了一个统一的数据处理平台,能够帮助用户快速地将数据从一个系统迁移到另一个系统。DataX 3.0 安装使用手册是 DataX 3.0 的官方安装和使用指南,旨在帮助用户快速地...

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具,平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高.zip

    DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。数据交换DataX 是阿里巴巴集团内被广泛...

    阿里云ossjava源码-DataX-Migration:基于阿里巴巴DataX3.0的全数据库迁移工具

    是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。 DataX 在阿里巴巴集团内被广泛...

    DataX3.rar

    《DataX3.0:高效数据同步工具与Oracle支持详解》 DataX3.0是一款强大的数据同步工具,尤其在企业级数据仓库构建和大数据处理中扮演着重要角色。其核心功能是实现不同数据源之间的高效迁移,确保数据的一致性和实时...

    DataX_是阿里巴巴集团内被广泛使用的离线数据同步工具平台,实现包括_MySQL、Oracle、_DataX.zip

    DataX_是阿里巴巴集团内被广泛使用的离线数据同步工具平台,实现包括_MySQL、Oracle、_DataX

    DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台

    DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、...

    java使用datax增量同步代码

    Java 使用 DataX 进行增量同步是大数据领域中常见的数据迁移任务,DataX 是阿里开源的一个强大、高效的数据同步工具,它可以实现不同数据存储之间的数据迁移。本篇将详细讲解如何在 Java 项目中利用 DataX 实现增量...

    异构数据源数据交换工具 DataX.zip

    DataX3.0 概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据...

    Datax实现增量同步数据到Postgres

    Datax 是阿里巴巴开发的一款高效、稳定且强大的数据同步框架,支持多种数据库之间的数据迁移。在这个过程中,我们需要注意以下关键知识点: 1. **Datax 工具**:Datax 是一个Java编写的ETL(Extract, Transform, ...

    数据同步工具datax-web可视化工具

    DataX是阿里巴巴开源的一款强大的数据同步框架,支持多种数据库之间的数据迁移,包括MySQL、Oracle、SQL Server、PostgreSQL等。DataX-Web在DataX的基础上增加了Web管理界面,方便用户进行任务配置、执行和监控。 1...

    阿里巴巴大数据之路——数据技术篇.pdf

    阿里巴巴的DataX是一个重要的数据同步工具,它支持多方向、高自由度的异构数据交换,能处理各种数据源和数据仓库之间的同步问题。而TimeTunnel则用于实时数据同步,基于数据库的日志,如MySQL的bin-log和Oracle的...

    doriswriter-datax

    DataX是一款由阿里巴巴开源的数据同步工具,它支持多种数据源之间的数据迁移,旨在实现离线数据同步。在这个主题中,我们将重点探讨DataX中的DorisWriter组件,以及如何通过JobJSON配置文件进行数据同步任务的设置。...

    cloudin-datax是基于DataX开发的分布式数据同步工具,提供简单易用的操作界面,可视化定时任务配置监控和增量同步功能

    Cloudin-DataX是一款基于阿里开源的DataX构建的分布式数据同步工具,旨在简化数据迁移过程,提供一个直观、易操作的用户界面,以及强大的可视化定时任务配置和监控功能。DataX本身是一个高性能、稳定且易于扩展的...

    数据同步工具datax

    linux datax 同步工具离线数据同步工具,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Github地址:...

    datax插件|clickhouse读写插件|同步mysql,oracle等数据到clickhose中或者反向同步|2020修正版

    DataX作为阿里巴巴开源的一款高效、稳定、强大的数据同步工具,广泛应用于大数据生态中的数据迁移任务。针对ClickHouse这款高性能列式数据库,DataX提供了专门的ClickHouse读写插件,使得我们可以方便地实现MySQL、...

    datax读取InfluxDB组件

    在大数据处理和分析领域,DataX作为阿里巴巴开源的一款数据同步工具,其重要性不言而喻。它支持多种数据源之间的数据迁移,包括关系型数据库、NoSQL数据库以及各种云存储等。而InfluxDB则是一款专为时序数据设计的高...

    datax读写MySQL8的插件

    DataX是阿里巴巴集团内部广泛使用的离线数据同步工具,经过大规模生产环境验证,具有高可用性、高性能和易用性。其工作原理主要是通过定义各种数据源的读取和写入任务,实现数据在不同存储系统之间的高效迁移。DataX...

Global site tag (gtag.js) - Google Analytics