阿里巴巴离线数据同步dataX3.0实现定时数据同步
1、熟悉dataX3.0使用,网址:https://github.com/alibaba/DataX/wiki/Quick-Start
2、建立数据同步配置,创建作业的配置文件json文件
{
"job": {
"setting": {
"speed": {
"byte":10485760
},
"errorLimit": {
"record": 0,
"percentage": 0.02
}
},
"content": [
{
"reader": {
"name": "streamreader",
"parameter": {
"column" : [
{
"value": "DataX",
"type": "string"
},
{
"value": 19890604,
"type": "long"
},
{
"value": "1989-06-04 00:00:00",
"type": "date"
},
{
"value": true,
"type": "bool"
},
{
"value": "test",
"type": "bytes"
}
],
"sliceRecordCount": 100000
}
},
"writer": {
"name": "streamwriter",
"parameter": {
"print": false,
"encoding": "UTF-8"
}
}
}
]
}
}
3、测试执行数据同步,要下载编译后的版本,并且要安装python2.6以上才能执行。
4、编写windows下批处理文档bat执行python脚本,同步昨天的数据。
# -*- coding:utf-8 -*-
## windows 定时任务
## author zhujunbo
## 该文件放在datax的bin目录下
import time
import datetime
import os
def startask(path, yesterday):
files = os.listdir(path)
for f in files:
if(os.path.isfile(path + '/' + f)):
## fileList.append(f)
file = path + f
#执行datax 命令
os.system('python D:\\datax\\bin\\datax.py -p ''-Dyesterday='+str(yesterday)+'' + ' ' + file);
#print 'python D:\\datax\\bin\\datax.py -p ''-Dyesterday='+str(yesterday)+'' + ' ' + file
if __name__ == "__main__":
today = datetime.date.today();
##昨天日期
yesterday = today - datetime.timedelta(1)
startask('D:\\datax\\job\\', yesterday)
5、windows定时任务脚本编写,定时任务设置、测试、运行
@echo off
D:
cd D:\datax\bin
start python autoDataSync.py
exit
相关推荐
DataX3.0是阿里云DataWorks数据集成的开源版本,专注于离线数据同步,广泛应用于阿里巴巴集团内部。它旨在高效地同步多种异构数据源,如MySQL、Oracle、HDFS等,通过其强大的Reader和Writer插件体系,能够支持任意...
DataX是阿里巴巴开源的一款高效、稳定、智能的数据同步工具,它能够实现离线数据同步(批处理)和实时数据同步(流处理)。DataX3.0作为其最新版本,优化了性能,增加了更多的数据源支持,使得数据迁移更加灵活和...
DataX 3.0 是一个数据处理和迁移的工具,它提供了一个统一的数据处理平台,能够帮助用户快速地将数据从一个系统迁移到另一个系统。DataX 3.0 安装使用手册是 DataX 3.0 的官方安装和使用指南,旨在帮助用户快速地...
DataX 是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。数据交换DataX 是阿里巴巴集团内被广泛...
是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。 DataX 在阿里巴巴集团内被广泛...
《DataX3.0:高效数据同步工具与Oracle支持详解》 DataX3.0是一款强大的数据同步工具,尤其在企业级数据仓库构建和大数据处理中扮演着重要角色。其核心功能是实现不同数据源之间的高效迁移,确保数据的一致性和实时...
DataX_是阿里巴巴集团内被广泛使用的离线数据同步工具平台,实现包括_MySQL、Oracle、_DataX
DataX 是阿里云 DataWorks数据集成 的开源版本,在阿里巴巴集团内被广泛使用的离线数据同步工具/平台。DataX 实现了包括 MySQL、Oracle、OceanBase、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、...
Java 使用 DataX 进行增量同步是大数据领域中常见的数据迁移任务,DataX 是阿里开源的一个强大、高效的数据同步工具,它可以实现不同数据存储之间的数据迁移。本篇将详细讲解如何在 Java 项目中利用 DataX 实现增量...
DataX3.0 概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据...
Datax 是阿里巴巴开发的一款高效、稳定且强大的数据同步框架,支持多种数据库之间的数据迁移。在这个过程中,我们需要注意以下关键知识点: 1. **Datax 工具**:Datax 是一个Java编写的ETL(Extract, Transform, ...
DataX是阿里巴巴开源的一款强大的数据同步框架,支持多种数据库之间的数据迁移,包括MySQL、Oracle、SQL Server、PostgreSQL等。DataX-Web在DataX的基础上增加了Web管理界面,方便用户进行任务配置、执行和监控。 1...
阿里巴巴的DataX是一个重要的数据同步工具,它支持多方向、高自由度的异构数据交换,能处理各种数据源和数据仓库之间的同步问题。而TimeTunnel则用于实时数据同步,基于数据库的日志,如MySQL的bin-log和Oracle的...
DataX是一款由阿里巴巴开源的数据同步工具,它支持多种数据源之间的数据迁移,旨在实现离线数据同步。在这个主题中,我们将重点探讨DataX中的DorisWriter组件,以及如何通过JobJSON配置文件进行数据同步任务的设置。...
Cloudin-DataX是一款基于阿里开源的DataX构建的分布式数据同步工具,旨在简化数据迁移过程,提供一个直观、易操作的用户界面,以及强大的可视化定时任务配置和监控功能。DataX本身是一个高性能、稳定且易于扩展的...
linux datax 同步工具离线数据同步工具,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、TableStore(OTS)、MaxCompute(ODPS)、DRDS 等各种异构数据源之间高效的数据同步功能。Github地址:...
DataX作为阿里巴巴开源的一款高效、稳定、强大的数据同步工具,广泛应用于大数据生态中的数据迁移任务。针对ClickHouse这款高性能列式数据库,DataX提供了专门的ClickHouse读写插件,使得我们可以方便地实现MySQL、...
在大数据处理和分析领域,DataX作为阿里巴巴开源的一款数据同步工具,其重要性不言而喻。它支持多种数据源之间的数据迁移,包括关系型数据库、NoSQL数据库以及各种云存储等。而InfluxDB则是一款专为时序数据设计的高...
DataX是阿里巴巴集团内部广泛使用的离线数据同步工具,经过大规模生产环境验证,具有高可用性、高性能和易用性。其工作原理主要是通过定义各种数据源的读取和写入任务,实现数据在不同存储系统之间的高效迁移。DataX...