dataX是阿里开源的离线数据库同步工具的使用
DataX介绍:
DataX 是阿里开源的一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、ODPS、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
一句话:dataX是阿里开源的离线数据库同步工具。
DataX设计理念
DataX本身作为数据同步框架,将不同数据源的同步抽象为从源头数据源读取数据的Reader插件,以及向目标端写入数据的Writer插件,理论上DataX框架可以支持任意数据源类型的数据同步工作。同时DataX插件体系作为一套生态系统, 每接入一套新数据源该新加入的数据源即可实现和现有的数据源互通。
支持的数据:
环境搭建
系统要求
系统:Linux/Windows
JDK:1.8+(推荐1.8)
Python:2.6.x(推荐Python2.6.x)
Maven:3.x
凯哥在Windos环境搭建的。资料如下图:
如果本地没有Python环境的话,下载python-2.7.6-amd64.msi。然后点击安装后。
查看python版本号:
如果没有,配置下系统环境变量就可以了。
测试:
将下载的datax.tar.gz解压后,进入到datax目录下的bin中,里面有datax.py文件。可以在cmd中测试:
python E:\datax\bin\datax.py E:\datax\job\job.json
说明:
Python:执行pytho的
E:\xx.py:datax的py脚本
E:\xx.json:同步配置的json文件
如果乱码的话,现在CMD输入:
CHCP 65001
使用示例:
1:从CVS文件中,将数据同步到mysql中
2:从mysql中将数据同步到mysql中
3:从Oracle中将数据同步到mysql中
一:从CVS文件中,将数据同步到mysql中:
1.1:配置json脚本
结构如下:
分为reader和writer两个。
reader如下图:
说明:
Path:cvs文件的位置
Encoding:编码
Column:行
skipHeader:是否跳过表头
CVS文件中数据:
writer的配置如下图:
说明:
name:是什么写。Oracle呢还是mysql呢
parameter:参数
writemode:写的模式。Insert表示插入的
username:数据库的用户名
password:数据库的密码
column:表的字段
connection:数据库连接
jdbcUrl:数据库链接
table:表名
数据库表:
1.2执行:
在datax的bin目录执行:
python datax.py ../job/ csv_mysql.json
执行后数据:
具体的json配置信息:
{ "job": { "setting": { "speed": { "channel": 1 } }, "content": [ { "reader": { "name": "txtfilereader", "parameter": { "path": ["D:/ datax.csv"], "encoding": "gbk", "column": [
{ "index": 1, "type": "string" }, { "index": 2, "type": "string" } , { "index": 3, "type": "string" } ], "fieldDelimiter": ",", "skipHeader": "true" } },
"writer": { "name": "mysqlwriter", "parameter": { "writeMode": "insert", "username": "root", "password": "123456", "column": [
"t_name", "addr", "c" ], "session": [], "connection": [ { "jdbcUrl": "jdbc:mysql://127.0.0.1:3306/guns?useUnicode=true&characterEncoding=utf8&useSSL=false&serverTimezone=GMT%2B8", "table": ["datax_test"] } ] } } } ] } } |
二:从mysql中将数据同步到mysql中
1:配置信息如下
reader配置:
writer配置:
配置完成后,执行方法同1.2
三:从Oracle中将数据同步到mysql中
说明:
jdbcUrl配置:"jdbcUrl": ["jdbc:oracle:thin:@localhost:1521:coredb"],
querySql:有的时候,我们同步数据的时候,需要根据条件查询同步的。所以可以在这个querysql中写sql语句。
执行同1.2
执行结果:
相关推荐
数据同步工具DataX-Web是一款基于DataX的可视化数据迁移工具,它提供了用户友好的界面,使得数据库之间的数据同步变得更加简单和直观。DataX是阿里巴巴开源的一款强大的数据同步框架,支持多种数据库之间的数据迁移...
标题 "Datax实现增量同步数据到Postgres" 涉及到的是使用开源数据同步工具 Datax 进行数据迁移的场景,特别是针对从某个源数据库到PostgreSQL数据库的增量同步。Datax 是阿里巴巴开发的一款高效、稳定且强大的数据...
阿里开源的DataX正是这样一款强大的工具,它专注于解决异构数据源之间的数据同步问题,支持包括Oracle、PostgreSQL和MySQL在内的多种主流数据库。本文将详细介绍DataX的核心功能、工作原理以及如何配置和使用。 一...
是阿里巴巴集团内被广泛使用的离线数据同步工具/平台,实现包括 MySQL、Oracle、SqlServer、Postgre、HDFS、Hive、ADS、HBase、OTS、ODPS 等各种异构数据源之间高效的数据同步功能。 DataX 在阿里巴巴集团内被广泛...
DataX是阿里巴巴开源的一款强大的数据同步工具,它能够高效、稳定地进行大数据迁移,支持多种数据源之间的数据同步。在DataX中,VerticaWriter是一个专门用于将数据写入Vertica数据库的插件,旨在满足用户对Vertica...
首先,DataX 是阿里巴巴开源的离线数据同步工具,支持多种数据源之间的数据迁移,包括但不限于 MySQL、Oracle、HDFS、HBase、ADS 等。DataX Web 是 DataX 的Web版本,它将原本需要编写配置文件的任务转换为直观的...
DataX是一款由阿里巴巴开源的高效离线数据同步工具,支持多种异构数据源之间的数据同步,包括但不限于MySQL、Oracle、HDFS、Hive、OceanBase、HBase、OTS、ODPS等。DataX采取了框架加插件的模式,其本身是一个离线...
DataX是阿里巴巴集团内部广泛使用的离线数据同步工具,经过大规模生产环境验证,具有高可用性、高性能和易用性。其工作原理主要是通过定义各种数据源的读取和写入任务,实现数据在不同存储系统之间的高效迁移。DataX...
DataX3.0 概览 DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle 等)、HDFS、Hive、ODPS、HBase、FTP 等各种异构数据源之间稳定高效的数据同步功能。 设计理念 为了解决异构数据...
DataX3.0是阿里云DataWorks数据集成的开源版本,专注于离线数据同步,广泛应用于阿里巴巴集团内部。它旨在高效地同步多种异构数据源,如MySQL、Oracle、HDFS等,通过其强大的Reader和Writer插件体系,能够支持任意...
Datax是阿里巴巴开源的一款高效、稳定、强大的数据同步工具,它能够实现各种数据源之间的数据迁移,包括离线数据同步和实时数据同步。在标题提到的"Datax支持clickhouse",意味着Datax已经扩展了对ClickHouse数据库...
DataX作为阿里巴巴开源的一款强大、通用的数据同步工具,广泛应用于各种数据库之间的数据迁移。其中,DB2Reader是DataX专门为从DB2数据库进行数据迁移而设计的读取插件。本文将深入探讨DB2Reader的工作原理、配置...
DataX是阿里巴巴开源的一款高效、稳定、智能的数据同步工具,它能够实现离线数据同步(批处理)和实时数据同步(流处理)。DataX3.0作为其最新版本,优化了性能,增加了更多的数据源支持,使得数据迁移更加灵活和...
DataX是一个分布式数据同步工具,它能够实现离线(批量)数据同步,支持多种数据源,包括关系型数据库、NoSQL数据库、云存储等。其核心设计思想是将数据迁移过程抽象为读取、转换、写入三个阶段,用户可以灵活地选择...
DataX是阿里巴巴开源的一款用于大数据同步的工具,它支持多种数据源之间的数据迁移,包括RDBMS(关系型数据库管理系统)、Hadoop生态、NoSQL数据库等。DataX的设计目标是实现离线数据同步过程的简单化和高效化,使得...
DataX是阿里巴巴开源的一款强大的数据同步工具,它主要用于在各种数据存储之间进行高效的数据迁移。在大数据领域,ETL(Extract, Transform, Load)过程是不可或缺的,DataX的出现就是为了简化这一过程,使得数据的...
而DataX是阿里巴巴开源的数据同步工具,能够支持多种数据源间的离线数据同步,包括MySQL、Oracle、SQLServer等,它的出现大大简化了跨数据库的数据迁移工作。 在实现异构库数据同步的过程中,DataX作为一个桥梁,...
DataX是一款由阿里巴巴开源的异构数据源离线同步工具,旨在实现不同类型的数据库及文件系统之间的高效数据同步。其支持的关系型数据库包括MySQL、Oracle等,同时也支持HDFS、Hive、ODPS、HBase、FTP等多种异构数据源...
DataX是阿里巴巴开源的一款强大且高效的数据同步工具,主要用于实现离线数据同步,支持多种数据源之间的数据迁移。在DataX中,HiveReader是一个重要的组件,它专门用于从Hive数据仓库中读取数据并将其导出到其他数据...
DataX是阿里巴巴研发的一款开源数据同步工具,其主要功能在于实现不同数据源之间的高效数据同步。它支持多种数据源,如MySQL、Oracle、HDFS、Hive等,并且具有强大的扩展性和灵活性。 ##### DataX 3.0 特性详解 - *...