阿里云开源离线同步工具DataX3.0介绍
一. DataX3.0概览
DataX 是一个异构数据源离线同步工具,致力于实现包括关系型数据库(MySQL、Oracle等)、HDFS、Hive、MaxCompute(原ODPS)、HBase、FTP等各种异构数据源之间稳定高效的数据同步功能。
● 设计理念
为了解决异构数据源同步问题,DataX将复杂的网状的同步链路变成了星型数据链路,DataX作为中间传输载体负责连接各种数据源。当需要接入一个新的数据源的时候,只需要将此数据源对接到DataX,便能跟已有的数据源做到无缝数据同步。
● 当前使用现状
DataX在阿里巴巴集团内被广泛使用,承担了所有大数据的离线同步业务,并已持续稳定运行了6年之久。目前每天完成同步8w多道作业,每日传输数据量超过300TB。
此前已经开源DataX1.0版本,此次介绍为阿里云开源全新版本DataX3.0,有了更多更强大的功能和更好的使用体验。Github主页地址:https://github.com/alibaba/DataX。
介绍多的不说了官网介绍比较详细,本文主要介绍xdata在windows系统的部署和使用
二.如何使用
安装好jdk和python配置好环境变量
下载datax
解压后目录为
示例 oracle库赋值到oracle库
1.配置job的json
{
"job": {
"setting": {
"speed": {
"channel": 3
}
},
"content": [
{
"reader": {
"name": "oraclereader",
"parameter": {
"column": ["",""],
"connection": [
{
"jdbcUrl": [
"jdbc:oracle:thin:@192.10.1:1521:orcl"
],
"table": [
""
],
}
],
"username": "",
"password": "",
}
},
"writer": {
"name": "oraclewriter",
"parameter": {
"username": "",
"password": "",
"column": ["", ""],
"preSql": [
"truncate table "
],
"connection": [
{
"jdbcUrl": "jdbc:oracle:thin:@127.0.0.1:1521:liuxu",
"table": [
""
]
}
]
}
}
}
]
}
}
2.执行
3.查看结果
- 大小: 47.4 KB
- 大小: 123.8 KB
- 大小: 131.4 KB
- 大小: 7.3 KB
分享到:
相关推荐
阿里开源的DATAX是一款强大的数据同步...总结来说,DATAX是阿里开源的一款强大、灵活的ETL工具,具有丰富的数据源支持和高可用性,适用于各种数据迁移场景。其开源特性鼓励社区参与,促进了其功能的持续优化和扩展。
DataX是阿里巴巴研发的一款开源数据同步工具,其主要功能在于实现不同数据源之间的高效数据同步。它支持多种数据源,如MySQL、Oracle、HDFS、Hive等,并且具有强大的扩展性和灵活性。 ##### DataX 3.0 特性详解 - *...
在众多的ETL工具中,DataPipeline、Kettle、Talend、Informatica、Datax 和 Oracle GoldenGate 是较为常见的几款。下面将对这些工具进行详细比较,以帮助你了解它们的特点和适用场景。 1. **DataPipeline** ...
数据同步工具DataX-Web是一款基于DataX的可视化数据迁移工具,它提供了用户友好的界面,使得数据库之间的数据同步变得更加简单和直观。DataX是阿里巴巴开源的一款强大的数据同步框架,支持多种数据库之间的数据迁移...
### ETL解决方案大PK:Apache NiFi、DataX、Kettle哪个更适合你?...在选择合适的ETL工具时,需要根据项目的具体需求和技术背景综合考虑。希望本文能帮助读者更好地理解和选择适合自己的ETL解决方案。
DataX Web 2.1.2 正是这样一款针对大数据处理的专业工具,专为数据抽取、转换和加载(ETL)而设计,为企业提供强大的数据集成能力。本文将深入解析DataX Web的功能、优势以及在实际应用中的操作流程。 一、DataX ...
总的来说,DataX是一款强大且灵活的ETL工具,无论是小型项目还是大型企业级应用,都能找到适合的解决方案。通过DataX-web的图形化界面和DataX引擎的插件化设计,我们可以轻松地管理和执行数据迁移任务,实现数据的...
1. DataX:由阿里巴巴开源,它是一个支持多种异构数据源之间同步的工具,包括关系型数据库、Hadoop生态组件、NoSQL存储等。DataX设计为高性能和高可用,能够处理大规模的数据迁移任务。然而,DataX不支持实时数据...
DataX是阿里巴巴开源的一款强大的数据同步工具,它主要用于在各种数据存储之间进行高效的数据迁移。在大数据领域,ETL(Extract, Transform, Load)过程是不可或缺的,DataX的出现就是为了简化这一过程,使得数据的...
DataX是阿里巴巴开源的一款高效、稳定、强大的数据同步工具,它能够支持多种数据源之间的数据迁移。Azkaban则是LinkedIn开发的一个工作流作业调度系统,它为企业级的大数据处理提供了灵活的调度能力。将DataX与...
1. **Datax 工具**:Datax 是一个Java编写的ETL(Extract, Transform, Load)工具,用于大量数据的批量迁移。它提供了丰富的数据源支持,包括关系型数据库、NoSQL数据库、Hadoop生态等,可以实现离线数据同步。 2. ...
DataX 是阿里巴巴开源的一款高效、稳定、可靠的批处理数据同步工具,支持多种数据源之间的数据迁移。本篇主要介绍如何使用 DataX 将 Sybase 数据库中的数据同步到 Hadoop 分布式文件系统(HDFS)。 1. **...
DataX 是阿里巴巴开源的一个企业级数据同步框架,适用于大数据实时同步。DataX 支持多种数据源,如MySQL、Oracle、HDFS、HBase等,提供稳定、高效的数据同步服务。DataX的设计理念是“一切皆为插件”,这意味着...
DataX是一款由阿里巴巴开源的数据同步工具,它支持多种数据源之间的数据迁移,旨在实现离线数据同步。在这个主题中,我们将重点探讨DataX中的DorisWriter组件,以及如何通过JobJSON配置文件进行数据同步任务的设置。...
在IT行业中,数据迁移是一项常见的任务,而DataX是一个由阿里巴巴开源的数据同步工具,它能够高效地处理数据在不同存储系统之间的迁移。本问题聚焦于如何通过Java调用shell脚本,向DataX传递参数,特别是包含特殊...
DataX是阿里巴巴开源的一款数据同步框架,支持多种数据源间的双向数据同步,包括全量和增量同步。在Oracle到HDFS的同步场景中,DataX扮演着ETL(Extract-Transform-Load)的角色,将Oracle中的数据抽取出来,经过...
综上所述,DataX3.0是一个强大的数据同步工具,具备高效、可靠和可扩展的特性,是大数据环境中进行数据迁移和整合的理想选择。其丰富的插件支持和智能化的监控能力,使得数据同步工作更加便捷和可控。
DataX是阿里巴巴开源的数据同步工具,它支持多种数据库之间的数据迁移。在实际应用中,我们可能需要根据特定的业务逻辑,如where条件,来定制数据同步的范围。在Java程序中调用Shell命令并传入带有特殊字符的参数时...
传统大数据分析工具以Hadoop,Spark为代表,集成集成的技术框架,对用户来说又重又笨又不灵活,难以维护和驾驭,国际和国内的敏捷型BI工具在对接时又面临性能本项目独辟蹊径,以阿里开源的DataX为ETL工具,以列式...