摘要: 乍一看标题会以为是不是作者写错了怎么会有从MaxCompute到MaxCompute迁移数据的场景呢在实际使用中已经有客户遇到了这种场景比如两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁移等等下面我们逐个场景介绍。
免费开通大数据服务:https://www.aliyun.com/product/odps
乍一看标题会以为是不是作者写错了,怎么会有从MaxCompute到MaxCompute迁移数据的场景呢?在实际使用中已经有客户遇到了这种场景,比如:两个网络互通的专有云环境之间数据迁移、公共云数加DataIDE上两个云账号之间数据迁移、还有网络不通的两个MaxCompute项目数据迁移等等,下面我们逐个场景介绍。
场景一:两个网络互通的专有云MaxCompute环境之间数据迁移
这种场景需要先从源MaxCompute中导出元数据DDL,在目标MaxCompute中初始化表,然后借助DataX工具完成数据迁移,步骤如下:
1. 安装配置ODPS客户端
https://help.aliyun.com/document_detail/27804.html
2. 安装配置Datax客户端
下载DataX工具包,下载后解压至本地某个目录,修改权限为755,进入bin目录,即可运行样例同步作业:
$ tar zxvf datax.tar.gz $ sudo chmod -R 755 {YOUR_DATAX_HOME} $ cd {YOUR_DATAX_HOME}/bin $ python datax.py ../job/job.json
3. 表结构迁移
3.1 从ODPS中导出某个表的建表语句,可用来测试数据同步。
export table table_name;
DDL:createtableIFNOTEXISTS` date_timestame ` (`id` datetime comment "") partitioned by(pt string comment ""); altertable` date_timestame `addIFNOTEXISTS partition(dt='20161001'); altertable` date_timestame `addIFNOTEXISTS partition(dt='20161101'); altertable` date_timestame `addIFNOTEXISTS partition(dt='20161201'); altertable` date_timestame `addIFNOTEXISTS partition(dt='20170101');
3.2 从ODPS批量导出建表语句。
export <projectname><local_path>;
3.3 将建表语句在目标ODPS的project下执行,即可完成表结构创建。
4. 数据迁移
从源ODPS读取数据写入到目标ODPS,先按照“表结构迁移”在目标ODPS创建一个表,做DataX数据同步验证。
4.1 、创建作业的配置文件(json格式)
可以通过命令查看配置模板: python datax.py -r {YOUR_READER} -w {YOUR_WRITER}
odps2odps.json样例(填写相关参数,odpsServer/ tunnelServer要改成源/目标ODPS配置):
{ "job": { "setting": { "speed": { "channel": 1 } }, "content": [ { "reader": { "name": "odpsreader", "parameter": { "accessId": "${srcAccessId}", "accessKey": "${srcAccessKey}", "project": "${srcProject}", "table": "${srcTable}", "partition": ["pt=${srcPartition}"], "column": [ "*" ], "odpsServer": "http://service.odpsstg.aliyun-inc.com/stgnew", "tunnelServer": "http://tunnel.odpsstg.aliyun-inc.com" } }, "writer": { "name": "odpswriter", "parameter": { "accessId": "${dstAccessId}", "accessKey": "${dstAccessKey}", "project": "${dstProject}", "table": "${dstTable}", "partition": "pt", "column": [ "*" ], "odpsServer": "http://service.odpsstg.aliyun-inc.com/stgnew", "tunnelServer": "http://tunnel.odpsstg.aliyun-inc.com" } } } ] } }
4.2 启动DataX
$ cd {YOUR_DATAX_DIR_BIN} $ python datax.py ./odps2odps.json
同步结束,显示日志如下:
4.3 、批量迁移
根据导出的表结构批量生成DataX同步脚本,我会协助完成。
场景二:公共云数加DataIDE上两个云账号之间数据迁移
这个场景比较容易理解,比如一个公司很可能会申请多个云账号,假如每个云账号都开通了MaxCompute,很可能就会碰到两个云账号的MaxCompute之间数据迁移。公共云上都借助于DataIDE使用MaxCompute,而DataIDE上面本身提供了数据同步任务,我们通过配置数据同步任务即可很容易的完成数据迁移。执行步骤如下:
1、在其中一个MaxCompute项目空间项目管理中添加数据源,该数据源为另一个云账号的MaxCompute项目空间。
2、在DataIDE数据开发中新建“数据同步”任务,如果目标数据源中表还不存在,可以点击“快速建ODPS表”,配置字段映射等。
3、保存之后点击“测试运行”即可。
场景三:网络不通的两个MaxCompute环境数据迁移
这种场景做数据同步局限性比较大,由于网络不通,数据迁移必须要在中间落盘后再写入,所以当数据量比较大时要考虑磁盘容量、带宽等问题。步骤如下:
1、首先也是要先将源MaxCompute项目空间的DDL导出并在目标项目空间创建表,操作同场景一。
export <projectname><local_path>;
2、安装配置ODPS客户端,操作同场景一。
3、通过ODPS CLT中的tunnel命令实现数据的导出。命令参考:
Example:
tunnel download test_project.test_table log.txt
4、通过ODPS CLT中的tunnel命令实现数据的导入。命令参考:
Example:
tunnel upload log.txt test_project.test_table
阅读更多干货好文,请关注扫描以下二维码:
相关推荐
本文档旨在详细介绍如何通过不同的技术手段和工具实现数据从多种源头至MaxCompute的高效迁移,并结合具体的业务场景,展示整个数据处理流程的自动化实现。文档涵盖了离线数据与实时数据的处理流程,同时提供了一个...
本资料《MaxCompute数据开发实战—数据进入MaxCompute的N种方式》深入探讨了如何高效地将数据导入MaxCompute平台,涵盖了从简单的数据上传到复杂的数据迁移策略。文档首先介绍了MaxCompute的基础架构和数据处理流程...
随着企业数据的增长,MaxCompute可以无缝扩展存储和计算资源,无需停机或数据迁移,保证服务连续性。 6. **成本效益** 采用按需付费模式,企业只需为实际使用的存储和计算资源付费,降低了大数据处理的初期投入和...
2. **数据存储**:MaxCompute提供了大规模的数据存储能力,数据以表的形式存在,支持分区表以优化查询性能,且具备高可用性和持久化存储。 3. **计算能力**:MaxCompute采用分布式计算架构,通过并行处理任务,实现...
它支持多种数据库和数据源之间的数据迁移,如关系型数据库RDS、自建数据库、MaxCompute等,帮助企业快速实现数据迁移、容灾备份以及实时数据同步。 2. **登录数据传输服务控制台**: 用户可以通过阿里云官方网站或...
它支持多种数据库类型,包括阿里云RDS、自建数据库、MaxCompute等,帮助企业实现数据的平滑迁移,确保业务连续性和数据一致性。 2. **系统架构**: DTS的架构可能包括源数据库、目标数据库、迁移任务管理、同步...
【阿里云专有云企业版 V3.7.1 数据传输技术白皮书】是阿里云发布的一份详细阐述其专有云企业版在数据传输领域的技术文档,旨在为用户提供关于该版本的数据传输服务的全面了解。以下是该白皮书中涉及的关键知识点: ...
该平台适用于需要进行大规模数据迁移、整合以及实时分析的场景,确保企业在大数据环境下的业务连续性和数据准确性。 1. **实时数据分发**: - 实时数据分发平台支持快速地将数据从源头实时同步到目标系统,如数据...
该工具支持的数据源包括但不限于MySQL、Oracle、SqlServer、PostgreSQL、HDFS、Hive、Amazon DynamoDB (ADS)、HBase、Table Store (OTS)、MaxCompute (ODPS) 和 DRDS。 #### 特点与优势 DataX的特点主要体现在其...
在使用DataWorks进行数据同步任务时,可能会遇到各种错误,尤其是在从MaxCompute向其他数据源如RDS或HybridDB迁移数据的过程中。下面我们将详细探讨这些常见错误及其解决策略。 1. **数据回滚**: 当数据批量写入...
- **灵活的数据源接入**:支持多种数据源的接入,如RDS、MaxCompute等,实现数据的无缝迁移和整合。 4. **使用注意事项**: 用户在使用分析型数据库时,应遵循阿里云提供的法律声明,包括但不限于仅通过官方渠道...
DataX 是阿里巴巴开源的一款高效、稳定、强大的数据同步工具,它能够支持多种数据源之间的数据迁移,例如从 MySQL 到 HDFS,从 RDS 到 MaxCompute 等。在这个"DataX同步模板.rar"压缩包中,包含了可能用于演示或测试...
此外,该系统还提供了丰富的工具和服务,包括但不限于数据迁移、数据分析、数据处理等,以确保数据的安全存储和高效利用。其中,核心功能包括: 1. **离线计算**: 支持TB/PB级别的数据处理,适用于批处理任务。 2. ...
Hologres支持标准SQL,可以与多种数据源无缝集成,如MaxCompute、RDS、ECS等,使得用户能够直接对海量数据进行即时查询和分析,无需复杂的数据迁移过程。 2. **产品优势** - **高并发低延迟**:Hologres具备处理高...
- 兼容性:可能与其他阿里云服务无缝集成,如数据迁移服务、对象存储服务等,方便数据的导入导出。 5. **运维与监控** - 提供全面的运维工具和监控指标,便于用户监控系统的运行状态,及时发现并解决问题。 - ...
- **数据同步**:使用先进的数据复制技术,如阿里云的DRDS(分布式关系型数据库服务)或MaxCompute等,实现实时或批量的数据同步。 - **负载均衡**:智能DNS解析或应用层负载均衡器确保流量根据预设策略分配到各个...
4. 云生态:阿里云数据库服务是整个云生态系统的一部分,能够与其他阿里云服务如对象存储OSS、消息队列MQ、大数据处理MaxCompute等无缝集成,提供完整的云上数据解决方案。 5. 产品指南:文档中包含了阿里云数据库...
MaxCompute不需要企业搭建集群,支持SQL、MapReduce等数据处理方式,而且用户可以按需购买资源,但业务迁移存在一定的技术限制。E-MapReduce支持Spark、Kafka、Flink等组件,支持用户使用Hadoop生态系统进行数据分析...
- **弹性扩展**:根据业务需求,用户可以轻松地在线扩展存储空间,无需停机或迁移数据。 - **安全特性**:支持多种安全策略,如访问控制列表(ACLs)、加密存储等,保障数据安全。 - **无缝集成**:与阿里云ECS、...