作者:王腾 \[ 更多内容详见数据中台官网 [https://dp.alibaba.com](https://dp.alibaba.com/) \]
业务数据存储是业务系统最基本的构成,构建数据中台,就是要将这些数据集中起来放到一个有更强算力的地方集中处理,所以对于数据集成的能力是构建数据中台最基本要求;
从存储的发展历程来看,由于不同的业务场景需求,带来了数据存储的不同发展路径,在企业发展中随着业务规模的变化,也会选择不同的存储来支撑,所以每个企业一定会存在异构存储,如何将多源异构存储中的数据集成起来是企业做数据中台需要面临的一个巨大问题;
当然,目前行业内有很多人采用一些开源技术组件来实现,比如GitHub上的DataX、HData等,但是由于技术组件的易用性较弱,对于分析师和模型师而言,学习效率和使用便捷度还有待提高;因此集中式、界面化的工具尤为重要;
不久前我们就接触过一个客户,他们是一家有着大概十多年发展历史的零售企业,有线上渠道也有线下自营店,企业发展一直都比较重视信息化,所以基于Oracle的ERP系统、基于MySQL的APP应用、基于ES的搜索系统、基于HBase的数据服务系统,还有第三方提供的POS服务,每月同步账单;经年累月,系统变得比较复杂,而且没有当下流行的业务中台架构;
在和客户的业务方、IT部门沟通过程中了解到,目前最首要的需求是希望可以把这些数据统一管理起来,并且在业务上能够发挥一些价值。基于客户诉求和基础信息的了解,目前虽然远期的蓝图不是很清楚,但是短期内对于数据建设的方向是明确的,先完成数据的集成工作,然后再挖掘数据业务价值,当然集成的数据内容要与业务价值考量关联,否则盲目集成,也只是转存了一份数据而已;
基于这些判断,系统梳理了下客户的系统以及使用的存储;
**梳理结果如下:**
![image](https://yqfile.alicdn.com/e1fa5735144a4fb67d53f19b396bdc9167ef0b2b.png)
**整体IT信息如下:**
信息系统:六大模块(前端业务APP、营销工具、运营平台、供应链平台、内部管理平台、OA系统)
存储类型:
关系型数据库:MySQL、Oracle、PostgreSQL
无结构数据存储:FTP、日志文件、ElasticSearch、线下CSV(Excel文件)
NoSQL存储:HBase
集成目标:
MaxCompute(已采购)
集成工具
公共云Dataphin
根据对系统存储和工具的梳理,数据流形式如下:
![image](https://yqfile.alicdn.com/c32d65958a1d24915fd4e2c92485b874bbf182f3.png)
在整个集成数据流设计中,主要使用的是Dataphin产品,目前存储数据梳理中用到的类型都可以支撑到,更重要是界面化操作,入门门槛比较低,维护和管理起来比较简单,配置下数据源,设置下数据从来源到目标的mapping关系即可。
Step 1. 新建数据源
![image](https://yqfile.alicdn.com/29d1a9667f874c407c984f238f7fcc85f5fb584e.png)
Step 2. 配置映射关系
![image](https://yqfile.alicdn.com/dc83f5225517b19e205404f0af2b2d0467877f99.png)
Step 3. 发布生产环境
![image](https://yqfile.alicdn.com/e25ada7fae344fd4fb910b1f1d45fabc46f4404d.png)
这样一个数据同步任务就创建好,客户这边大概有12个存储源约200个数据表做上云,大概2天的时间就完成了,因此,工具还是很重要的!
我们在项目中所使用的数据集成产品Dataphin就是一个非常方便的工具。
Dataphin数据同步支撑了数据上云最基础的能力,只有数据上云才有可能谈论数据中台建设和数字化转型;
Dataphin数据同步定位于数据上云的管道,集成多源异构存储中的数据,构建数据中台建设的基础原料;在数据同步的设计中,首先将多类型存储介质的元数据进行了标准化,基于这种标准化实现了前端配置的一致体验,避免填写大量的JSON文件进行同步配置的定义,简化配置操作,以提升工程师开发阶段的体验;同时,兼顾客户最终价值需求,即数据能够稳定、高效地完成传输,实现上云,因此数据同步设计的过程中也是非常关注数据同步的性能指标;
目前我们已经实现12种来源存储类型以及14种目标存储类型的支持;覆盖了当前客户使用的大多数数据源类型;同时,由于采用插件式的设计方法,对于异构数据源提供了快速扩展的能力;
![image](https://yqfile.alicdn.com/b535e7cc77dbf67598d8e7e85551dbe6792403a4.png)
按照存储类型划分,保持与DataX定义的标准一致:
* RDBMS关系型数据库
1. MySQL
2. SQL Server
3. Oracle
4. PostgreSQL
5. DRDS
6. Vertica
7. 协议支持DB
* 数仓数据存储
1. AnalyticDB(只写)
2. ODPS
3. Hive
* NoSQL存储
1. MongoDB
2. HBase
* 无结构化数据存储
1. HDFS
2. FTP
3. ElasticSearch(只写)
Dataphin数据同步提供了强大的数据传输能力,帮助企业数据高效上云,打破数据孤岛,构建数据中台!
**结尾:** \[ 更多内容详见数据中台官网 [https://dp.alibaba.com](https://dp.alibaba.com/) \]
阿里巴巴数据中台团队,致力于输出阿里云数据智能的最佳实践,助力每个企业建设自己的数据中台,进而共同实现新时代下的智能商业!
阿里巴巴数据中台解决方案,核心产品:
Dataphin,以阿里巴巴大数据核心方法论OneData为内核驱动,提供一站式数据构建与管理能力;
Quick BI,集阿里巴巴数据分析经验沉淀,提供一站式数据分析与展现能力;
Quick Audience,集阿里巴巴消费者洞察及营销经验,提供一站式人群圈选、洞察及营销投放能力,连接阿里巴巴商业,实现用户增长。
欢迎志同道合者一起成长!
[原文链接](https://yq.aliyun.com/articles/720867?utm_content=g_1000083378)
本文为云栖社区原创内容,未经允许不得转载。
分享到:
相关推荐
阿里云专有云企业版V3.8.0中的Dataphin是一款专注于智能数据构建与管理的产品,旨在为企业提供高效、自动化和智能化的数据处理解决方案。Dataphin集成了数据湖构建、数据治理、数据开发、数据分析等功能,帮助企业...
阿里云数据中台解决方案是基于两个关键产品——Dataphin和Quick BI——构建的智能大数据方案,旨在帮助企业高效地管理和分析数据,驱动业务智能化。这个解决方案借鉴了阿里巴巴集团在数据中台领域的实践经验,旨在为...
在数据源接入层面,Dataphin支持多种数据源,如关系型数据库、NoSQL数据库、大数据存储等,确保企业能够灵活地整合各类数据。在数据开发环节,Dataphin提供了便捷的代码编辑器和图形化工作流,使得数据工程师可以...
Dataphin是阿里云专有云企业版中的一款核心产品,专注于为企业提供智能的数据构建与管理服务。该产品版本为V3.8.1,旨在帮助企业实现数据的高效治理、自动化建模以及智能化分析,从而提升企业的数据价值和业务决策...
"阿里云专有云企业版V3.8.1智能数据构建与管理Dataphin技术白皮书20190910" 阿里云专有云企业版V3.8.1智能数据构建与管理Dataphin技术白皮书20190910是阿里云发布的一份技术白皮书,旨在介绍Dataphin技术的智能数据...
阿里云专有云企业版V3.7.0中的智能数据构建与管理Dataphin是一款为企业级客户提供高效、智能的数据管理解决方案。Dataphin旨在帮助用户实现数据的全链路智能构建,从数据源接入、数据开发、数据治理到数据分析,提供...
阿里云专有云企业版V3.12.0中的智能数据构建与管理Dataphin是一款专注于企业级数据治理和智能分析的平台。该产品旨在帮助企业高效地进行数据建模、开发、集成、质量检查、元数据管理以及数据分析,从而实现数据资产...
**阿里云专有云企业版 V3.8.0 智能数据构建与管理 Dataphin 用户指南** 本文档是阿里云专有云企业版V3.8.0的用户指南,专注于智能数据构建与管理工具Dataphin。Dataphin是一款强大的数据管理和建模工具,旨在帮助...
阿里云专有云企业版V3.7.0的智能数据构建与管理Dataphin是一款为企业量身定制的数据管理解决方案,旨在帮助企业高效地构建数据湖并实现智能化的数据管理。Dataphin技术白皮书详细阐述了产品的核心特性和功能,以帮助...
1. **一站式服务**:Dataphin提供了从数据源接入、数据开发、模型构建、数据质量监控到数据分析的全流程服务,帮助企业快速搭建数据中台,实现数据资产化。 2. **智能建模**:通过内置的智能算法,Dataphin可以自动...
【阿里云专有云企业版 V3.9.0 智能数据构建与管理 Dataphin 技术白皮书】 《阿里云专有云企业版 V3.9.0 智能数据构建与管理 Dataphin 技术白皮书》详细介绍了阿里云在数据管理和智能化构建方面的先进技术,旨在为...
阿里云专有云企业版V3.12.0中的Dataphin是一款智能数据构建与管理平台,旨在帮助企业高效地进行数据治理、建模、开发和分析。Dataphin提供了端到端的数据生命周期管理,从数据源接入、数据清洗、数据建模、数据开发...
【阿里云专有云企业版 V3.8.0 智能数据构建与管理 Dataphin 技术白皮书】 《阿里云专有云企业版 V3.8.0 智能数据构建与管理 Dataphin 技术白皮书》详细介绍了阿里云在大数据处理和管理领域的先进解决方案——...
阿里云专有云企业版V3.7.0的智能数据构建与管理Dataphin是一款为企业量身定制的数据管理解决方案,旨在帮助企业高效、智能化地构建数据仓库和数据湖。Dataphin提供了完整的数据生命周期管理,涵盖了数据源接入、数据...
阿里云数据中台解决方案是基于阿里云的Dataphin智能数据构建与管理平台以及Quick BI高效数据分析与展现平台,为企业提供全面的、智能化的大数据处理和应用方案。这个方案旨在帮助企业构建自己的数据中台,实现数据的...
阿里云专有云企业版V3.12.0中的智能数据构建与管理Dataphin运维指南是一款专门针对企业级用户的数据管理和建设平台。Dataphin致力于帮助企业高效地完成数据治理、开发、建模和分析等工作,提升数据资产的价值。在V...
阿里巴巴数据中台解决方案主要基于两大核心产品:**Dataphin智能数据构建与管理平台**和**QuickBI高效分析与展现平台**。 ##### (一)Dataphin智能数据构建与管理平台 Dataphin是阿里巴巴推出的一款用于构建和管理...
阿里云专有云企业版V3.6.1的智能数据引擎Dataphin是一款高效、智能化的数据管理和构建工具,旨在帮助企业构建数据中台,提升数据治理能力,实现数据资产化。Dataphin集成了数据全生命周期管理,从数据源接入、数据...
它旨在通过整合企业内部和外部的数据源,构建统一的数据处理和服务框架,为企业提供高质量的数据支持,促进业务决策和智能化运营。 #### 二、为何需要数据中台 1. **解决数据孤岛问题**:传统的数据管理方式往往...
阿里云数据中台解决方案是基于阿里云提供的Dataphin和Quick BI两个主要产品组件构成的。Dataphin作为智能数据构建与管理平台,主要负责数据的整合、构建与管理,而Quick BI则作为高效数据分析与展现平台,提供快速的...