`
猫耳呀
  • 浏览: 165739 次
社区版块
存档分类
最新评论

深入解读:获Forrester大数据能力高评价的阿里云DataWorks思路与能力

阅读更多
摘要: Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告,报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估。

1.前言

本文基于Now Tech: Cloud Data Warehouse, Q1 2018 (Published: by Noel Yuhanna, March 13, 2018)进行了分析,文中内容仅代表个人观点。

2018年3月13日Forrester发布了Now Tech: Cloud Data Warehouse Q1 2018报告。报告对云化数据仓库(Cloud Data Warehouse, CDW)的主要功能、区域表现、细分市场和典型客户等进行了全面评估,最终AWS、阿里云、Google、微软四大巨头杀入全球一线阵营。阿里云DataWorks+MaxCompute成为唯一入选的中国产品。

报告中,Forrester强调了CDW的四方面核心能力:
·灵活部署。CDW应具有多种灵活的部署模式。针对小型客户,CDW应可提供在线多租户的模式,使客户有能力快速调集计算资源,在数分钟内完成数据仓库的部署。针对大中型客户,CDW应提供独占式或本地部署的模式,提供强大的计算性能和绝对的安全保障,同时屏蔽复杂的技术细节;
·高效数据上云。对于未将数据仓库云化的客户,或者采用线上-线下混合架构的客户,CDW应提供快速、低成本的方式,帮助用户完成数据集成。
·多样化分析手段。CDW应提供多种技术手段,帮助用户在各种业务场景中,获得想要的数据加工能力。
·安全性。CDW的安全性应全面考虑数据加密、审计、脱敏、访问控制等各方面。
DataWorks(https://data.aliyun.com/product/ide)作为阿里巴巴CDW服务能力的核心,为何能获得Forrester的青睐呢?今天我们来做一个解读。

2.DataWorks产品架构

在正式开始解读之前,我们先来了解一下DataWorks在阿里云CDW服务体系中的角色,以及DataWorks的产品架构。


在阿里云的众多产品中,DataWorks和MaxCompute共同构成了CDW服务能力的核心。其中,MaxCompute作为存储计算引擎,扮演了IaaS层支撑的角色,为使用者提供了海量可靠的大数据表存储,以及SQL执行的能力。但是,仅仅有了MaxCompute是不够的。为了让大数据技术能真正的给客户赋能,还需要数据开发、数据集成等一系列CDW服务,而DataWorks就提供了较为完整的解决方案。

具体来看,她包含8个主要模块:
  ● 数据集成:异构数据集成,将海量的数据从各种源系统汇集到大数据平台
  ● 数据开发:数据仓库设计和ETL开发过程
  ● 监控运维:ETL线上作业的运维监控
  ● 实时分析:实时探查和分析数据
  ● 数据资产管理:元数据管理、数据地图、数据血缘、数据资产大图等
  ● 数据质量:数据质量探查、监控、校验和评分体系
  ● 数据安全:数据权限管理,数据的分级打标、脱敏,以及数据审计
  ● 数据服务:数据共享和数据交换,数据API服务


3.灵活部署

Forrester在报告中大篇幅的阐述了多种部署形态的必要性,并对多家CDW进行了对比,而DataWorks是第一阵营中为数不多的提供多种部署方式的产品。

首先,作为阿里巴巴集团数据中台体系的核心,DataWorks从2009年开始便支持阿里集团、蚂蚁金服、菜鸟等全集团业务。只要使用了淘宝、天猫、蚂蚁金服等产品的数据服务,就有可能间接使用了DataWorks的计算服务。

其次,DataWorks已在公有云中开放。截止目前,DataWorks已服务4000+公有云客户,支撑了新浪微博、人人车、天弘基金等重要客户。

最后,DataWorks还支持专有云输出。作为大数据能力赋能的重要手段,DataWorks出现在了Apsara Enterprise等阿里云专有云解决方案中。从2015年至今,已支撑了包括“城市大脑”、“最多跑一次”等重量级政企项目。

通过灵活的部署方式,DataWorks可以满足多种不同形态的客户需求。对于小型用户,可以通过公有云方式灵活支撑;对于大中型客户,专有云或混合云的解决方案也完全可以满足客户需求。

4.高效数据上云

高效的数据集成方式对企业数据上云的意义不言而喻。在初始上云阶段,企业需要把自己的数据资产快速安全的迁移到云上;在持续运营阶段,企业需要将各种形态的数据输入到CDW中,并将CDW中加工完成的数据结果输出到各个业务单元。

DataWorks的数据集成提供了对多种类型数据源进行读写的能力,包括对关系型数据库、NoSQL数据库、大数据数据库、文本存储(FTP)等,能对数据源头的数据资源能够进行统一清点,并能够在复杂网络情况下对异构的数据源进行数据同步与集成。在具体的导入任务编排上,DataWorks支持离线数据的批量、全量、增量同步,支持分钟、天、小时、周、月来自定义同步时间。


DataWorks的数据集成还具有数据流管控的能力,能够从脏数据、数据流速、并发线程数等多个维度管控数据流的行为,多方位节约用户成本,实现精益化管理。

5.多样化分析手段

DataWorks提供了强大的数据开发IDE,支持从SQL代码编辑、集成任务编辑到业务流程DAG图的可视化编辑。而多人在线协作功能和任务脚本的版本管理功能也非常切合企业级数据开发的实际需求。除了常规的离线处理任务外,DataWorks还提供了轻量级工具“数据分析工作台”,充分利用MaxCompute的计算能力,满足用户即席数据分析的需求。



据悉,DataWorks近日还更新了拖曳式业务流程编辑功能,进一步改善用户体验,打造可能是最好用的数据开发IDE。

6.安全性

DataWorks将数据安全能力视为重中之重,敏感数据防护更需要符合行业规定和数据隐私法律等规定。DataWorks提供了数据安全模块,通过以下几方面提供了全方位的数据安全保护:
·多租户隔离。DataWorks拥有自己的多租户权限模型。租户可按需申请资源配额,独立管理自己的资源;租户也可以独立管理自有的数据、权限、用户、角色,彼此隔离,以确保数据安全。

·数据安全等级设定。通过数据安全等级,发现和定位敏感数据,明确其在数据资源平台上的分布情况,根据定义的敏感数据类型自动发现敏感数据,并为其分级分类。通常分为绝密、机密、正常等等级进行对应安全规则保障。

·数据访问审计。DataWorks对于特权用户的访问有严格的审查流程,包括何时访问,执行哪些操作,执行顺序等等。记录审计特权用户的访问记录,可以确保特权用户在正确的时间完成了正确的操作,审查是否有越轨行为的出现,进而保证数据系统的安全。

·数据脱敏。DataWorks能够在在不确定能够排除那些用户,那些访问地址,甚至那些字段为可疑或者有害访问时,关注数据内容本身,抓住敏感信息点,并有针对性地对该部分信息进行动态访问遮蔽,从而达到保护数据安全的目的。

目前,DataWorks已通过了公安部信息安全等级保护三级认证。

7.总结

随着社会各行各业“互联网+”改革的深入,企业对数据资产的管理、加工、利用的诉求越来越强烈。利用云计算技术,互联网公司得以快速的将自身的大数据处理能力对外赋能。这也是在Forrester的榜单中,全球主要的四家云服务公司,得以超越Oracle、IBM等老牌数仓技术公司,成为一线CDW供应商的原因。

得益于阿里巴巴多年的数据利用经验沉淀,DataWorks在部署模式、数据集成、分析手段、数据安全等各方面都实现了与企业级需求的高度契合。

据了解,DataWorks还会持续输出更多先进的数据管理理念,包括实时数据集成、数据资产分析等。将云计算技术与数仓管理方法论有机结合,保持不断迭代,致力于打造“最适合于大数据数仓建设的平台”,我想这正是DataWorks入选Forrester CDW榜单的原因。

原文链接:https://yq.aliyun.com/articles/568503?spm=a2c41.11181499.0.0

分享到:
评论

相关推荐

    《阿里云专有云总体经济影响报告》.pdf

    为了深入了解企业在使用阿里云专有云后所产生的经济影响力,阿里云和英特尔委托Forrester撰写了总体经济影响报告(TEI),分析了该解决方案的投资回报率,并为读者提供了参考的分析框架。 为了收集关于不同组织在...

    阿里云实时计算Flink版产品介绍.pdf

    阿里云实时计算Flink版是基于 Apache Flink 的实时计算产品,旨在提供高性能、可靠、灵活的实时数据处理能力。该产品经过了多年的发展和完善,已经成为了阿里云实时计算领域的事实标准。 阿里云实时计算Flink版的...

    阿里云的互联网海外布局介绍.pptx

    一、安全优势:阿里云凭借完善的安全服务体系以及高可用自动化的安全服务模式,在中国的公有云市场在安全服务领域占据第一名。阿里云的安全优势体现在多方面,包括Cloud service network security enhanced audit by...

    阿里云的云计算产业发展研究分析.docx

    云计算产业发展研究分析是当前信息技术发展的热点话题,本文将深入分析阿里云在云计算产业中的地位和优势,以及其未来发展的前景和挑战。 一、云计算产业现状 云计算产业已经逐渐成为信息技术领域的核心,随着...

    大数据与Hadoop67.pptx

    大数据与Hadoop是当前信息技术领域的核心概念,它们共同推动了数据处理能力的革命。大数据是指数据量巨大、复杂度高、处理速度快的数据集合,这些数据无法通过传统数据库管理系统或常规数据处理方式有效地处理。...

    Forrester 研究报告:企业混合多云战略的关键

    企业应该采取一种全面的、灵活多变的IT基础架构战略,不仅要考虑公有云的便利性和成本效益,还应重视本地部署的安全性和控制能力。此外,及时的基础架构更新对于保持竞争力和满足客户需求至关重要。 综上所述,企业...

    Forrester:7成私有云名不副实.docx

    私有云的概念在IT行业中备受关注,然而,Forrester Research的一项最新报告显示,高达70%的所谓私有云实际上并未达到真正的私有云标准。私有云与虚拟化之间的界限有时模糊不清,导致许多IT管理员误将高度虚拟化的...

    云存储应用白皮书.pdf

    阿里云推出的这份《云存储应用白皮书》,从存储行业的变革历程入手,在自身从研发到赋能的有效实践基础上,深入浅出地阐述了变革时代之下云存储的核心技术趋势,剖析了阿里云存储产品与解决方案的关键能力,为中国...

    大数据的应用.doc

    本文主要探讨了三个关键方面:大数据与开源技术、内存技术和机器学习。 首先,大数据与开源技术,尤其是Apache Hadoop和Spark,是推动大数据处理的核心力量。Hadoop作为一个分布式文件系统,允许大规模数据的存储和...

    大数据与Hadoop培训课件.pptx

    Hadoop的设计目标是让开发者无需深入理解分布式系统的底层细节,就能编写分布式应用程序,充分利用集群的计算和存储能力。Hadoop的核心组件包括分布式文件系统(HDFS)和MapReduce计算模型(现为YARN,也称为...

    Forrester报告:CAWily应用程序性能管理的总体经济影响[收集].pdf

    该报告由Forrester的项目主管Jonathan Lipsitz和撰稿人Paul Devine共同完成,旨在深入探讨CA Wily APM在2009年6月时对组织经济效益的影响。报告的核心目的是展示这款工具如何通过提升应用程序性能,帮助企业在软件...

    Forrester:物联网调查报告.pdf

    Forrester Research的物联网调查报告揭示了物联网在不同行业的应用现状、未来规划、关键技术和面临的挑战,以及如何通过合作伙伴关系来克服这些问题。 报告显示,截至2014年,已有25%的组织正在使用物联网解决方案...

    华为+Cloud+Fabric+简版彩页

    ### 华为CloudFabric云数据中心网络解决方案核心知识点 #### 一、背景与挑战 - **数据中心的重要性**: 数据中心作为数据计算、网络传输、存储的核心,是支撑企业业务运营的关键基础设施。 - **云计算的价值**: ...

    Forrester-当前营销测量和优化状况报告(英文)-2018.9-17页.pdf

    【营销测量与优化现状】 在2018年9月发布的Forrester Consulting的报告《当前营销测量和优化状况》中,重点探讨了营销行业的关键挑战和机遇,尤其是在数字化转型后的新环境中,如何通过改进营销测量策略来实现业务...

    大数据Hadoop解决方案的形势.docx

    Forrester报告详细分析了9家主要供应商,包括Amazon Web Services、Cloudera、Hortonworks、IBM、Intel、MapR科技、Microsoft、Pivotal软件和Teradata,并从现有产品、战略和市场占有率三个维度进行了综合评价。...

    大数据的发展及数据仓库的融合应用.pdf

    Forrester提出的下一代企业级数据仓库平台,融合Hadoop技术,引入非关系型数据源,利用数据虚拟化和压缩技术,增强了数据处理能力。同时,结合内存数据库技术,实现了事务处理和分析的并行,为大数据和数据仓库的...

    京东EB级全域大数据平台建设和治理之路.pdf

    Forrester的报告显示,数据洞察对于业务发展至关重要,能够显著提升业务增长能力、客户响应速度和维持竞争优势。以全球市值前十的公司为例,科技公司占据了主导地位,这表明数据驱动已经成为企业成功的关键因素。 ...

Global site tag (gtag.js) - Google Analytics