原文链接:
http://click.aliyun.com/m/27095/
ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
ODPS(Open Data Processing Service),是阿里巴巴通用计算平台提供的一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案,现在已更名为MaxCompute,MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
同时,大数据开发套件和 MaxCompute关系紧密,大数据开发套件为 MaxCompute 提供了一站式的数据同步,任务开发,数据工作流开发,数据管理和数据运维等功能,您可以参见 大数据开发套件简介 来对其进行深入了解。
MaxCompute 主要服务于批量结构化数据的存储和计算,可以提供海量数据仓库的解决方案以及针对大数据的分析建模服务。随着社会数据收集手段的不断丰富及完善,越来越多的行业数据被积累下来。数据规模已经增长到了传统软件行业无法承载的海量数据(百 GB、TB 乃至 PB)级别。
在分析海量数据场景下,由于单台服务器的处理能力限制,数据分析者通常采用分布式计算模式。但分布式的计算模型对数据分析人员提出了较高的要求,且不易维护。使用分布式模型,数据分析人员不仅需要了解业务需求,同时还需要熟悉底层计算模型。MaxCompute 的目的是为用户提供一种便捷的分析处理海量数据的手段。用户可以不必关心分布式计算细节,从而达到分析大数据的目的。
MaxCompute 已经在阿里巴巴集团内部得到大规模应用,例如:大型互联网企业的数据仓库和 BI 分析、网站的日志分析、电子商务网站的交易分析、用户特征和兴趣挖掘等。
MaxCompute 发展历程
从 2009 年 9 月阿里云成立,愿景就是做运算/分享数据第一平台;2010年4月,伴随阿里金融的贷款业务上线,ODPS 正式投入生产运行,2012 年建立统一数据平台,2013 年具备超大规模海量数据处理能力,2014~2015 年大数据平台开始日趋成熟,2016 MaxCompute 2.0 的诞生,成立之初的愿景经过一步步努力逐步实现。
关键性里程碑
2010.04 ODPS 正式投入生产运行。阿里金融的贷款业务上线稳定运行。
2013.05 ODPS 公测。
2013.07 ODPS 正式提供商业化服务,单集群规模 5K 台服务器多级群能力。
2016.09 ODPS 正式更名为 MaxCompute,并推出 2.0,实现高性能,新功能,富生态。
大数据平台发展历程
MaxCompute 组件
数据通道:
TUNNEL:提供高并发的离线数据上传下载服务。用户可以使用 Tunnel 服务向 MaxCompute 批量上传或下载数据。MaxCompute Tunnel 仅提供 Java 编程接口供用户使用。
计算及分析任务:
SQL:MaxCompute 只能以表的形式存储数据,并对外提供了 SQL 查询功能。用户可以将 MaxCompute 作为传统的数据库软件操作,但其却能处理TB、PB级别的海量数据。需要注意的是,MaxCompute SQL 不支持事务、索引及 Update/Delete 等操作,同时 MaxCompute 的 SQL 语法与 Oracle,MySQL 有一定差别,用户无法将其他数据库中的 SQL 语句无缝迁移到 MaxCompute 上来。此外,在使用方式上,MaxCompute SQL 最快可以在分钟,乃至秒级别完成查询,无法在毫秒级别返回用户结果。MaxCompute SQL 的优点是对用户的学习成本低,用户不需要了解复杂的分布式计算概念。具备数据库操作经验的用户可以快速熟悉 MaxCompute SQL 的使用。
UDF:即用户自定义函数。MaxCompute 提供了很多 内建函数 来满足用户的计算需求,同时用户还可以通过创建自定义函数来满足不同的计算需求。
MapReduce:MapReduce 最早是由 Google 提出的分布式数据处理模型,随后受到了业内的广泛关注,并被大量应用到各种商业场景中。在本文档中,我们会对 MapReduce 模型做简要介绍,以便于用户快速熟悉、了解该模型。使用 MaxCompute MapReduce 的用户需要对分布式计算概念有基本了解,并有相对应的编程经验。MaxCompute MapReduce 为用户提供 Java 编程接口。
Graph:MaxCompute 提供的 Graph 功能是一套面向迭代的图计算处理框架。图计算作业使用图进行建模,图由点 (Vertex) 和边 (Edge) 组成,点和边包含权值 (Value)。通过迭代对图进行编辑、演化,最终求解出结果,典型应用:PageRank,单源最短距离算法 ,K-均值聚类算法 等。
SDK:提供给开发者的工具包,SDK 的相关介绍请参见 SDK介绍。
安全:MaxCompute 提供了功能强大的安全服务,为用户的数据安全提供保护,详情请参见 安全参考手册。
想了解更多MaxCompute相关的内容,请访问云栖社区
阿里巴巴大数据计算平台MaxCompute(原名ODPS)全套攻略
https://yq.aliyun.com/articles/78108
阿里巴巴大数据-玩家社区 https://yq.aliyun.com/teams/6/
---阿里大数据博文,问答,社群,实践,有朋自远方来,不亦说乎……
bba01b493e1c5d904e882b1c380673c6ebe49a98
本文为云栖社区原创内容,未经允许不得转载,如需转载请发送邮件至yqeditor@list.alibaba-inc.com;如果您发现本社区中有涉嫌抄袭的内容,欢迎发送邮件至:yqgroup@service.aliyun.com 进行举报,并提供相关证据,一经查实,本社区将立刻删除涉嫌侵权内容。
原文链接:
http://click.aliyun.com/m/27095/
分享到:
相关推荐
Java连接ODPS(MaxCompute)是一项关键的技能,特别是在大数据处理和分析的场景下。ODPS,即阿里云的大数据处理服务MaxCompute,是企业级的海量数据处理平台,提供了SQL、API等多种方式进行数据操作。Java SDK是ODPS...
1.2.1至1.2.4小节分别解释了为何需要ODPS,ODPS的本质是什么,以及它的主要功能,包括数据存储、计算能力以及对大数据分析的支持。 1.3节“基本概念”是理解ODPS的基础,其中: 1.3.1 账号(Account):ODPS使用...
阿里云ODPS文档 阿里云ODPS(Open Data Processing Service)是一种大规模数据处理服务,提供了基于SQL的数据处理能力。ODPS SQL是ODPS的一部分,提供了类似于SQL的语法,用于处理大规模数据。 ODPS SQL的特点 ...
阿里云ODPS(Open Data Processing Service)是一款大数据处理服务,主要面向海量数据的批处理、交互式查询和分析。ODPS提供了SQL接口,使得开发者能够用熟悉的SQL语法进行大数据操作,极大地降低了大数据处理的门槛...
《ODPS权威指南:阿里大数据平台应用开发实践》是一本深度解析阿里巴巴ODPS技术的专著,旨在为读者提供全面、深入的ODPS理解和应用经验。ODPS,全称为Open Data Processing Service,是阿里巴巴集团自主研发的大数据...
本资料包“datahub_test_001_odps_datahub_IDEAL_datahub和odps”主要关注两个关键组件:DataHub和ODPS,以及它们在IDEAL环境中的集成应用。 首先,ODPS(开放数据处理服务)是阿里云推出的一种大数据处理平台,它...
ODPS,全称为Open Data Processing Service,是阿里云推出的一种大数据处理服务,旨在为企业提供海量数据的存储和计算能力。《ODPS权威指南》作为最新版的参考资料,深入讲解了ODPS的核心特性和应用场景,是学习和...
ODPS(Open Data Processing Service)是阿里巴巴开源的大数据处理服务,它主要面向大规模数据分析,提供SQL查询、数据仓库以及批处理能力。这个“ODPS参考手册”是学习和使用ODPS的重要资源,它包含了ODPS的各项...
ODPS(Open Data Processing Service)是阿里云推出的一种大数据处理服务,它提供了强大的数据存储和计算能力,帮助企业处理海量数据。而"odps-eclipse-plugin-bundle-0.16.0.zip"则是一个针对ODPS开发的Eclipse集成...
ODPS 提供海量数据处理及分析服务,让用户远离大数据运算烦恼。 开放数据处理服务(Open Data Processing Service,ODPS)是基于飞天分布式系统构建的海 量数据处理和分析的服务平台,具有 PB 级别的数据处理能力, ...
【ODPS概述】 开放数据处理服务(ODPS)是由阿里巴巴集团研发的一种大数据处理与分析平台,基于飞天内核构建,旨在提供PB级别的数据处理能力。ODPS通过RESTful API接口对外提供服务,使得开发者能够方便地进行大...
阿里云odpsSql手册1摘要 大数据计算服务MaxCompute SQL概要介绍_MAXCompute SQL是一种面向海量数据(TB级别)的计算服务,适用于实时性要求不高的场合。 MaxCompute SQL的每个作业的准备、提交等阶段需要花费较长...
"阿里开放数据处理服务ODPS介绍" 阿里开放数据处理服务ODPS是一款基于云计算的数据处理和分析平台,旨在帮助企业解决大数据处理和分析的问题。ODPS提供了一站式的数据处理和分析服务,使用户可以快速构建大数据应用...
《大数据技术:ODPS MapReduce对外开放实践》 在大数据领域,ODPS(Open Data Processing Service)是阿里巴巴集团推出的一种用于大规模数据处理的底层平台。ODPS的核心目标是为用户提供一个高效、稳定且易于使用的...
ODPS(Open Data Processing Service)是阿里云推出的一种大数据处理服务,主要面向大规模数据处理场景。这个“ODPS资料大全”压缩包很可能包含了关于ODPS的详细文档、教程、案例研究以及API参考等内容,旨在帮助...
### ODPS的使用说明 #### 一、ODPS-SQL基础用法 ##### 1. 使用CASE语句 ODPS中的CASE语句用于根据不同的条件返回不同的结果。例如,在创建新表`train_1`时,可以根据`tab`字段的不同值来决定`weight`字段的值: ...
odps-jdbc-3.2.9-jar-with-dependencies.jar 是阿里云 MaxCompute(开放数据处理服务,ODPS)平台的 JDBC 驱动程序,专为大数据处理和分析而设计。此版本的驱动程序包含所有必要的依赖库,简化了开发人员在 Java ...
徐东作为阿里巴巴数据平台事业部的ODPS技术专家,在2014年的中国大数据技术大会上分享了关于ODPS MapReduce对外开放实践的演讲。ODPS,全称为OpenDataProcessSystem,是一个大规模数据处理的底层平台,每天都能够...
阿里云ODPS机器学习平台,简称PAI,是构建在阿里云ODPS计算服务之上的一个全面的机器学习解决方案。这个平台旨在简化大数据处理、建模、离线预测以及在线预测的过程,为算法开发者和使用者提供了一个高效且易用的...
DThink ODPS SQL编程手册是杭州数梦工场科技有限公司发布的官方文档,主要介绍DThink ODPS SQL的语法结构及其使用方法。ODPS(Open Data Processing Service)是面向大数据处理和分析的分布式计算平台,提供了数据...