原文链接:
http://click.aliyun.com/m/25126/
摘要: 大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。
ODPS分区字段一般来说都是重复性非常强的字段,比如说时间,某一天可能会产生几万条数据,把这一天产生的数据就存入到一个分区中,而时间(某天)就是分区字段,时间(某天)所在的列就是分区列。也就是说,基于分区列的数据作为一个纬度,进行了数据块的划分存储,加快查询速度。每一个分区块里面的数据是完整性的,而不是分区列里的一列或者几列数据。在ODPS中最多支持六级分区。也就是说partition by里面可以有六个字段可以设置为分区列,而且是有顺序的。比如说有两个分区列,sale_date和region , 那么这个表可能存在多少个分区呢?可能无数个,分区分为几级呢,两级。第一级为销售时间,第二级为区域。
Create table sale_detail(shop_name string, customer_id string , total_price decimal) partition by(sale_date string, region string);
Alter table sale_detail add partition (sale_date = ‘201703’, region=’hangzhou’);
其实可以理解更加简单一些,就是有个叫sale_detail的文件夹,下面存了一堆201703,201704...的文件夹,201703这个文件夹下面又存了一堆hangzhou、beijing、qingdao...的文件夹,这些文件夹里面存的是一条一条的数据,只不过数据都是基于时间和地域纬度的。想清楚了,就是一层窗户纸的事情。
_
作者:徽州七哥
原文地址:https://yq.aliyun.com/articles/72337
有奖活动:
万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛
原文链接:
http://click.aliyun.com/m/25126/
分享到:
相关推荐
1.2.1至1.2.4小节分别解释了为何需要ODPS,ODPS的本质是什么,以及它的主要功能,包括数据存储、计算能力以及对大数据分析的支持。 1.3节“基本概念”是理解ODPS的基础,其中: 1.3.1 账号(Account):ODPS使用...
Java连接ODPS(MaxCompute)是一项关键的技能,特别是在大数据处理和分析的场景下。ODPS,即阿里云的大数据处理服务MaxCompute,是企业级的海量数据处理平台,提供了SQL、API等多种方式进行数据操作。Java SDK是ODPS...
阿里云odpsSql手册1摘要 大数据计算服务MaxCompute SQL概要介绍_MAXCompute SQL是一种面向海量数据(TB级别)的计算服务,适用于实时性要求不高的场合。 MaxCompute SQL的每个作业的准备、提交等阶段需要花费较长...
10. **ODPS与大数据生态集成**:ODPS可以与其他阿里云产品无缝集成,如MaxCompute(原ODPS2.0)、AnalyticDB、DataHub等,形成一个完整的数据处理和分析生态系统。 “odps_SQL.pdf”文件很可能是ODPS SQL的官方文档...
2. **数据存储**:ODPS采用分布式文件系统来存储数据,提供表和分区的概念,使得数据管理更加高效。用户可以通过SQL语句创建、修改和删除表,以及导入和导出数据。 3. **SQL支持**:ODPS支持丰富的SQL语法,包括...
MaxCompute是阿里巴巴集团推出的大数据计算平台,原名ODPS(Open Data Processing Service),适用于在线数据处理、大规模数据仓库场景,提供海量数据仓库解决方案。MaxCompute用户指南是针对MaxCompute服务的使用...
书中详细阐述了ODPS的数据模型,如表的创建、数据导入导出、分区管理等,这些都是日常操作中不可或缺的部分。 接着,书中深入探讨了ODPS的SQL语法,包括DML(Data Manipulation Language)和DDL(Data Definition ...
MaxCompute,原名ODPS,是阿里巴巴集团及阿里云的核心大数据计算服务,它是一个超大规模、低成本、高并发的分布式计算平台。此平台主要负责99%的数据存储和95%的计算任务,支撑了阿里巴巴内部包括阿里妈妈、天猫、...
- **数据存储**:ODPS提供了分布式表的概念,支持TB到PB级别的数据存储,支持多种数据类型和分区策略,便于数据管理和查询。 - **SQL支持**:ODPS支持SQL语法,允许用户通过熟悉的SQL语言进行数据查询和分析,降低...
为了优化数据查询和管理,MaxCompute引入了分区表的概念。分区表允许用户将某些列(通常是时间戳或其他分类数据)指定为分区列,每个分区值对应一个目录。这样,查询时可以只访问特定分区,减少不必要的数据扫描,...
3. **实时计算**:通过MaxCompute Streaming或UDF(User Defined Function),ODPS也支持实时数据处理,满足实时分析的需求。 4. **数据仓库**:ODPS作为企业级数据仓库,可以构建复杂的数据模型,支持星型、雪花型...
MaxCompute Tunnel 是一种高效的数据传输工具,主要用于将本地文件上传至MaxCompute表中。该工具提供了灵活的数据上传选项,适用于各种复杂的数据结构和应用场景。 1. **上传支持**: - 支持单个文件或一级目录的...
此外,还可以通过MaxCompute的性能监控工具,如DataHub、ODPS Monitor等,了解系统运行状态,及时发现并解决问题。 总结,MaxCompute的索引优化实践主要集中在合理选择和设计分区,以及正确使用和调整索引策略上。...
总的来说,阿里大数据计算服务MaxCompute是一个强大的分布式大数据处理平台,通过项目空间、表、分区和资源等概念,提供了高效、安全的数据管理和计算能力。用户可以利用其丰富的数据类型和灵活的分区策略,进行大...
DataHub服务允许用户将数据记录通过指定的“数据通道”(Shard)写入MaxCompute表中,每个Shard对应一个数据流。数据通道的数量可以根据需求设定,提供高QPS(Query Per Second)和大吞吐量的实时数据处理能力。 ...
MaxCompute,原名ODPS(Open Data Processing Service),是阿里巴巴集团研发的大数据处理平台,它为企业提供了海量数据的存储和计算能力。万台集群性能优化方法是MaxCompute在处理大规模数据时面临的重要课题,旨在...
在MaxCompute中,批量数据通道,即Tunnel服务,是一个关键的组件,它允许用户方便地上传或下载数据到MaxCompute中的表。Tunnel SDK是实现这一功能的开发工具包,为Java开发者提供了便利的API接口。 批量数据通道SDK...
MaxCompute,原名ODPS(Open Data Processing Service),是阿里巴巴集团研发的一款大数据处理服务,它在业界被广泛应用于海量数据的离线分析场景。NewSQL是近年来新兴的一种数据库技术,旨在提供传统SQL数据库的...
为了保证数据完整性,不建议在数据写入期间删除或重命名表或分区,否则可能导致数据丢失。此外,单个表的最大Shard数限制为50,如果需要更多,需联系售后服务。 加载Shard是使用DataHub服务的关键步骤。Shard是数据...