`

MaxCompute( 原ODPS)下的表分区解释

阅读更多
原文链接:http://click.aliyun.com/m/25126/
摘要: 大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。

大数据计算服务(MaxCompute,原名 ODPS,https://www.aliyun.com/product/odps)是一种快速、完全托管的 GB/TB/PB 级数据仓库解决方案。MaxCompute 向用户提供了完善的数据导入方案以及多种经典的分布式计算模型,能够更快速的解决用户海量数据计算问题,有效降低企业成本,并保障数据安全。



ODPS分区字段一般来说都是重复性非常强的字段,比如说时间,某一天可能会产生几万条数据,把这一天产生的数据就存入到一个分区中,而时间(某天)就是分区字段,时间(某天)所在的列就是分区列。也就是说,基于分区列的数据作为一个纬度,进行了数据块的划分存储,加快查询速度。每一个分区块里面的数据是完整性的,而不是分区列里的一列或者几列数据。在ODPS中最多支持六级分区。也就是说partition by里面可以有六个字段可以设置为分区列,而且是有顺序的。比如说有两个分区列,sale_date和region , 那么这个表可能存在多少个分区呢?可能无数个,分区分为几级呢,两级。第一级为销售时间,第二级为区域。



Create table sale_detail(shop_name string, customer_id string , total_price decimal) partition by(sale_date string, region string);
Alter table sale_detail add partition (sale_date = ‘201703’, region=’hangzhou’);
其实可以理解更加简单一些,就是有个叫sale_detail的文件夹,下面存了一堆201703,201704...的文件夹,201703这个文件夹下面又存了一堆hangzhou、beijing、qingdao...的文件夹,这些文件夹里面存的是一条一条的数据,只不过数据都是基于时间和地域纬度的。想清楚了,就是一层窗户纸的事情。
_

作者:徽州七哥

原文地址:https://yq.aliyun.com/articles/72337



有奖活动:

万元大奖邀您参与阿里云数加 MaxCompute最佳实践征文大赛
原文链接:http://click.aliyun.com/m/25126/
分享到:
评论

相关推荐

    odps(MaxCompute) 权威详尽说明帮助手册

    1.2.1至1.2.4小节分别解释了为何需要ODPS,ODPS的本质是什么,以及它的主要功能,包括数据存储、计算能力以及对大数据分析的支持。 1.3节“基本概念”是理解ODPS的基础,其中: 1.3.1 账号(Account):ODPS使用...

    Java连接ODPS文档和代码

    Java连接ODPS(MaxCompute)是一项关键的技能,特别是在大数据处理和分析的场景下。ODPS,即阿里云的大数据处理服务MaxCompute,是企业级的海量数据处理平台,提供了SQL、API等多种方式进行数据操作。Java SDK是ODPS...

    阿里云odpsSql手册1

    阿里云odpsSql手册1摘要 大数据计算服务MaxCompute SQL概要介绍_MAXCompute SQL是一种面向海量数据(TB级别)的计算服务,适用于实时性要求不高的场合。 MaxCompute SQL的每个作业的准备、提交等阶段需要花费较长...

    阿里云 odps 文档

    10. **ODPS与大数据生态集成**:ODPS可以与其他阿里云产品无缝集成,如MaxCompute(原ODPS2.0)、AnalyticDB、DataHub等,形成一个完整的数据处理和分析生态系统。 “odps_SQL.pdf”文件很可能是ODPS SQL的官方文档...

    odps权威指南最新版

    2. **数据存储**:ODPS采用分布式文件系统来存储数据,提供表和分区的概念,使得数据管理更加高效。用户可以通过SQL语句创建、修改和删除表,以及导入和导出数据。 3. **SQL支持**:ODPS支持丰富的SQL语法,包括...

    MaxCompute用户指南

    MaxCompute是阿里巴巴集团推出的大数据计算平台,原名ODPS(Open Data Processing Service),适用于在线数据处理、大规模数据仓库场景,提供海量数据仓库解决方案。MaxCompute用户指南是针对MaxCompute服务的使用...

    ODPS权威指南 阿里大数据平台应用开发实践

    书中详细阐述了ODPS的数据模型,如表的创建、数据导入导出、分区管理等,这些都是日常操作中不可或缺的部分。 接着,书中深入探讨了ODPS的SQL语法,包括DML(Data Manipulation Language)和DDL(Data Definition ...

    万台集群性能优化方法——MaxCompute性能优化实践.pdf

    MaxCompute,原名ODPS,是阿里巴巴集团及阿里云的核心大数据计算服务,它是一个超大规模、低成本、高并发的分布式计算平台。此平台主要负责99%的数据存储和95%的计算任务,支撑了阿里巴巴内部包括阿里妈妈、天猫、...

    ODPS权威指南阿里大数据平台应用开发实践

    - **数据存储**:ODPS提供了分布式表的概念,支持TB到PB级别的数据存储,支持多种数据类型和分区策略,便于数据管理和查询。 - **SQL支持**:ODPS支持SQL语法,允许用户通过熟悉的SQL语言进行数据查询和分析,降低...

    阿里大数据计算服务MaxCompute-基本介绍.pdf

    为了优化数据查询和管理,MaxCompute引入了分区表的概念。分区表允许用户将某些列(通常是时间戳或其他分类数据)指定为分区列,每个分区值对应一个目录。这样,查询时可以只访问特定分区,减少不必要的数据扫描,...

    ODPS资料大全

    3. **实时计算**:通过MaxCompute Streaming或UDF(User Defined Function),ODPS也支持实时数据处理,满足实时分析的需求。 4. **数据仓库**:ODPS作为企业级数据仓库,可以构建复杂的数据模型,支持星型、雪花型...

    MaxCompute技术公开课第四季之MaxComputeTunnel上传典型问题场景实战.pdf

    MaxCompute Tunnel 是一种高效的数据传输工具,主要用于将本地文件上传至MaxCompute表中。该工具提供了灵活的数据上传选项,适用于各种复杂的数据结构和应用场景。 1. **上传支持**: - 支持单个文件或一级目录的...

    MaxCompute索引优化实践分享.zip

    此外,还可以通过MaxCompute的性能监控工具,如DataHub、ODPS Monitor等,了解系统运行状态,及时发现并解决问题。 总结,MaxCompute的索引优化实践主要集中在合理选择和设计分区,以及正确使用和调整索引策略上。...

    阿里大数据计算服务MaxCompute-基本介绍D.docx

    总的来说,阿里大数据计算服务MaxCompute是一个强大的分布式大数据处理平台,通过项目空间、表、分区和资源等概念,提供了高效、安全的数据管理和计算能力。用户可以利用其丰富的数据类型和灵活的分区策略,进行大...

    阿里大数据计算服务MaxCompute-DataHub服务D.docx

    DataHub服务允许用户将数据记录通过指定的“数据通道”(Shard)写入MaxCompute表中,每个Shard对应一个数据流。数据通道的数量可以根据需求设定,提供高QPS(Query Per Second)和大吞吐量的实时数据处理能力。 ...

    万台集群性能优化方法——MaxCompute性能优化实践.zip

    MaxCompute,原名ODPS(Open Data Processing Service),是阿里巴巴集团研发的大数据处理平台,它为企业提供了海量数据的存储和计算能力。万台集群性能优化方法是MaxCompute在处理大规模数据时面临的重要课题,旨在...

    阿里大数据计算服务MaxCompute-批量数据通道D.docx

    在MaxCompute中,批量数据通道,即Tunnel服务,是一个关键的组件,它允许用户方便地上传或下载数据到MaxCompute中的表。Tunnel SDK是实现这一功能的开发工具包,为Java开发者提供了便利的API接口。 批量数据通道SDK...

    MaxCompute的NewSQL演进之路.zip

    MaxCompute,原名ODPS(Open Data Processing Service),是阿里巴巴集团研发的一款大数据处理服务,它在业界被广泛应用于海量数据的离线分析场景。NewSQL是近年来新兴的一种数据库技术,旨在提供传统SQL数据库的...

    阿里大数据计算服务MaxCompute-DataHub服务.pdf

    为了保证数据完整性,不建议在数据写入期间删除或重命名表或分区,否则可能导致数据丢失。此外,单个表的最大Shard数限制为50,如果需要更多,需联系售后服务。 加载Shard是使用DataHub服务的关键步骤。Shard是数据...

Global site tag (gtag.js) - Google Analytics