`
小网客
  • 浏览: 1241257 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

Hive之partition

 
阅读更多

概述

hive的partition可以认为是RMDB中的分区,目的是query时减少全表扫描。

使用:

创建分区:

create EXTERNAL TABLE  IF NOT EXISTS p(
id STRING COMMENT 'id'
) partitioned by (seq int)
STORED AS SEQUENCEFILE 
LOCATION 'hdfs:///hive/hdfs/p/';

当数据插入的时候会以hdfs:///hive/hdfs/p/为基础构建以分区=值为名的目录

使用分区:

insert into table p partition(seq=1) select count(1) from dual;

此时会形成hdfs:///hive/hdfs/p/seq=1/数据 的文件目录格式,在insert into的时候需要指定分区否则会报如下错误:

Need to specify partition columns because the destination table is partitioned

 

查询操作:

select * from p where seq=1

可以使用多个分区:

create EXTERNAL TABLE  IF NOT EXISTS pp(
id STRING COMMENT 'id'
) partitioned by (seq int,num int)
STORED AS SEQUENCEFILE 
LOCATION 'hdfs:///hive/hdfs/pp/';

此时如果写入数据指定了分区那么就会形成hdfs:///hive/hdfs/pp/seq=值/num=值/数据 的目录结构

查询分区:

可以查询某表具有的分区:

show partitions pp;

 可以基于分区删除数据:

ALTER TABLE pp DROP PARTITION (seq=1,num=1);

pp为外部表那么其元数据被删除,真实数据扔存在,可以通过hadoop fs查看到

 

ps:

1.执行insert overwrite 的时候指定分区中的数据会被删除,其他分区数据不受影响

2.一个表可以有多个分区,分区列是伪劣不是真实存在的列以目录的形式存在

3.导入数据:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

0
0
分享到:
评论

相关推荐

    修改hive表分区名称

    ### 修改Hive表分区名称的方法 在大数据处理领域中,Apache Hive是一款广泛使用的数据仓库工具,它能够将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,使得用户能够通过简单的SQL语句来处理存储在...

    Hive表分区

    Hive表分区,里面有比较详细的Hive表分区方法,希望能够有所帮助。

    hive原理1介绍

    Hive是一个构建在Hadoop之上的数据仓库工具,它主要解决了Hadoop中数据管理的复杂性问题。通过将结构化的数据文件映射为一张数据库表,Hive提供了SQL查询的功能,使得数据分析人员能够更加方便高效地处理大数据集。 ...

    apache-hive-2.3.9-bin.tar大数据HIVE.zip

    1. **数据模型**:Hive 支持两种主要的数据存储结构——表(Table)和分区(Partition)。表是数据的基本单位,可以看作是关系数据库中的表格。分区则是对大表进行逻辑上的划分,通过将数据按特定字段值进行分类,...

    Hive开发规范及要点

    Hive开发规范及要点 Hive是一款基于Hadoop的数据仓库工具,能够对大规模数据进行快速的查询和分析。它提供了一个SQL-like的查询语言,称为HQL(Hive Query Language),使得用户可以使用类似SQL的语句来查询和管理...

    Hive用户指南 Hive user guide 中文版

    Hive作为构建在Hadoop之上的数据仓库系统,其主要功能是提供一种简单易用的方式来处理存储在Hadoop HDFS中的大量数据。通过Hive,用户可以使用类似于SQL的查询语言(HiveQL)来查询数据,而不需要深入了解底层的...

    Hive使用手册Hive使用手册

    Hive是建立在Hadoop之上的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,方便大数据的分析。连接Hive通常通过Hive Shell或使用其他支持Hive的客户端如Beeline、Hue等。要连接Hive...

    Hive实战之视频网站的测试数据

    在本实践案例中,我们将深入探讨如何利用Hive这一大数据处理工具来处理视频网站的测试数据。Hive是一个基于Hadoop的数据仓库系统,它允许使用SQL语法进行数据查询和分析,非常适合大规模分布式数据集的处理。这个...

    Hive基本命令整理

    hive> load data local inpath '/home/Hadoop/input/hive/partitions/file1' into table logs partition (dt='2001-01-01',country='GB'); ``` 查看表信息 Hive 提供了多种方式来查看表信息,包括查看表结构信息、...

    hive的学习资料

    Hive 建立在 Hadoop 文件系统(HDFS)之上,利用 Hadoop 的分布式计算能力来处理数据。 1.3 Hive 和普通关系数据库的异同 - **相同点**:都提供数据存储和查询功能。 - **不同点**:Hive 更侧重于离线批处理,而...

    cloudera-hive-cdh6.3.2源码包

    源码中的 `org.apache.hadoop.hive.ql.metadata.Partition` 类表示分区,`org.apache.hadoop.hive.ql.plan.CreateTableDesc` 中定义了如何创建分区的规则。 5. **MapReduce 与 Tez 执行引擎** Hive 默认使用 ...

    hive编程入门课程

    Hive是建立在Hadoop之上的数据仓库基础设施,由Facebook赞助开发。它通过提供SQL-like查询语言(HiveQL),使用户能够轻松地对存储在Hadoop分布式文件系统(HDFS)中的大规模数据进行查询、分析和管理。Hive的引入极...

    Hive4--HIVE元数据库.pdf

    Hive的核心组件之一是元数据库,它是Hive管理数据的关键。元数据库存储了关于Hive表、列、分区等对象的所有元数据信息,使得Hive能够理解数据的结构和位置,从而执行查询。 元数据库通常存储在关系数据库管理系统...

    Hive教程.pdf

    ### Hive简明教程知识点概述 #### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能,使得Hadoop能够更好地处理大数据。 - **...

    大数据hive笔记.zip

    在当今的数据洪流中,Hive作为一种强大的大数据处理工具,已经成为业界的标准之一。本笔记将全面深入地探讨Hive在大数据处理中的应用、原理及其实战技巧。 一、Hive简介 Hive是Apache软件基金会下的一个开源项目,...

    hive的一些报错及解决方法

    ALTER TABLE ods.tb_res_content_cancel DROP IF EXISTS PARTITION (month_part='201608'); ``` - 如果需要的话,可以考虑重建整个表。 #### 四、Hive执行脚本、查询有时较慢 在某些情况下,Hive执行脚本或查询...

    HIVE资料.zip

    1. **HQL语法**:掌握基本的查询语法,如SELECT、JOIN、PARTITION BY等。 2. **Hive元数据管理**:了解如何创建、修改和删除表及分区。 3. **性能优化**:学习如何通过分区、桶、选择合适的数据格式和存储方式来提升...

    大数据实验六实验报告:熟悉Hive的基本操作

    SET hive.exec.dynamic.partition.mode=nonstrict; ``` 然后,可以通过INSERT INTO SELECT语句将数据按分区插入: ```sql INSERT INTO TABLE dividends PARTITION (exchange, symbol) SELECT exchange, symbol...

    hive监控巡检优化文档

    定期进行Hive巡检是保障Hive稳定运行的重要手段之一。 - **查看CDH集群-hive-事件** - 检查Cloudera Manager中Hive服务的事件日志,确保没有异常事件发生。 - **查看CDH集群-hive-hive2实例-角色日志** - 通过...

Global site tag (gtag.js) - Google Analytics