Hive之partition - 泡杯茶,过来坐坐 - ITeye博客

`

小网客

浏览: 1247147 次
性别:
来自: 北京

最近访客更多访客>>

aoyouzi

jis117

emaiqi

duguyixiaono1

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

masuweng：嗯,写的很好
Mysql之Incorrect string value: '\xF0\x9F\x98\x89 \xE6...'
秋水涛静：来来来你告诉我你贴的这代码有什么用？？你给的下载包又有什么 ...
利用diyUpload做多图片上传及预览
andseny：如果可以的话，求一份源码，谢谢邮箱：846526948@q ...
利用diyUpload做多图片上传及预览
alloyer：不错！可以使用，已验证。
Spring与jcaptcha集成
bewithme：这和我去官网看有啥区别？
web之日期组件My97DatePicker

Hive之partition

博客分类：

Hadoop

阅读更多

概述

hive的partition可以认为是RMDB中的分区，目的是query时减少全表扫描。

使用：

创建分区：

create EXTERNAL TABLE  IF NOT EXISTS p(
id STRING COMMENT 'id'
) partitioned by (seq int)
STORED AS SEQUENCEFILE 
LOCATION 'hdfs:///hive/hdfs/p/';

当数据插入的时候会以hdfs:///hive/hdfs/p/为基础构建以分区=值为名的目录

使用分区：

insert into table p partition(seq=1) select count(1) from dual;

此时会形成hdfs:///hive/hdfs/p/seq=1/数据的文件目录格式，在insert into的时候需要指定分区否则会报如下错误：

Need to specify partition columns because the destination table is partitioned

查询操作：

select * from p where seq=1

可以使用多个分区：

create EXTERNAL TABLE  IF NOT EXISTS pp(
id STRING COMMENT 'id'
) partitioned by (seq int,num int)
STORED AS SEQUENCEFILE 
LOCATION 'hdfs:///hive/hdfs/pp/';

此时如果写入数据指定了分区那么就会形成hdfs:///hive/hdfs/pp/seq=值/num=值/数据的目录结构

查询分区：

可以查询某表具有的分区：

show partitions pp;

可以基于分区删除数据：

ALTER TABLE pp DROP PARTITION (seq=1,num=1);

pp为外部表那么其元数据被删除，真实数据扔存在，可以通过hadoop fs查看到

ps：

1.执行insert overwrite 的时候指定分区中的数据会被删除，其他分区数据不受影响

2.一个表可以有多个分区，分区列是伪劣不是真实存在的列以目录的形式存在

3.导入数据：

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

0
顶

0
踩

分享到：

pearson相关系数 | Hive之内部表和外部表

2014-06-25 17:50
浏览 4306
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

修改hive表分区名称: ### 修改Hive表分区名称的方法在大数据处理领域中，Apache Hive是一款广泛使用的数据仓库工具，它能够将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，使得用户能够通过简单的SQL语句来处理存储在...

Hive表分区: Hive表分区，里面有比较详细的Hive表分区方法，希望能够有所帮助。

hive原理1介绍: Hive是一个构建在Hadoop之上的数据仓库工具，它主要解决了Hadoop中数据管理的复杂性问题。通过将结构化的数据文件映射为一张数据库表，Hive提供了SQL查询的功能，使得数据分析人员能够更加方便高效地处理大数据集。 ...

apache-hive-2.3.9-bin.tar大数据HIVE.zip: 1. **数据模型**：Hive 支持两种主要的数据存储结构——表（Table）和分区（Partition）。表是数据的基本单位，可以看作是关系数据库中的表格。分区则是对大表进行逻辑上的划分，通过将数据按特定字段值进行分类，...

Hive开发规范及要点: Hive开发规范及要点 Hive是一款基于Hadoop的数据仓库工具，能够对大规模数据进行快速的查询和分析。它提供了一个SQL-like的查询语言，称为HQL（Hive Query Language），使得用户可以使用类似SQL的语句来查询和管理...

Hive使用手册Hive使用手册: Hive是建立在Hadoop之上的数据仓库工具，它可以将结构化的数据文件映射为一张数据库表，并提供SQL查询功能，方便大数据的分析。连接Hive通常通过Hive Shell或使用其他支持Hive的客户端如Beeline、Hue等。要连接Hive...

Hive用户指南 Hive user guide 中文版: Hive作为构建在Hadoop之上的数据仓库系统，其主要功能是提供一种简单易用的方式来处理存储在Hadoop HDFS中的大量数据。通过Hive，用户可以使用类似于SQL的查询语言（HiveQL）来查询数据，而不需要深入了解底层的...

Hive实战之视频网站的测试数据: 在本实践案例中，我们将深入探讨如何利用Hive这一大数据处理工具来处理视频网站的测试数据。Hive是一个基于Hadoop的数据仓库系统，它允许使用SQL语法进行数据查询和分析，非常适合大规模分布式数据集的处理。这个...

Hive基本命令整理: hive> load data local inpath '/home/Hadoop/input/hive/partitions/file1' into table logs partition (dt='2001-01-01',country='GB'); ``` 查看表信息 Hive 提供了多种方式来查看表信息，包括查看表结构信息、...

hive的学习资料: Hive 建立在 Hadoop 文件系统（HDFS）之上，利用 Hadoop 的分布式计算能力来处理数据。 1.3 Hive 和普通关系数据库的异同 - **相同点**：都提供数据存储和查询功能。 - **不同点**：Hive 更侧重于离线批处理，而...

cloudera-hive-cdh6.3.2源码包: 源码中的 `org.apache.hadoop.hive.ql.metadata.Partition` 类表示分区，`org.apache.hadoop.hive.ql.plan.CreateTableDesc` 中定义了如何创建分区的规则。 5. **MapReduce 与 Tez 执行引擎** Hive 默认使用 ...

hive构造测试数据方法: - **ORC**（Optimized Row Columnar）：优化后的列式存储格式，具有更高的压缩比和更快的查询速度，是Hive推荐使用的格式之一。 - **PARQUET**：另一种高效的列式存储格式，支持高效的数据压缩和编码，是Hive中最常...

hive编程入门课程: Hive是建立在Hadoop之上的数据仓库基础设施，由Facebook赞助开发。它通过提供SQL-like查询语言（HiveQL），使用户能够轻松地对存储在Hadoop分布式文件系统（HDFS）中的大规模数据进行查询、分析和管理。Hive的引入极...

Hive4--HIVE元数据库.pdf: Hive的核心组件之一是元数据库，它是Hive管理数据的关键。元数据库存储了关于Hive表、列、分区等对象的所有元数据信息，使得Hive能够理解数据的结构和位置，从而执行查询。元数据库通常存储在关系数据库管理系统...

Hive教程.pdf: ### Hive简明教程知识点概述 #### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具，它可以将结构化的数据文件映射成一张数据库表，并提供类SQL查询功能，使得Hadoop能够更好地处理大数据。 - **...

大数据hive笔记.zip: 在当今的数据洪流中，Hive作为一种强大的大数据处理工具，已经成为业界的标准之一。本笔记将全面深入地探讨Hive在大数据处理中的应用、原理及其实战技巧。一、Hive简介 Hive是Apache软件基金会下的一个开源项目，...

hive的一些报错及解决方法: ALTER TABLE ods.tb_res_content_cancel DROP IF EXISTS PARTITION (month_part='201608'); ``` - 如果需要的话，可以考虑重建整个表。 #### 四、Hive执行脚本、查询有时较慢在某些情况下，Hive执行脚本或查询...

HIVE资料.zip: 1. **HQL语法**：掌握基本的查询语法，如SELECT、JOIN、PARTITION BY等。 2. **Hive元数据管理**：了解如何创建、修改和删除表及分区。 3. **性能优化**：学习如何通过分区、桶、选择合适的数据格式和存储方式来提升...

hive监控巡检优化文档: 定期进行Hive巡检是保障Hive稳定运行的重要手段之一。 - **查看CDH集群-hive-事件** - 检查Cloudera Manager中Hive服务的事件日志，确保没有异常事件发生。 - **查看CDH集群-hive-hive2实例-角色日志** - 通过...

Hive基本操作命令大全: * 从本地文件加载数据：`LOAD DATA LOCAL INPATH '/home/hadoop/input/hive/partitions/file1' INTO TABLE logs PARTITION(dt='2001-01-01', country='GB');` * 从HDFS加载数据：`LOAD DATA INPATH '/user/hadoop/...

Global site tag (gtag.js) - Google Analytics