`
liyonghui160com
  • 浏览: 774592 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive分区操作

    博客分类:
  • hive
阅读更多

 

 

必须在表定义时创建partition

 

a、单分区建表语句:create table day_table (id int, content string) partitioned by (dt string);单分区表,按天分区,在表结构中存在id,content,dt三列。

 

以dt为文件夹区分

 

b、 双分区建表语句:create table day_hour_table (id int, content string) partitioned by (dt string, hour string);双分区表,按天和小时分区,在表结构中新增加了dt和hour两列。

 

先以dt为文件夹,再以hour子文件夹区分

 

 

添加分区表语法(表已创建,在此基础上添加分区):ALTER TABLE table_name ADD

partition_spec [ LOCATION 'location1' ]

partition_spec [ LOCATION 'location2' ] ...

 

ALTER TABLE day_table ADD PARTITION (dt='2008-08-08', hour='08')

location '/path/pv1.txt'

 

 

删除分区语法:ALTER TABLE table_name DROP partition_spec, partition_spec,...

 

用户可以用 ALTER TABLE DROP PARTITION 来删除分区。分区的元数据和数据将被一并删除。例:

ALTER TABLE day_hour_table DROP PARTITION (dt='2008-08-08', hour='09');

 

数据加载进分区表中语法:

LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION (partcol1=val1, partcol2=val2 ...)]

 

例:

LOAD DATA INPATH '/user/pv.txt' INTO TABLE day_hour_table PARTITION(dt='2008-08- 08', hour='08'); LOAD DATA local INPATH '/user/hua/*' INTO TABLE day_hour partition(dt='2010-07- 07');当数据被加载至表中时,不会对数据进行任何转换。Load操作只是将数据复制至Hive表对应的位置。数据加载时在表下自动创建一个目录

基于分区的查询的语句:SELECT day_table.* FROM day_table WHERE day_table.dt>= '2008-08-08';

 

hive查看表分区语句:

hive> show partitions day_hour_table;

OK dt=2008-08-08/hour=08 dt=2008-08-08/hour=09 dt=2008-08-09/hour=09

 

 

分享到:
评论

相关推荐

    修改hive表分区名称

    - 修改Hive表分区名称的过程中,需要谨慎操作,尤其是当涉及到大量数据迁移时,应确保数据的完整性和一致性。 - 在修改完分区名称后,建议再次使用`SHOW PARTITIONS test;`命令来检查所有分区的信息,确保所有操作均...

    hive分区导入

    【标题】:“Hive分区导入”是大数据处理中常见的操作,它涉及到Hadoop生态中的Hive组件,用于高效管理和查询大规模数据。Hive是基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL类...

    hive分区表分通表建表语句详解和例子

    ### Hive 分区表与分桶表详解 #### 一、Hive 分区表概念与应用场景 ...通过对以上Hive分区表的概念、创建方法及管理操作的了解,我们可以更加高效地管理和查询大型数据集,从而提高数据分析的效率和准确性。

    hive数据分区时分区字段不可为中文。.doc

    - **Hive 数据分区**是 Hive 表的一种组织方式,它允许将表中的数据按照某个列(分区键)的值进行划分,存储在不同的目录下。 - 分区有助于提高查询效率,因为当查询指定分区时,Hive 只需要扫描相关的分区,而...

    Hive基本操作命令大全

    Hive基本操作命令大全 Hive是一个基于Hadoop的数据仓库工具,可以使用SQL语言来查询和管理大规模数据。本文档将详细介绍Hive的基本操作命令,从创建表、加载数据、查询数据到数据管理等方面进行整理。 创建表 ...

    大数据实验六实验报告:熟悉Hive的基本操作

    通过这个实验,学生能够掌握Hive的基本操作,包括创建表(内部表和分区表)、数据导入、数据查询以及动态分区的使用,这些都是大数据分析中的关键步骤。同时,了解如何在Windows环境下配置和使用Ubuntu虚拟机,以及...

    Hive的分区表

    Hive分区表 Hive分区表对应的是HDFS上独立的文件夹,该文件夹存放的是该分区的所有数据,其实分区就是分目录。Hive通过分区把一个大的数据集根据业务需要分割成小的数据集,在查询时能够通过where关键词选择指定分区...

    13-Hive基本操作1

    以下是关于Hive基本操作的详细说明: 1. **创建数据库**: 使用`CREATE DATABASE`语句可以创建新的Hive数据库。例如,`CREATE DATABASE DB`将创建一个名为DB的新数据库。如果希望避免因数据库已存在而引发的错误,...

    BLOG_如何将一个普通表转换为分区表.pdf

    在当前的IT行业,数据库管理和优化是重要的一环,尤其在处理大型数据集时,分区技术成为了提高数据管理效率的关键。分区表可以将表中的数据按特定规则分布到不同的物理区域中,从而提高查询效率、简化维护工作以及...

    Hive 基本命令操作1

    在Hive中,分区表是一种优化数据查询的方法,它将大表的数据按照特定的逻辑划分成多个小的、独立的部分,每个部分称为一个分区。通过分区,可以减少查询时需要扫描的数据量,从而提高查询性能。创建分区表的基本语法...

    hive建表操作案例.txt

    hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。hive分桶,分区操作案例实战。学习的好资料。

    spark或mr引擎插入的数据,hive表查询数据为0

    当使用`UNION ALL`操作时,Tez引擎会在原始分区目录下创建一个子目录来存放合并后的数据,而不是直接将数据写入到分区目录中。这种情况下,如果查询引擎没有正确配置来处理这种情况,就会导致无法读取到实际的数据。...

    Hive元数据库操作

    Hive 元数据库操作 Hive 元数据库操作是 Hive 运维中常用的操作之一,它提供了对元数据的管理和查询功能。在 Hive 中,元数据是指对数据的描述信息,如表名、表路径、分区信息、列信息等。下面将对 Hive 元数据库...

    华为面试题集

    C语言是计算机科学的基础,它的核心特性包括低级内存操作、高效性能和强大的系统编程能力。在华为的面试中,C语言的相关题目可能涵盖以下几个方面: 1. **基础语法**:包括变量、常量、数据类型、运算符、流程控制...

    HIVE操作注册表.rar

    开发者需要了解Hive的数据模型、分区策略以及Hadoop集群的运行机制。同时,对于Windows注册表,需要熟悉其结构,如HKEY_LOCAL_MACHINE、HKEY_CURRENT_USER等根键,以及如何安全地读写键值。 综上所述,"HIVE操作...

    大数据学习:Hive数据操作语言.pdf

    动态分区、静态分区和混合分区是Hive数据操作语言的高级操作,用于将数据插入到分区表中。动态分区的语法格式如下: INSERT INTO table_name PARTITION (partcol1=val1, partcol2=val2 ...) VALUES (value1, value2...

    hive 操作相关的测试数据集

    这个测试数据集“hive操作相关的测试数据集hive”显然是为了帮助用户理解和实践Hive的各种操作,包括数据导入、查询、分析和数据导出等。 1. **Hive架构**:Hive的核心组件包括元数据存储、驱动器和编译器。元数据...

    Hive开发规范及要点

    八、Hive命令行操作 1. 执行查询语句:使用`hive -e 'select table_column from table'`语句可以执行查询语句。 2. 执行SQL文件:使用`hive -f hive_sql.sql`语句可以执行SQL文件。 九、插入数据 1. 插入数据:...

    hive实验报告.docx

    实验报告主要涵盖了Hive的安装、配置以及基本操作,包括DDL(Data Definition Language)和DML(Data Manipulation Language)的使用,Hive与MySQL的交互,UDF(User Defined Function)的开发,以及部分调优策略的...

    大数据技术原理及应用课实验6 :熟悉Hive的基本操作

    通过这些操作,我们可以熟练掌握HiveQL的基本语法,如CREATE TABLE、LOAD DATA、INSERT INTO、SELECT等,以及如何利用Hive进行数据分区和复杂查询。此外,实验也强调了Hive在大数据分析中的实用性,特别是在处理大量...

Global site tag (gtag.js) - Google Analytics