`

HIVE 第三章 表分区

阅读更多

3.表篇分区

不用于关系数据库partition中的字段可以不再table中,但是partition中的字段可以如同table中column一样使用这样可以加快查询速度,因为只用查找一个目下文件就可以了这里分区分为单分区partition一个column,多分区partition多个column单分区就一个目录,多分区也是一个目录,并嵌套多个目录

实例:按照 country 和 state 给employee多分区

CREATE TABLE employees (

name STRING,

salary FLOAT,

subordinates ARRAY<STRING>,

deductions MAP<STRING, FLOAT>,

address STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>

)

PARTITIONED BY (country STRING, state STRING);

查看partition

show partitions employees;

SHOW PARTITIONS employees PARTITION(country='US');

添加partition(不区分大小写)

alter table employees add partition(country='US',state='dallas')

alter table employees add partition(country='US',state='dallas') location '/home/hadoop/us-dallas'

alter table employees add partition(country='US',state='dallas') location '/home/hadoop/us-dallas' partition(country='US',state='ca') location '/home/hadoop/us-dallas'

删除partition,分区数据和元数据都被删除

alter table employees drop partition(country='us',state='dallas');

向分区中添加数据

load data inpath '/home/hadoop/resource/dallas' into table employees partition(country='us',state='dallas');

 

分区的属性

set hive.mapred.mode=strict;属性禁止没有where的语句执行在partition的table上(防止数据量巨大得table,执行这样没有限制的语句)

set hive.mapred.mode=nonstrict;

 

 

 

分享到:
评论

相关推荐

    第6章:Hive性能优化及Hive3新特性1

    - **分区表**:为了解决普通表查询时不必要的数据加载问题,Hive引入了分区表。通过将数据按特定字段(通常是时间戳或类别)划分为不同的分区,每个分区对应HDFS上的一个目录。这使得查询时只需处理与条件匹配的...

    大数据Hadoop第八章hive

    MySQL 作为 MetaStore 服务器,用于存储 Hive 的元数据,如表结构、分区信息等。配置 Hive 参数,如设置 HiveServer2 的端口、MetaStore 的连接信息等,是确保 Hive 正常运行的关键步骤。 2. **Hive 库操作与表操作...

    Hive 基本命令操作1

    3. 正常加载数据到分区表 加载数据到分区表通常有两种方式:`LOAD DATA`和`INSERT OVERWRITE`。`LOAD DATA`用于将文件直接加载到指定的分区,而`INSERT OVERWRITE`则可以用于插入单行或多行数据。 ```sql -- 使用...

    第3章 HiveSQL 数据操控、查询语言(DML、DQL)1

    3. `OVERWRITE`:如果使用`OVERWRITE`,Hive会删除目标表或分区的所有现有内容,然后将`filepath`指定的文件或目录内容添加到表或分区中。 举例说明,以下是使用Hive加载数据的步骤: - 创建表:可以创建内部表...

    hive元数据生成建表语句

    3. **第三方工具**:有些第三方工具或脚本库,如Hue、HiveSchemaGenerator等,能够自动化地生成建表语句。 在文件"exportHiveSql"中,可能包含了通过上述方式之一生成的Hive表的建表语句。这些语句会包含CREATE ...

    【63课时完整版】大数据实践HIVE详解及实战

    第3章:Sqoop Sqoop及用户行为分析案例 25.CDH版本框架的介绍 26. CDH版本框架的环境部署 27.Sqoop的介绍及其实现原理 28.Sqoop的安装部署及连接测试 29.Sqoop将MySQL数据导入到HDFS(一) 30.Sqoop将MySQL数据导入...

    hive metastore java api使用

    hive metastore是hive的元数据管理服务,实际应用中很多第三方框架需要访问metastore服务,如spark,impala等。同样hive metastore也提供了java接口。 使用 import org.apache.hadoop.hive.conf.HiveConf; import org...

    hive的安装与配置头歌.zip

    除了基础安装配置,还需要了解一些高级主题,如分区表、桶表、视图、外部表、Hive 与其他大数据组件的集成(如 HBase、Spark、Impala 等)以及性能优化策略。"资料必看.zip" 文件可能包含这些进阶内容,建议仔细阅读...

    Hive用户指南 Hive user guide 中文版

    - **总述**:创建表是使用Hive进行数据分析的第一步。 - **语法**: ```sql CREATE TABLE table_name (col1 data_type [COMMENT col_comment], ... ) [COMMENT table_comment] [PARTITIONED BY (part_col1 data_...

    第12章 Hive1

    - MetaStore存储表结构、列信息、分区信息等元数据,可使用Derby(单用户)或MySQL(多用户)。 4. **工作原理**: - SQL语句经历词法分析、语法分析、逻辑计划生成、逻辑计划优化、物理计划生成、物理计划优化...

    基于Hive的搜狗日志分析

    在这个阶段,我们需要使用Hive来创建分区表,以便于后续的分析。分区表的创建可以确保数据的可靠性和一致性,从而提高后续分析的效率。 三、 数据分析 数据分析是搜狗日志分析的第三步。在这个阶段,我们需要使用...

    大数据运维技术第6章 Hive组件安装配置课件.pptx

    2. 元数据存储:Hive的元数据(如表名、列信息、分区、表属性和数据位置等)通常保存在像MySQL或Derby这样的关系型数据库中,以便于管理和查询。 3. 解释器、编译器、优化器:这些组件负责HQL查询的解析、编译、...

    《Hive数据仓库案例教程》教学大纲.pdf

    4. **Hive数据定义**:讲解如何创建、查询、修改和删除数据库及表,包括分区表和桶表的创建。学生将学会如何设计适合大数据处理的表结构。 5. **Hive数据操作**:这部分涵盖数据的插入、更新和删除操作,以及数据...

    Hive简明教程-大数据技术系列

    第三部分,教程会涉及Hive的技术细节,如Hive的表类型(Managed Table与External Table)、数据存储格式(如TextFile、SequenceFile、ORC和Parquet)以及Hive与HBase的集成。你将学习到如何根据实际需求选择合适的表...

    大数据之Hive官方文档简要翻译(中文文档)

    在Hive的核心组件中,元存储(Metastore)扮演着至关重要的角色,它是Hive与数据之间的重要桥梁,存储了所有表和分区的元数据。 元存储是Hive用来存储关于表和分区信息的地方,如表结构、列信息、分区信息等。这些...

    Cloudera Hive 文档

    3. **表和分区**:Hive 中的表可以分为分区表和非分区表。分区是一种优化查询的方法,通过将大表按照一个或多个字段划分为逻辑上的小块,加快查询速度。例如,根据日期进行分区,可以快速定位到特定时间范围的数据。...

    hive执行计划可视化工具

    - **Beeline或Hive CLI增强工具**:有些第三方工具可以增强Hive的命令行接口,添加执行计划的可视化功能。 压缩包文件列表中的"dist"可能是工具的分发目录,其中可能包含可执行文件、配置文件和其他支持文件,用于...

    hive安装

    - 使用索引:虽然Hive原生不支持索引,但可通过第三方工具如Hive-Indexer实现。 - 使用Tez或Spark执行引擎:替代默认的MapReduce,提高执行效率。 **6. 性能监控与调优** 通过Hive提供的Web UI或Hadoop的日志监控...

    hive原理1介绍

    - **分区**(Partition):Hive允许根据某个列的值将表中的数据划分到多个独立的目录中。这种机制对于提高查询性能非常有效,特别是当数据量巨大时。 - **桶**(Bucket):通过将数据分成较小的部分(桶),Hive可以...

    hive词法语法分析草稿0.3

    第三章总体概览则更深入地介绍了Hive的架构。官方架构图展示了Hive系统的各个组件及其交互方式,如Metastore、Driver、Compiler、Executor等。流程处理图描绘了用户查询从提交到执行的整个生命周期,包括编译、优化...

Global site tag (gtag.js) - Google Analytics