•创建数据文件test_partition_table.txt
•创建表
•create table test_partition_table (key string) partitioned by (dt string)
•加载数据
•LOAD DATA INPATH ‘filepath’ INTO TABLE test_partition_table partition (dt=‘2006’)
•查看数据
•select * from test_partition_table
•select count(*) from test_partition_table
•删除表 drop table test_partition_table
外部表
•指向已经在 HDFS 中存在的数据,可以创建 Partition
•它和 内部表 在元数据的组织上是相同的,而实际数据的存储则有较大的差异
•内部表 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除
• 外部表 只有一个过程,加载数据和创建表同时完成,并不会移动到数据仓库目录中,只是与外部数据建立一个链接。当删除一个 外部表 时,仅删除该链接
外部表简单示例
•创建数据文件test_external_table.txt
•创建表
•create external table test_external_table (key string)
•加载数据
•LOAD DATA INPATH ‘filepath’ INTO TABLE test_inner_table
•查看数据
•select * from test_external_table
•select count(*) from test_external_table
•删除表 drop table test_external_table
Bucket Table
•可以将表的列通过Hash算法进一步分解成不同的文件存储
•例如:将age列分散成20个文件,首先要对AGE进行Hash计算,对应为0的写入/warehouse/test/date=20120801/postion=zh/part-00000,对应为1的写入/warehouse/test/date=20120801/postion=zh/part-00001
•如果想应用很多的Map任务这样是不错的选择
Bucket Table简单示例
•创建数据文件test_bucket_table.txt
•创建表
•create table test_bucket_table (key string)
clustered by (key) into 20 buckets
•加载数据
•LOAD DATA INPATH ‘filepath’ INTO TABLE test_bucket_table
•查看数据
•select * from test_bucket_table
•set hive.enforce.bucketing = true;
Hive的数据模型-视图
•视图与传统数据库的视图类似
•视图是只读的
•视图基于的基本表,如果改变,指增加不会影响视图的呈现;如果删除,会出现问题
•如果不指定视图的列,会根据select语句后的生成
•示例
•create view test_view as select * from test
第七部分:HiveUI介绍
启动UI
•配置
•hive-site.xml 添加
<property>
<name>hive.hwi.war.file</name>
<value>lib/hive-hwi-0.8.1.war</value>
</property>
•
•启动Hive的UI sh $HIVE_HOME/bin/hive --service hwi
相关推荐
【Hive 优化——深入浅出学 Hive】 在大数据领域,Hive 是一个不可或缺的工具,主要用于数据仓库和商业智能(BI)分析。虽然它的主要操作是通过 SQL 进行,但理解其内部原理和优化策略对于提升集群执行效率至关重要...
**Java私塾:深入浅出学Hive——Hive Shell基本操作** 在大数据处理领域,Apache Hive 是一种基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(HiveQL)来管理和处理存储在 HDFS 上的大量数据。...
Hive学习必备——配置Hive环境教程 在这篇文章中,我们将详细介绍如何配置Hive环境,包括安装Hive、配置Hadoop环境、配置Hive Metastore数据库等步骤。同时,我们还将使用Xshell6工具来远程连接到Hive服务器,并...
Hive是基于Hadoop的一个数据仓库工具,用于将结构化...初学者可以从Hive的安装配置和使用开始,逐步深入到Hive体系结构、HiveQL的使用、Hive函数、高级编程以及Hive的优化等方面,以达到深入理解并熟练使用Hive的目标。
标题中提到的“HDP平台的Hive性能调优——Hive高性能最佳实践”涉及Hadoop发行版平台(HDP)上Apache Hive的性能优化。Apache Hive是一个构建在Hadoop上的数据仓库工具,它允许用户通过类SQL语言HiveQL来对大数据...
【深入浅出 Hive】 Hive 是一款基于 Hadoop 的数据仓库工具,它的主要目标是提供对大规模分布式存储在 HDFS 上的数据集进行便捷的查询和分析能力。Hive 提供了类 SQL 的查询语言——HiveQL(HQL),使得熟悉 SQL 的...
本教程将深入探讨Hive数仓的架构与设计,Hive SQL的基本语法及高级特性,以及如何自定义函数以满足特定需求,并详细解析Hive的重要参数配置。 1. Hive数仓: - 数据仓库概念:数据仓库是为决策支持系统设计的,...
支持hive 源数据、表结构导出
图1.1Hive体系结构(1)用户接口主要有三个:CLI,Client和WUI。其中最常用的是CLI,Cli启动的时候,会同时启动一个Hive副本。Client是Hive的客户端,用户连接至HiveServer。在启动Client模式的时候,需要指出...
### 深入浅出Hive企业级架构优化 #### Hive概述 Apache Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,使不熟悉 MapReduce 的开发人员也能用 ...
其中,元数据库在Hive系统中扮演着核心角色,它存储了关于Hive对象的所有元信息,如表结构、分区、列信息等。本文将深入探讨Hive元数据库的原理和功能,以及与传统关系数据库的异同。 首先,Hive的元数据存储在...
6. **数据仓库**:Hive将Hadoop转变为一个数据仓库,通过元数据(metadata)管理数据表结构,使得数据的组织和查询更加有序和高效。 7. **ETL支持**:Hive也支持数据的提取、转换和加载(ETL)过程,使得数据清洗和...
深入浅出Hive企业级架构优化、Hive Sql优化,视频!!!
《Hadoop深入浅出之Hive介绍》 Hive,作为大数据处理的重要工具,是建立在Hadoop生态系统上的数据仓库框架。它旨在提供一个简单、SQL-like的查询语言HiveQL,使得熟悉SQL的用户无需深入理解MapReduce的复杂性,也能...
Hive 提供了一个类似 SQL 的查询语言——HiveQL,使得非 MapReduce 开发者也能方便地进行大数据分析。此外,Hive 还允许 MapReduce 开发人员通过编写自定义的 mapper 和 reducer 来执行更复杂的计算任务。 **1. ...
通过shell脚本,批量把一个库下面的表结构全部导出,在开发环境执行过。
《Hive与普通关系数据库的异同》 Hive与普通关系数据库,如MySQL、Oracle等,在设计理念、功能特性和应用场景上存在着显著的差异。以下将详细解析它们之间的主要区别。 1. **查询语言**: Hive采用了类SQL的查询...
课程特色在于理论与实践相结合,通过深入浅出的讲解和动手实操,让学员能够全面理解Hive的内部机制。课程内容包括Hadoop的四大核心技术——HDFS、MapReduce、HBase和Hive,以及Hive集群的搭建、管理和监控。此外,...