[一起学Hive]之十四-Hive的元数据表结构详解

superlxw1234

浏览: 555431 次
性别:
来自: 西安

最近访客更多访客>>

huageng520

rattersnake

yuanyuan7891

ticojj

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hive入门
浏览量：44990

文章分类

社区版块

存档分类

博客分类：

hive

hive hive元数据结构

关键字：Hive元数据、Hive元数据表结构

之前在 “[一起学Hive]之一–Hive概述，Hive是什么”中介绍过，Hive自己维护了一套元数据，用户通过HQL查询时候，Hive首先需要结合元数据，将HQL翻译成MapReduce去执行。

本文介绍一下Hive元数据中重要的一些表结构及用途，以Hive0.13为例。

文章最后面，会以一个示例来全面了解一下，Hive的元数据是怎么生成和存储的。

13.1 存储Hive版本的元数据表（VERSION）

该表比较简单，但很重要。

VER_ID	SCHEMA_VERSION	VERSION_COMMENT
ID主键	Hive版本	版本说明
1	0.13.0	Set by MetaStore

如果该表出现问题，根本进入不了Hive-Cli。

比如该表不存在，当启动Hive-Cli时候，就会报错”Table ‘hive.version’ doesn’t exist”。

13.2 Hive数据库相关的元数据表（DBS、DATABASE_PARAMS）

该表存储Hive中所有数据库的基本信息，字段如下：

元数据表字段	说明	示例数据
DB_ID	数据库ID	2
DESC	数据库描述	测试库
DB_LOCATION_URI	数据库HDFS路径	hdfs://namenode/user/hive/warehouse/lxw1234.db
NAME	数据库名	lxw1234
OWNER_NAME	数据库所有者用户名	lxw1234
OWNER_TYPE	所有者角色	USER

DATABASE_PARAMS

该表存储数据库的相关参数，在CREATE DATABASE时候用

WITH DBPROPERTIES (property_name=property_value, …)指定的参数。

元数据表字段	说明	示例数据
DB_ID	数据库ID	2
PARAM_KEY	参数名	createdby
PARAM_VALUE	参数值	lxw1234

DBS和DATABASE_PARAMS这两张表通过DB_ID字段关联。

13.3 Hive表和视图相关的元数据表

主要有TBLS、TABLE_PARAMS、TBL_PRIVS，这三张表通过TBL_ID关联。

TBLS

该表中存储Hive表、视图、索引表的基本信息。

元数据表字段	说明	示例数据
TBL_ID	表ID	1
CREATE_TIME	创建时间	1436317071
DB_ID	数据库ID	2，对应DBS中的DB_ID
LAST_ACCESS_TIME	上次访问时间	1436317071
OWNER	所有者	liuxiaowen
RETENTION	保留字段	0
SD_ID	序列化配置信息	86，对应SDS表中的SD_ID
TBL_NAME	表名	lxw1234
TBL_TYPE	表类型	MANAGED_TABLE、EXTERNAL_TABLE、INDEX_TABLE、VIRTUAL_VIEW
VIEW_EXPANDED_TEXT	视图的详细HQL语句	select `lxw1234`.`pt`, `lxw1234`.`pcid` from `liuxiaowen`.`lxw1234`
VIEW_ORIGINAL_TEXT	视图的原始HQL语句	select * from lxw1234

TABLE_PARAMS

该表存储表/视图的属性信息。

元数据表字段	说明	示例数据
TBL_ID	表ID	1
PARAM_KEY	属性名	totalSize、numRows、EXTERNAL
PARAM_VALUE	属性值	970107336、21231028、TRUE

TBL_PRIVS

该表存储表/视图的授权信息

元数据表字段	说明	示例数据
TBL_GRANT_ID	授权ID	1
CREATE_TIME	授权时间	1436320455
GRANT_OPTION		0
GRANTOR	授权执行用户	liuxiaowen
GRANTOR_TYPE	授权者类型	USER
PRINCIPAL_NAME	被授权用户	username
PRINCIPAL_TYPE	被授权用户类型	USER
TBL_PRIV	权限	Select、Alter
TBL_ID	表ID	22，对应TBLS表中的TBL_ID

13.4 Hive文件存储信息相关的元数据表

主要涉及SDS、SD_PARAMS、SERDES、SERDE_PARAMS

由于HDFS支持的文件格式很多，而建Hive表时候也可以指定各种文件格式，Hive在将HQL解析成MapReduce时候，需要知道去哪里，使用哪种格式去读写HDFS文件，而这些信息就保存在这几张表中。

该表保存文件存储的基本信息，如INPUT_FORMAT、OUTPUT_FORMAT、是否压缩等。

TBLS表中的SD_ID与该表关联，可以获取Hive表的存储信息。

元数据表字段	说明	示例数据
SD_ID	存储信息ID	1
CD_ID	字段信息ID	21，对应CDS表
INPUT_FORMAT	文件输入格式	org.apache.hadoop.mapred.TextInputFormat
IS_COMPRESSED	是否压缩	0
IS_STOREDASSUBDIRECTORIES	是否以子目录存储	0
LOCATION	HDFS路径	hdfs://namenode/hivedata/warehouse/ut.db/t_lxw
NUM_BUCKETS	分桶数量	5
OUTPUT_FORMAT	文件输出格式	org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat
SERDE_ID	序列化类ID	3，对应SERDES表

SD_PARAMS

该表存储Hive存储的属性信息，在创建表时候使用

STORED BY ‘storage.handler.class.name’ [WITH SERDEPROPERTIES (…)指定。

元数据表字段	说明	示例数据
SD_ID	存储配置ID	1
PARAM_KEY	存储属性名
PARAM_VALUE	存储属性值

SERDES

该表存储序列化使用的类信息

元数据表字段	说明	示例数据
SERDE_ID	序列化类配置ID	1
NAME	序列化类别名
SLIB	序列化类	org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe

SERDE_PARAMS

该表存储序列化的一些属性、格式信息,比如：行、列分隔符

元数据表字段	说明	示例数据
SERDE_ID	序列化类配置ID	1
PARAM_KEY	属性名	field.delim
PARAM_VALUE	属性值	,

13.5 Hive表字段相关的元数据表

主要涉及COLUMNS_V2

COLUMNS_V2

该表存储表对应的字段信息。

元数据表字段	说明	示例数据
CD_ID	字段信息ID	1
COMMENT	字段注释
COLUMN_NAME	字段名	pt
TYPE_NAME	字段类型	string
INTEGER_IDX	字段顺序	2

13.6 Hive表分区相关的元数据表

主要涉及PARTITIONS、PARTITION_KEYS、PARTITION_KEY_VALS、PARTITION_PARAMS

PARTITIONS

该表存储表分区的基本信息。

元数据表字段	说明	示例数据
PART_ID	分区ID	1
CREATE_TIME	分区创建时间
LAST_ACCESS_TIME	最后一次访问时间
PART_NAME	分区名	pt=2015-06-12
SD_ID	分区存储ID	21
TBL_ID	表ID	2

PARTITION_KEYS

该表存储分区的字段信息。

元数据表字段	说明	示例数据
TBL_ID	表ID	2
PKEY_COMMENT	分区字段说明
PKEY_NAME	分区字段名	pt
PKEY_TYPE	分区字段类型	string
INTEGER_IDX	分区字段顺序	1

PARTITION_KEY_VALS

该表存储分区字段值。

元数据表字段	说明	示例数据
PART_ID	分区ID	2
PART_KEY_VAL	分区字段值	2015-06-12
INTEGER_IDX	分区字段值顺序	0

PARTITION_PARAMS

该表存储分区的属性信息。

元数据表字段	说明	示例数据
PART_ID	分区ID	2
PARAM_KEY	分区属性名	numFiles、numRows
PARAM_VALUE	分区属性值	15、502195

13.6 其他不常用的元数据表

DB_PRIVS

数据库权限信息表。通过GRANT语句对数据库授权后，将会在这里存储。

IDXS

索引表，存储Hive索引相关的元数据

INDEX_PARAMS

索引相关的属性信息。

TAB_COL_STATS

表字段的统计信息。使用ANALYZE语句对表字段分析后记录在这里。

TBL_COL_PRIVS

表字段的授权信息

PART_PRIVS

分区的授权信息

PART_COL_STATS

分区字段的统计信息。

PART_COL_PRIVS

分区字段的权限信息。

FUNCS

用户注册的函数信息

FUNC_RU

用户注册函数的资源信息

13.6 示例

建表语句：

    CREATE TABLE lxw1234 (
    cookieid STRING,
    url STRING,
    ua STRING,
    ip STRING,
    createtime STRING
    )
    COMMENT 'This is the page view table'
    partitioned BY (day STRING,site STRING)
    ROW FORMAT DELIMITED
    FIELDS TERMINATED BY ','
    stored AS ORC;

建表执行之后，元数据中以下表的数据会有所变化：

TBLS

生成了表lxw1234的基本信息

SELECT * FROM TBLS WHERE TBL_NAME = ‘lxw1234’;

元数据表字段	数据
TBL_ID	41509
CREATE_TIME	1436324659
DB_ID	11
LAST_ACCESS_TIME	0
OWNER	liuxiaowen
RETENTION	0
SD_ID	91740
TBL_NAME	lxw1234
TBL_TYPE	MANAGED_TABLE
VIEW_EXPANDED_TEXT	NULL
VIEW_ORIGINAL_TEXT	NULL

TABLE_PARAMS

select * from TABLE_PARAMS WHERE TBL_ID=41509

TBL_ID	PARAM_KEY	PARAM_VALUE
41509	comment	This is the page view table
41509	transient_lastDdlTime	1436324659

SELECT * FROM SDS WHERE SD_ID = 91740

元数据表字段	数据
SD_ID	91740
CD_ID	41564
INPUT_FORMAT	org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
IS_COMPRESSED	0
IS_STOREDASSUBDIRECTORIES	0
LOCATION	hdfs://namenode/hivedata/warehouse/liuxiaowen.db/lxw1234
NUM_BUCKETS	-1
OUTPUT_FORMAT	org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
SERDE_ID	91740

SERDES

select * from SERDES WHERE SERDE_ID = 91740

元数据表字段	数据
SERDE_ID	91740
NAME
SLIB	org.apache.hadoop.hive.ql.io.orc.OrcSerde

SERDE_PARAMS

select * from SERDE_PARAMS WHERE SERDE_ID=91740

SERDE_ID	PARAM_KEY	PARAM_VALUE
91740	field.delim	,
91740	serialization.format	,

COLUMNS_V2

select * from COLUMNS_V2 WHERE CD_ID=41564 ORDER BY INTEGER_IDX

CD_ID	COMMENT	COLUMN_NAME	TYPE_NAME	INTEGER_IDX
41564		cookieid	string	0
41564		url	string	1
41564		ua	string	2
41564		ip	string	3
41564		createtime	string	4

PARTITION_KEYS

select * from PARTITION_KEYS WHERE TBL_ID=41509

TBL_ID	PKEY_COMMENT	PKEY_NAME	PKEY_TYPE	INTEGER_IDX
41509		day	string	0
41509		site	string	1

再插入数据：

INSERT OVERWRITE TABLE lxw1234 PARTITION (day = '2015-07-08', site = 'lxw1234.com')
SELECT
'cookie1' AS cookieid,
'http://lxw1234.com' AS url,
'firefox' AS ua,
'127.0.0.1' AS ip,
'2015-07-08 11:00:01' AS createtime
FROM dual
limit 1;

插入数据执行完之后，以下表的元数据发生变化：

PARTITIONS

select * from `PARTITIONS` WHERE TBL_ID=41509

PART_ID	CREATE_TIME	LAST_ACCESS_TIME	PART_NAME	SD_ID	TBL_ID
54472	1436325812	0	day=2015-07-08/site=lxw1234.com	91746	41509

select * from SDS WHERE SD_ID=91746

注意：这里的存储和表的存储是不同的，因为每个分区也会有一个SD

元数据表字段	数据
SD_ID	91746
CD_ID	41564
INPUT_FORMAT	org.apache.hadoop.hive.ql.io.orc.OrcInputFormat
IS_COMPRESSED	0
IS_STOREDASSUBDIRECTORIES	0
LOCATION	hdfs://namenode/hivedata/warehouse/liuxiaowen.db/lxw1234/day=2015-07-08/site=lxw1234.com
NUM_BUCKETS	-1
OUTPUT_FORMAT	org.apache.hadoop.hive.ql.io.orc.OrcOutputFormat
SERDE_ID	91746

PARTITION_KEY_VALS

select * from PARTITION_KEY_VALS where PART_ID=54472

PART_ID	PART_KEY_VAL	INTEGER_IDX
54472	2015-07-08	0
54472	lxw1234.com	1

PARTITION_PARAMS

select * from PARTITION_PARAMS where PART_ID = 54472

PART_ID	PARAM_KEY	PARAM_VALUE
54472	COLUMN_STATS_ACCURATE	true
54472	numFiles	1
54472	numRows	1
54472	rawDataSize	408
54472	totalSize	703
54472	transient_lastDdlTime	1436325813