Hive的数据存储模式

phrmgb

浏览: 67582 次
性别:
来自: 北京

最近访客更多访客>>

rq204

wq飞过

FLAYSTRAY

idea_zhenjiang

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

Hive的数据分为表数据和元数据，表数据是Hive中表格（table）具有的数据；而元数据是用来存储表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。下面分别来介绍。

　　一、Hive的数据存储
　　在《Hive到底是什么》博文中我们提到Hive是基于Hadoop分布式文件系统的，它的数据存储在Hadoop分布式文件系统中。Hive本身是没有专门的数据存储格式，也没有为数据建立索引，只需要在创建表的时候告诉Hive数据中的列分隔符和行分隔符，Hive就可以解析数据。所以往Hive表里面导入数据只是简单的将数据移动到表所在的目录中（如果数据是在HDFS上；但如果数据是在本地文件系统中，那么是将数据复制到表所在的目录中）。
　　Hive中主要包含以下几种数据模型：Table（表），External Table（外部表），Partition（分区），Bucket（桶）（本博客会专门写几篇博文来介绍分区和桶）。
　　1、表：Hive中的表和关系型数据库中的表在概念上很类似，每个表在HDFS中都有相应的目录用来存储表的数据，这个目录可以通过${HIVE_HOME}/conf/hive-site.xml配置文件中的hive.metastore.warehouse.dir属性来配置，这个属性默认的值是/user/hive/warehouse（这个目录在HDFS上），我们可以根据实际的情况来修改这个配置。如果我有一个表wyp，那么在HDFS中会创建/user/hive/warehouse/wyp目录（这里假定hive.metastore.warehouse.dir配置为/user/hive/warehouse）；wyp表所有的数据都存放在这个目录中。这个例外是外部表。
　　2、外部表：Hive中的外部表和表很类似，但是其数据不是放在自己表所属的目录中，而是存放到别处，这样的好处是如果你要删除这个外部表，该外部表所指向的数据是不会被删除的，它只会删除外部表对应的元数据；而如果你要删除表，该表对应的所有数据包括元数据都会被删除。
　　3、分区：在Hive中，表的每一个分区对应表下的相应目录，所有分区的数据都是存储在对应的目录中。比如wyp表有dt和city两个分区，则对应dt=20131218,city=BJ对应表的目录为/user/hive/warehouse/dt=20131218/city=BJ，所有属于这个分区的数据都存放在这个目录中。
　　4、桶：对指定的列计算其hash，根据hash值切分数据，目的是为了并行，每一个桶对应一个文件（注意和分区的区别）。比如将wyp表id列分散至16个桶中，首先对id列的值计算hash，对应hash值为0和16的数据存储的HDFS目录为：/user/hive/warehouse/wyp/part-00000；而hash值为2的数据存储的HDFS 目录为：/user/hive/warehouse/wyp/part-00002。
　　来看下Hive数据抽象结构图

Data Abstractions in Hive

从上图可以看出，表是在数据库下面，而表里面又要分区、桶、倾斜的数据和正常的数据等；分区下面也是可以建立桶的。
　　二、Hive的元数据
　　Hive中的元数据包括表的名字，表的列和分区及其属性，表的属性（是否为外部表等），表的数据所在目录等。由于Hive的元数据需要不断的更新、修改，而HDFS系统中的文件是多读少改的，这显然不能将Hive的元数据存储在HDFS中。目前Hive将元数据存储在数据库中，如Mysql、Derby中。我们可以通过以下的配置来修改Hive元数据的存储方式

01
<property>

02

  <name>javax.jdo.option.ConnectionURL</name>

03

  <value>jdbc:mysql://localhost:3306/hive_hdp?characterEncoding=UTF-8

04

                    &createDatabaseIfNotExist=true</value>

05

  <description>JDBC connect string for a JDBC metastore</description>

06
</property>

07

08
<property>

09

  <name>javax.jdo.option.ConnectionDriverName</name>

10

  <value>com.mysql.jdbc.Driver</value>

11

  <description>Driver class name for a JDBC metastore</description>

12
</property>

13

14
<property>

15

  <name>javax.jdo.option.ConnectionUserName</name>

16

  <value>root</value>

17

  <description>username to use against metastore database</description>

18
</property>

19

20
<property>

21

  <name>javax.jdo.option.ConnectionPassword</name>

22

  <value>123456</value>

23

  <description>password to use against metastore database</description>

24
</property>