hive metastore

aileqiang

浏览: 7547 次
性别:
来自: 杭州

最近访客更多访客>>

woodding2008

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hadoop

hive

hive是基于Hadoop的一个数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供完整的sql查询功能 ,

hive使用hivesql 将hivesql 解析真正mapReduce job 的转化,以及job优化, 执行统统有hvieParser,Planner,Optimizer组件完成,,个人的理解hivesql 解析器就就是一个"虚拟机" 但不负责的job执行

从hive的整体结构(图片来源:hadoop in action)可以了解hive的组件结构和组件.

交互连接方式:

Web GUI : HWI用户交互界面,和hivesQl交互, 通过metastore 取到元数据信息,提交HIVESQL query 到 Parser, Planner, Optimizer.

hiveServer http://hivehost:9999/hwi/

JDBC/ODBC: 通过DataBase Connectivity交互, 通过metastore 取到元数据信息,提交HIVESQL query 到 Parser, Planner, Optimizer.

CLI : command line interface , eg: linux 控制台 ,通过shell提交hivesql .,通过metastore 取到元数据信息,提交HIVESQL query 到 Parser, Planner, Optimizer.

元数据存储:

MeteStore : hive 数据仓库的元数据存储,内容 schema information ,通常是一个关系数据库, 采用mysql derby 等几种存储方式.主要HIVE的数据管理工作,

通常有如下几种方式

1 使用derby数据库存储元数据. 单用户环境.使用derby存储方式时，运行hive会在当前目录生成一个derby文件和一个metastore_db目录。这种存储方式的弊端是在同一个目录下同时只能有一个hive客户端能使用数据库
2 使用本机mysql服务器存储元数据,这种存储方式需要在本地运行一个mysql服务器，并需要将mysql的jar包拷贝到$HIVE_HOME/lib目录下

<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/hive_remote/warehouse</value>
</property>
 
<property>
  <name>hive.metastore.local</name>
  <value>true</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>root</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>xxxx</value>
</property>

3 使用远端mysql服务器存储元数据。这种存储方式需要在远端服务器运行一个mysql服务器，并且需要在Hive服务器启动meta服务
hive服务器端配置如下

<property>
  <name>hive.metastore.warehouse.dir</name>
  <value>/user/hive_remote/warehouse</value>
</property>
 
  <name>javax.jdo.option.ConnectionURL</name>
  <value>jdbc:mysql://localhost/hive_remote?createDatabaseIfNotExist=true</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionDriverName</name>
  <value>com.mysql.jdbc.Driver</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionUserName</name>
  <value>root</value>
</property>
 
<property>
  <name>javax.jdo.option.ConnectionPassword</name>
  <value>xxxx</value>
</property>

Hive客户端配置如下。

<property>
       <name>hive.metastore.warehouse.dir</name>
        <value>/user/hive_remote/warehouse</value>
</property>
 
<property>
  <name>hive.metastore.local</name>
  <value>false</value>
</property>
 
<property>
  <name>hive.metastore.uris</name>
  <value>thrift://remoteSever:9083</value>
</property>

metastore 存储了hive 数据仓库的元数据 , 那这些元数据如何维护? 如何建表呢

说道这里, 首先先搞清楚几个概念,

MetaData : 元数据,(data about data )关于数据的数据, 可以理解为,对数据库对象结构的描述 ,表有那些column 数据列的类型. ,数据存储地址, 大小限制等描述.

hive 利用meta Info 和DDL 管理数据.

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name  
  [(col_name data_type [COMMENT col_comment], ...)]  
  [COMMENT table_comment]  
  [PARTITIONED BY (col_name data_type [COMMENT col_comment], ...)]  
  [CLUSTERED BY (col_name, col_name, ...) [SORTED BY (col_name [ASC|DESC], ...)] INTO num_buckets BUCKETS]  
  [  
   [ROW FORMAT row_format] [STORED AS file_format]  
   | STORED BY 'storage.handler.class.name' [ WITH SERDEPROPERTIES (...) ]  (Note:  only available starting with 0.6.0)  
  ]  
  [LOCATION hdfs_path]  
  [TBLPROPERTIES (property_name=property_value, ...)]  (Note:  only available starting with 0.6.0)  
  [AS select_statement]  (Note: this feature is only available starting with 0.5.0.)

CREATE TABLE 创建一个指定名字的表。如果相同名字的表已经存在，则抛出异常；用户可以用 IF NOT EXIST 选项来忽略这个异常。

EXTERNAL 关键字可以让用户创建一个外部表，在建表的同时指定一个指向实际数据的路径（LOCATION），Hive 创建内部表时，会将数据移动到数据仓库指向的路径；若创建外部表，仅记录数据所在的路径，不对数据的位置做任何改变。在删除表的时候，内部表的元数据和数据会被一起删除，而外部表只删除元数据，不删除数据。

LIKE 允许用户复制现有的表结构，但是不复制数据

用户在建表的时候可以自定义 SerDe 或者使用自带的 SerDe。如果没有指定 ROW FORMAT 或者 ROW FORMAT DELIMITED，将会使用自带的 SerDe。在建表的时候，用户还需要为表指定列，用户在指定表的列的同时也会指定自定义的 SerDe，Hive 通过 SerDe 确定表的具体的列的数据。

如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCE 。

有分区的表可以在创建的时候使用 PARTITIONED BY 语句。一个表可以拥有一个或者多个分区，每一个分区单独存在一个目录下。而且，表和分区都可以对某个列进行 CLUSTERED BY 操作，将若干个列放入一个桶（bucket）中。

利用SORT BY 对数据进行排序。这样可以为特定应用提高性能。表名和列名不区分大小写，SerDe 和属性名区分大小写。表和列的注释是字符串。