hive学习总结(5)—分区、分桶和索引

cumtheima

浏览: 257306 次
性别:
来自: 南京

最近访客更多访客>>

hicl3003

xiaohou12345

lw671579557

yiduwangkai

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive

hive 分区分桶索引

1.分区

分区是以字段的形式在表结构中存在，通过describe table命令可以查看到字段存在，但是该字段不存放实际的数据内容，仅仅是分区的表示（伪列）。

（1）静态分区

create table if not exists sopdm.wyp2(id int,name string,tel string)

partitioned by(age int)

row format delimited

fields terminated by ','

stored as textfile;

--overwrite是覆盖，into是追加

insert into table sopdm.wyp2

partition(age='25')

select id,name,tel from sopdm.wyp;

（2）动态分区

--设置为true表示开启动态分区功能（默认为false）

set hive.exec.dynamic.partition=true;

--设置为nonstrict,表示允许所有分区都是动态的（默认为strict）

set hive.exec.dynamic.partition.mode=nonstrict;

--insert overwrite是覆盖，insert into是追加

set hive.exec.dynamic.partition.mode=nonstrict;

insert overwrite table sopdm.wyp2

partition(age)

select id,name,tel,age from sopdm.wyp;

2. 分桶

CREATE TABLE bucketed_user (id INT) name STRING)

CLUSTERED BY (id) INTO 4 BUCKETS;

对于每一个表（table）或者分区， Hive可以进一步组织成桶，也就是说桶是更为细粒度的数据范围划分。Hive也是针对某一列进行桶的组织。Hive采用对列值哈希，然后除以桶的个数求余的方式决定该条记录存放在哪个桶当中。

把表（或者分区）组织成桶（Bucket）有两个理由：

（1）获得更高的查询处理效率。桶为表加上了额外的结构，Hive 在处理有些查询时能利用这个结构。具体而言，连接两个在（包含连接列的）相同列上划分了桶的表，可以使用 Map 端连接（Map-side join）高效的实现。比如JOIN操作。对于JOIN操作两个表有一个相同的列，如果对这两个表都进行了桶操作。那么将保存相同列值的桶进行JOIN操作就可以，可以大大较少JOIN的数据量。

（2）使取样（sampling）更高效。在处理大规模数据集时，在开发和修改查询的阶段，如果能在数据集的一小部分数据上试运行查询，会带来很多方便。

3.索引

索引可以加快含有group by语句的查询的计算速度

create index employees_index on table employees(country)

as 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'

with deferred rebuild

in table employees_index_table ;

1
顶

1
踩

分享到：

hive学习总结(6)—hive参数设置方法 | hive学习总结(4)—hive中所有join

2014-11-23 00:27
浏览 11641
评论(2)
分类:开源软件
查看更多

2 楼 icecloudsky 2016-11-04

1 楼 cumtheima 2014-11-24

文章不错，有待进步！

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论