hive的优化2

雨一直下

浏览: 49805 次
性别:
来自: 北京

最近访客更多访客>>

weicy7600

艾伦蓝

itnull

zhangly2011

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

hive 优化

Hive的优化

        Hive针对不同的查询进行优化，其优化过程可以通过配置进行控制。
    1.列裁剪（Column Pruning）
        在读取数据时，只读取查询中需要用到的列，而忽略其他的列，例如如下查询：
[code="hive]select a,b from t where e<10;
        其中，对于表t包含的5个列（a,b,c,d,e）进行列裁剪，列c和列d将会被忽略掉，执行中只会读取a,b,c列。要实现列裁剪，需要设置参数：

set hive.optimize.cp=true

2.分区裁剪（Partition Pruning）
在查询过程中减少不必要的分区，例如如下查询：

select * from (select c1,count(1) from t group by c1) subq where subq.prtn =100;
select * from t1 join (select * from t2) subq on (t1.c1=t2.c2) where subq.prtn=100;

经过分区裁剪优化的查询，会在子查询中就考虑subq.prtn=100的条件，从而减少读入的分区数目。要实现分区裁剪，须设置：

set hive.optimize.pruner=true

    3.join操作
        当使用有join操作的查询语句时，有一条原则：应该将条数少的表/子查询放在join操作符的左边。原因是在join操作的Reduce阶段，join操作符左边表中的内容会被加载到内存中，将条目少的表放在左边可以有效的减少发生内存溢出的几率。
        对于一条语句中有多个join的情况，如果join的条件相同可以进行优化，比如如下查询：

insert overwrite table pv_users 
 select pv.pageid, u.age from page_view p
 join user u on(pv.userid=u.userid)
 join newuser x on(u.userid=x.userid);

我们可以进行的优化是，如果join的key相同，那么不管有多少表，都会合并为一个MapReduce。如果join的条件不同，比如：

insert overwrite table pv_users
 select pv.pageid,u.age from page_view p
 join user u on (pv.userid=u.userid)
 join newuser x on(u.age=x.age);

如果MapReduce的任务数目和join操作的数据是对应的，那么上述查询和一下查询是等价的：

insert overwrite table tmptable
 select * from page_view p
 join user u on(pv.userid=u.userid);
insert overwrite table pv_users
 select x.pageid,x.age from tmptable x
 join newuser y on(x.age=y.age);

hive中新加字段需要注意如下：

1）如果表中有分区字段，必须先删除分区才能插入数据否则为null;

2）insert override TABLE table1 select counm1,counm2 from table2; counm1,counm2的顺序必须与table1中字段的顺序一致否则为插入的值不对;

分享到：

hadoop2.2安装前64位编译常见错误 | MapReduce任务的优化

2014-07-07 14:42
浏览 854
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive的优化2

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive的优化2

评论

发表评论

相关推荐

hive常见问题

hive的优化1

hive文件压缩存储格式

hive 函数

hive入门知识

shell语句执行hive查询

Hive左连接

安装hive0.12

hive常用命令

最近访客更多访客>>