hive表分区字段需要注意的问题 -

功夫小当家

浏览: 188306 次
性别:
来自: 北京

最近访客更多访客>>

aotianji1238

mangyulin

benleewindy

pengfei1410

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive表分区字段需要注意的问题

博客分类：

hive

hive 分区

近期项目中使用hive做数据统计，创建了一些hive表，在这个过程中，涉及到了设计分区的问题，简单做个总结，以新增表为例：

V1版本：

CREATE TABLE IF NOT EXISTS stat_install(
uuid                string,
ver                 int,
version_code        int,
channel             int,
ipaddr              bigint,
dpi                 int,
device              int,
os                  int,
country             int,
language            string,
province            int,
agent               string,
network             int,
upgrade             int,
install_date        string
) PARTITIONED by (year int, month int, day int, hour int)
ROW format delimited fields terminated by "#";

V2版本：

CREATE TABLE IF NOT EXISTS stat_install(
uuid                string,
ver                 int,
version_code        int,
channel             int,
ipaddr              bigint,
dpi                 int,
device              int,
os                  int,
country             int,
language            string,
province            int,
agent               string,
network             int,
upgrade             int,
install_date        string
) PARTITIONED by (dt string)
ROW format delimited fields terminated by "#";

V1版本，按照year，month，day，hour分区。分区的字段比较细，统计小时任务只需指定 hour = ？；统计天任务只需指定day = ？；年任务 year = ？；看起来不错，但是当跑周任务或者跨天的任务时候，就很难用year，month，day去表示一个时间段了，这时候就需要使用install_date字段取表示范围

例如：查找 2015-01-19 开始一周的数据：

install_date >= '2015-01-19' and install_date < '2015-01-26'；

而install_date并非分区字段，查询起来是非常慢的；而且这样分区还有一个弊端就是文件分的过细；

V2版本，重新按照dt分区，例如：dt = ‘2015-01-19’，这样可以很好地解决跨天的问题，但是小时任务只能根据install_date去做限定。

例如：查找 2015-1-19号 hour = 10 的数据：

 install_date >= '2015-01-19 10:00:00' and install_date < '2015-01-19 11:00:00'

V2版本相对V1，处理数据更方便，如果小时数据比较多，也可以考虑V3版本使用: (dt string, hour int)进行分区。如果涉及海外数据的话，需要考虑时区问题，可以通过设置服务器时区为东八区；或者不想设置时区的话，分区使用时间戳的形式，从统计到前端展示都使用时间差戳。时间戳的缺点是不直观，如果hive中的数据出错，不好排查。

分区方式比较重要，决定了查询的性能，欢迎大家讨论和指教。

分享到：

scala笔记－模式匹配 | DateTime 类常用API

2015-01-22 18:25
浏览 11770
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive表分区字段需要注意的问题

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive表分区字段需要注意的问题

评论

发表评论

相关推荐

hive 支持json格式的表

hql 修改表字段类型

hql 查找非group by字段

最近访客更多访客>>