hive动态分区遇到的一个错误

superlxw1234

浏览: 554734 次
性别:
来自: 西安

最近访客更多访客>>

huageng520

rattersnake

yuanyuan7891

ticojj

博主相关

博客

微博

相册

留言

关于我

博客专栏

: Hive入门
浏览量：44892

文章分类

社区版块

存档分类

博客分类：

hive

hive 动态分区

原SQL：

insert overwrite table in_yuncheng_tbshelf partition (pt) 
select userid, bookid, bookname, createts, rpid, addts, updatets, isdel, rcid, category_type, wapbookmarks, addmarkts, readingchapterid, readpercentage, readingts, 
substring(addts,0,10) as pt from search_product.yuncheng_tbshelf where pt>='2012-09-01'

报错：

[Fatal Error] Operator FS_3 (id=3): Number of dynamic partitions exceeded hive.exec.max.dynamic.partitions.pernode.. Killing the job.

hive.exec.max.dynamic.partitions.pernode （缺省值100）：

每一个mapreduce job允许创建的分区的最大数量，如果超过了这个数量就会报错

hive.exec.max.dynamic.partitions （缺省值1000）：一个dml语句允许创建的所有分区的最大数量

hive.exec.max.created.files （缺省值100000）：所有的mapreduce job允许创建的文件的最大数量

当源表数据量很大时，单独一个mapreduce job中生成的数据在分区列上可能很分散，举个简单的例子，比如下面的表要用3个map：

如果数据这样分布，那每个mapreduce只需要创建1个分区就可以了：

map1 --> |1

map2 --> |2

map3 --> |3

但是如果数据按下面这样分布，那第一个mapreduce就要创建3个分区：

map1 --> |2

map2 --> |2

map3 --> |2

为了让分区列的值相同的数据尽量在同一个mapreduce中，

这样每一个mapreduce可以尽量少的产生新的文件夹，可以借助distribute by的功能，将分区列值相同的数据放到一起：

insert overwrite table in_yuncheng_tbshelf partition (pt) 
select userid, bookid, bookname, createts, rpid, addts, updatets, isdel, rcid, category_type, wapbookmarks, addmarkts, readingchapterid, readpercentage, readingts, 
substring(addts,0,10) as pt from search_product.yuncheng_tbshelf where pt>='2012-09-01' 
distribute by substring(addts,0,10)

另外，调大hive.exec.max.dynamic.partitions.pernode参数的值不知道是否可行，还没试。

分享到：

hive本地mr | 数据仓库之 ETL漫谈

2012-09-13 16:02
浏览 4484
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论