hive快速拷贝动态分区的两种方式

chengjianxiaoxue

浏览: 1323875 次
性别:
来自: 北京

最近访客更多访客>>

liu_shui8

happy2012

nddht

yhtppp

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

hive

在hive仓库修改以前逻辑中，如果因为一时的需要增加了hive表的字段，后来在过些日子思考后感觉

这个业务不需要在增加这个字段，在hive分区表中，

增加列语句，需要增加 cascade，否则分区表在查询某天分区数据时会查不到

alter table ods_teach_online_coursewares ADD COLUMNS (ccdl_begtime string COMMENT '打点开始时间') CASCADE;

这里主要讨论的是，在分区表增加了列，后来又不需要这些列的处理方式：

1 这是我常用的方式，通过sql方式：

eg : 表1 需要将列1，列2去掉，

那么，先创建好去掉列1,2的这个表，

然后hive命令行中如下：

 set hive.exec.dynamic.partition.mode=nonstrict;  必须设置

insert overwrite table ods_teach_online_coursewares_bak partition(day) 
select   在 select 具体列名时，必须要显示带上 day
province_id,
province_name,
city_id,
city_name,
county_id,
county_name,
school_id,
school_name,
grade,
class_id,
class_name,
subject_id,
subject_name,
book_id,
book_name,
unit_id,
unit_name,
ccl_coursewares_id,
coursewares_name,
is_collect,
pid,
courseware_creator,
creator_name,
creator_icon,
courseware_owner,
owner_name,
owner_icon,
ccl_id,
ccl_begtime,
ccl_endtime,
duration,
ccdl_type,
resource_count,
ccl_type,
day 
from ods_teach_online_coursewares  distribute by day;

如下是加载样子：

如果是拷贝整个表的列，而不是只拷贝部分列，写法如下：

 insert overwrite table tmp_test partition(day)  select *  from dm_login_class_user_count_distribution_semester  distribute by day

方式2 ：

方式2: 通过 hadoop cp命令 + hive msck repair命令组合使用

1 create table tmp_test1 like dm_login_class_user_count_distribution_semester;  创建目标表

2 hadoop fs -cp hdfs://Galaxy/user/hive/warehouse/dev_treasury.db/dm_login_class_user_count_distribution_semester/*  hdfs://Galaxy/user/hive/warehouse/dev_treasury.db/tmp_test1/    将原表hdfs数据拷贝到目标表 hdfs目录中

3 进入Hive环境中， 输入 MSCK REPAIR TABLE tmp_test1;

4 验证数据是否加载进来:

 > select * from  dm_login_class_user_count_distribution_semester where day='2016-12-12' limit 1;
OK
2016-12-12      4                                       3301            0                                       EDUCATION_STAFF 769     896     0       2016-12-12

查看图片附件

分享到：

修复hive表存储格式为PARQUET的分区表中类 ... | row_number() over partition by使用中出现 ...

2018-01-10 18:47
浏览 2350
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive快速拷贝动态分区的两种方式

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive快速拷贝动态分区的两种方式

评论

发表评论

相关推荐

hive开窗函数

hive分页

hive-脚本增量导入数据

HIVE备份之批量导出所有的HIVE建表字段

hive列存储格式对比

sql执行顺序

查看cdh使用组件的版本对应apache原生态版本

hive认知1

hive对应mysql 元数据表介绍

Linux下 $(cd `dirname $0`;pwd)

修复hive表存储格式为PARQUET的分区表中类型定义为int到float的过程

hive增量对比后将增量数据插入原表

hive -e 出现cannot recognize input nearXXX

hive log的分类和所在位置

将很多段逻辑sql放在一个hive文件执行 终止提交的任务做法

hive自定义函数 求和

hive 获取当前yyyy/MM/dd HH:mm:ss

hive -f执行整体脚本时，报错下如何知道前面执行多少个了

select join where执行顺序

hive.groupby.skewindata环境变量与负载均衡 ---》待总结

最近访客更多访客>>

将很多段逻辑sql放在一个hive文件执行终止提交的任务做法

hive自定义函数求和