将hdfs文件导入hive表 -

luoshi0801

浏览: 148372 次
性别:
来自: 杭州

最近访客更多访客>>

lzy8828

lygily

lzn-boy

jeffsc

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

将hdfs文件导入hive表

博客分类：

hadoop相关

hive sql对hdfs的操作最终都会转化为mr任务，下面介绍如何将已经存在的hdfs文件“导入”hive表，很简单

条件及要求：

1）hdfs文件为经过lzo压缩的seqFile

2）seqFile数据样例

3）hive表是外在分区表

步骤1. 建立hive表

CREATE EXTERNAL TABLE biz_eagleeye (traceId STRING, time STRING, rpcId STRING,
appName STRING, queryKey STRING, msg STRING, kvMap STRING)
PARTITIONED BY(pt STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\|'
STORED AS SEQUENCEFILE;

其中EXTERNAL和PARTITIONED关键字指明表为外表和分区表，STORED AS SEQUENCEFILE是专门指定加载seqFile数据源的，如果是普通文本可换成TEXTFILE

步骤2.从hdfs加载数据

ALTER TABLE biz_eagleeye ADD PARTITION (pt='2013-02-28')
LOCATION '/group/tlog/zhiyuan';

通过LOCATION关键字给出hdfs文件路径，并给出分区值。特别说明下，加载seqFile时hive默认过滤掉key（将key看做null）然后按指明的分隔符（这里是’\|‘）对value进行切分，如果需要考虑key或较复杂的切分字段方式可以指定自定义的mapper和reducer：

mapred.mapper.class = org.apache.hadoop.hive.ql.exec.ExecMapper

hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

mapred.mapper.class = org.apache.hadoop.hive.ql.exec.ExecMapper

hive.input.format = org.apache.hadoop.hive.ql.io.CombineHiveInputFormat

步骤3.检验是否加载成功

select * from biz_eagleeye where pt='2013-02-28' limit 1000

如果需要每天加载一个分区（对应hdfs路径下的昨日的数据文件夹），可以通过脚本建立一个crontab定时任务自动完成

Reference:

https://cwiki.apache.org/confluence/display/Hive/Home

查看图片附件

分享到：

hive中自定义RegexSerDe尝试 | 线上运维

2013-02-28 20:45
浏览 27255
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

将hdfs文件导入hive表

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

将hdfs文件导入hive表

评论

发表评论

相关推荐

hadoop如何封装shell脚本

异步hbase的用法

Hdfs之DistributedCache

hive中自定义RegexSerDe尝试

最近访客更多访客>>