hive导入nginx日志

wbj0110

浏览: 1645526 次
性别:
来自: 上海

最近访客更多访客>>

一往无前bhz

ninja2006

loginboot

u012363178

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive

Hive

将nginx日志导入到hive中的方法

1 在hive中建表

CREATE TABLE apachelog (ipaddress STRING, identd STRING, user STRING,finishtime STRING,requestline string, returncode INT, size INT,referer string,agent string) ROW FORMAT SERDE 'org.apache.hadoop.hive.serde2.dynamic_type.DynamicSerDe'WITH SERDEPROPERTIES ('serialization.format'='org.apache.hadoop.hive.serde2.thrift.TCTLSeparatedProtocol','quote.delim'='("|\\[|\\])','field.delim'=' ','serialization.null.format'='-')STORED AS TEXTFILE;

导入后日志格式为

203.208.60.91 - - 05/May/2011:01:18:47 +0800 GET /robots.txt HTTP/1.1 404 1238 Mozilla/5.0

第二种方法导入

注意：这个方法在建表后，使用查询语句等前要先执行

hive> add jar /home/hjl/hive/lib/hive_contrib.jar;

CREATE TABLE log (host STRING,identity STRING,user STRING,time STRING,request STRING,status STRING,size STRING,referer STRING,agent STRING) ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' WITH SERDEPROPERTIES ("input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?","output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s")STORED AS TEXTFILE;

导入后的格式

203.208.60.91 - - [05/May/2011:01:18:47 +0800] "GET /robots.txt HTTP/1.1" 404 1238 "-" "Mozilla/5.0 (compatible; Googlebot/2.1; +http://www.google.com/bot.html)"

如果文件数据是纯文本，可以使用 STORED AS TEXTFILE。如果数据需要压缩，使用 STORED AS SEQUENCE 。

导入日志命令

hive>load data local inpath '/home/log/map.gz' overwrite into table log;

导入日志支持.gz等格式

参考http://www.johnandcailin.com/blog/cailin/exploring-apache-log-files-using-hive-and-hadoop

分享到：

hbase表结构设计研究 | 在线分析查询系统mdrill

2014-07-09 11:26
浏览 854
评论(0)
分类:编程语言
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive导入nginx日志

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive导入nginx日志

评论

发表评论

相关推荐

基于hive的日志分析系统

HIVE 处理日志，自定义inputformat 完整版

Using Hive for Data Analysis

hadoop学习--基于Hive的Hadoop日志分析

hive日志分析实战（二）

hive日志分析实战（一）

hive支持sql大全

hive支持sql大全

分别使用Hadoop MapReduce、hive统计手机流量

Hive getstarted

Hive如何加载和导入HBase的数据

数据仓库工具

FACEBOOK架构

HBase入门篇（转）

HBase/Hadoop学习笔记 (转)

运行MapReduce作业做集成测试

Hadoop分布式文件系统：架构和设计要点(转)

hadoop中的数据序列化及数据类型

GitHub项目Storm-HBase介绍

HBase Thrift 接口的一些使用问题及相关注意事项

最近访客更多访客>>