`
奔跑的羚羊
  • 浏览: 580791 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive自定义分隔符和处理Apache日志

    博客分类:
  • hive
阅读更多
自定义分隔符

1.日志格式
 2010-05-31 10:50:17|61.132.4.82|http://www.360buy.com/product/201185.html  

分隔符是“ | ”

2.创建自定义分隔符的数据表
CREATE TABLE click_test ( time string, ip string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' STORED AS TEXTFILE;


3.加载数据
LOAD DATA LOCAL INPATH '/data/clicktest_20110217.txt' OVERWRITE INTO TABLE click_test;


4.查询数据
select * from click_test;




处理Apache日志

1.日志格式
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326


2.创建数据库
CREATE TABLE apachelog (
  host STRING,
  identity STRING,
  user STRING,
  time STRING,
  request STRING,
  status STRING,
  size STRING,
  referer STRING,
  agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?",
  "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

3.加载数据
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.log" INTO TABLE apachelog;
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.2.log" INTO TABLE apachelog;


4.查询数据
hive> select * from apachelog order by time;



使用order by查询后,会报错:
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe
	at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
	at java.security.AccessController.doPrivileged(Native Method)

启动时,需要添加hive_contrib.jar
hive --auxpath ./hive/lib/hive_contrib.jar



参考http://wiki.apache.org/hadoop/Hive/LanguageManual/DDL
分享到:
评论
1 楼 lvshuding 2011-08-05  
学习了,正在找这方面的资料

相关推荐

    hive inputformat

    在我们的例子中,"按照空格对日志文件进行拆分"意味着我们将使用TextFile InputFormat,并且自定义分隔符为空格。 3. **自定义InputFormat** 当标准的InputFormat无法满足需求时,我们需要编写自定义的InputFormat...

    Intro to Apache hive

    - **日志处理**:对海量的日志数据进行清洗、统计和分析。 - **文本挖掘**:从大量文本数据中提取有价值的信息。 - **文档索引**:为文档建立索引,便于后续的检索操作。 - **面向客户的商业智能**:例如 Google ...

    hadoop项目--网站流量日志分析--5.docx

    例如,你可以通过Hive SQL语句将特定时间范围内的数据导出到HDFS,然后使用Sqoop的`export`命令指定连接参数、表名、字段分隔符以及HDFS路径,完成数据的导入。 对于增量导出,Sqoop提供了`--update-mode ...

    7.Hadoop入门进阶课程_第7周_Pig介绍、安装与应用案例.pdf

    1. **加载数据**:首先,加载位于HDFS中的日志文件,使用空格作为字段分隔符,仅加载IP地址这一列。 ```bash records = LOAD 'hdfs://hadoop:9000/class7/input/website_log.txt' USING PigStorage(' ') AS (ip:...

    MATLAB中的紧束缚模型求解器.rar

    1.版本:matlab2014/2019a/2024a 2.附赠案例数据可直接运行matlab程序。 3.代码特点:参数化编程、参数可方便更改、代码编程思路清晰、注释明细。 4.适用对象:计算机,电子信息工程、数学等专业的大学生课程设计、期末大作业和毕业设计。

    模型量化校准数据集-ImageNet2012分类图片100张

    从ImageNet2012分类数据集中选取的100张图片,用于对常见分类模型进行量化。 数据集介绍 数据背景: 静态离线量化方法需要少量校准数据,这个数据集用于量化演示示例。 数据来源: 基于Imagenet2012测试数据集,取前100张图片和标签作为本数据集。

    ### 【计算机组成原理】计算机发展历程与关键技术解析:从冯·诺依曼架构到量子计算的未来展望

    内容概要:本文详细介绍了计算机的发展历程及其核心组成部分,从早期计算工具的演进到现代计算机的诞生,重点探讨了冯·诺依曼体系结构的重要性。文章回顾了从机械计算器、ENIAC到微处理器的科技进步,阐述了计算机五大组成部分(运算器、控制器、存储器、输入设备、输出设备)的功能与协作机制。同时,文中还讨论了操作系统、编程语言、数据库管理系统等软件层面的内容,以及量子计算和神经形态计算等前沿技术对未来计算机发展的影响。; 适合人群:计算机专业学生、计算机爱好者及对计算机技术感兴趣的读者。; 使用场景及目标:①帮助读者理解计算机硬件的基本组成和工作原理;②解释软件与硬件之间的协同关系;③介绍量子计算和神经形态计算等新兴技术的发展趋势及挑战。; 其他说明:掌握计算机组成原理有助于读者深入了解计算机系统的工作机制,培养硬件思维和系统思维,为后续学习操作系统、编译原理、计算机网络等课程打下坚实基础。同时,对于广大计算机爱好者而言,了解计算机组成原理可以让他们更好地理解计算机的运行机制,在使用计算机的过程中更加得心应手。

    中国移动2024年6G通感算智融合技术体系白皮书1.053页.pdf

    中国移动2024年6G通感算智融合技术体系白皮书1.053页.pdf

    汽车电子:MATLAB_开发电池管理系统SOC估算算法.pdf

    文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 你是否渴望高效解决复杂的数学计算、数据分析难题?MATLAB 就是你的得力助手!作为一款强大的技术计算软件,MATLAB 集数值分析、矩阵运算、信号处理等多功能于一身,广泛应用于工程、科学研究等众多领域。 其简洁直观的编程环境,让代码编写如同行云流水。丰富的函数库和工具箱,为你节省大量时间和精力。无论是新手入门,还是资深专家,都能借助 MATLAB 挖掘数据背后的价值,创新科技成果。别再犹豫,拥抱 MATLAB,开启你的科技探索之旅!

    通信工程分包合同.docx

    通信工程分包合同.docx

    基于Qt+C++实现的物联网景区地质灾害监测系统+源码+项目文档(毕业设计&课程设计&项目开发)

    基于Qt+C++实现的物联网景区地质灾害监测系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 本项目利用Zigbee协议搭建了专属物联网,搭建了以Cortex-A8为主核的本地网关,租用阿里云组建系统服务器,并建立了相关网站。监测中心站通过客户端监控易发灾害点数据,在灾害爆发前做好预防工作;普通用户可以通过网站查看各项数据。 基于Qt+C++实现的物联网景区地质灾害监测系统+源码+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 本项目利用Zigbee协议搭建了专属物联网,搭建了以Cortex-A8为主核的本地网关,租用阿里云组建系统服务器,并建立了相关网站。监测中心站通过客户端监控易发灾害点数据,在灾害爆发前做好预防工作;普通用户可以通过网站查看各项数据

    CNC-控制器-STM32-开源项目

    CNC_控制器_STM32_开源项目

    世邦魏理仕:2022年北京房地产市场回顾与2023年展望.pdf

    世邦魏理仕:2022年北京房地产市场回顾与2023年展望

    科学发展观与建筑企业管理论文.docx

    科学发展观与建筑企业管理论文.docx

    Epson-L130-Series

    爱普生L130

    基于javaScript+Springboot+Vue实现的校园社团信息管理系统+源码+演示视频+项目文档(毕业设计&课程设计&项目开发)

    基于javaScript+Springboot+Vue实现的校园社团信息管理系统+源码+演示视频+项目文档,适合毕业设计、课程设计、项目开发。项目源码已经过严格测试,可以放心参考并在此基础上延申使用,详情见md文档 园社团信息管理系统管理员功能有个人中心,学生管理,社长管理,社团分类管理,社团信息管理,加入社团管理,社团成员管理,社团活动管理,活动报名管理,系统管理等。社长添加社团,管理员审核社团,学生加入社团,社长审核社团。因而具有一定的实用性。 本站是一个B/S模式系统,采用Spring Boot框架,MYSQL数据库设计开发,充分保证系统的稳定性。系统具有界面清晰、操作简单,功能齐全的特点,使得校园社团信息管理系统管理工作系统化、规范化。本系统的使用使管理人员从繁重的工作中解脱出来,实现无纸化办公,能够有效的提高校园社团信息管理系统管理效率。

    apk文件.zip

    apk文件

    JDK1.7及之前HashMap的put方法图解.png

    JDK1.7及之前HashMap的put方法图解

    珠宝鉴定:MATLAB高光谱成像在宝石内部包裹体分析中的实践.pdf

    文档支持目录章节跳转同时还支持阅读器左侧大纲显示和章节快速定位,文档内容完整、条理清晰。文档内所有文字、图表、函数、目录等元素均显示正常,无任何异常情况,敬请您放心查阅与使用。文档仅供学习参考,请勿用作商业用途。 你是否渴望高效解决复杂的数学计算、数据分析难题?MATLAB 就是你的得力助手!作为一款强大的技术计算软件,MATLAB 集数值分析、矩阵运算、信号处理等多功能于一身,广泛应用于工程、科学研究等众多领域。 其简洁直观的编程环境,让代码编写如同行云流水。丰富的函数库和工具箱,为你节省大量时间和精力。无论是新手入门,还是资深专家,都能借助 MATLAB 挖掘数据背后的价值,创新科技成果。别再犹豫,拥抱 MATLAB,开启你的科技探索之旅!

Global site tag (gtag.js) - Google Analytics