`
wbj0110
  • 浏览: 1641636 次
  • 性别: Icon_minigender_1
  • 来自: 上海
文章分类
社区版块
存档分类
最新评论

HIVE 处理日志,自定义inputformat 完整版

    博客分类:
  • Hive
阅读更多

为何要设置此功能是由于 hive fields terminated by '||||' 不支持 字符串导致

 

将你的inputformat类打成jar包,如MyInputFormat.jar
将MyInputFormat.jar放到 hive/lib里,然后就可以建表了
假设你的inputFormat类路径是com.hive.myinput
则建表语句为:create table tbname(name stirng,id int, ...) stored as INPUTFORMAT 'com.hive.myinput'   OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

HiveIgnoreKeyTextOutputFormat是系统自带的outputformat类,你也可以自定义

由于hive是基于hadoop集群运行的,所以hadoop/lib里面也必须放入MyInputFormat.jar,

 

此功能需要二个CLASS 类:ClickstreamInputFormat ClickstreamRecordReader 

 

 

  1. package com.jd.cloud.clickstore;  
  2.   
  3. import java.io.IOException;    
  4.   
  5. import org.apache.hadoop.io.LongWritable;    
  6. import org.apache.hadoop.io.Text;    
  7. import org.apache.hadoop.mapred.FileSplit;    
  8. import org.apache.hadoop.mapred.InputSplit;    
  9. import org.apache.hadoop.mapred.JobConf;    
  10. import org.apache.hadoop.mapred.JobConfigurable;    
  11. import org.apache.hadoop.mapred.RecordReader;    
  12. import org.apache.hadoop.mapred.Reporter;    
  13. import org.apache.hadoop.mapred.TextInputFormat;  
  14.   
  15. /**  
  16.  * 自定义hadoop的 org.apache.hadoop.mapred.InputFormat  
  17.  *   
  18.  * @author winston  
  19.  *   
  20.  */    
  21. public class ClickstreamInputFormat extends TextInputFormat implements    
  22.         JobConfigurable {    
  23.     
  24.     public RecordReader<LongWritable, Text> getRecordReader(    
  25.             InputSplit genericSplit, JobConf job, Reporter reporter)    
  26.             throws IOException {    
  27.     
  28.         reporter.setStatus(genericSplit.toString());    
  29.         return new ClickstreamRecordReader((FileSplit) genericSplit,job);    
  30.     }    
  31. }    



 

 

 

  1. package com.jd.cloud.clickstore;  
  2.   
  3. import java.io.IOException;  
  4. import java.io.InputStream;  
  5. import org.apache.hadoop.conf.Configuration;  
  6. import org.apache.hadoop.fs.FSDataInputStream;  
  7. import org.apache.hadoop.fs.FileSystem;  
  8. import org.apache.hadoop.fs.Path;  
  9. import org.apache.hadoop.io.LongWritable;  
  10. import org.apache.hadoop.io.Text;  
  11. import org.apache.hadoop.io.compress.CompressionCodec;  
  12. import org.apache.hadoop.io.compress.CompressionCodecFactory;  
  13. import org.apache.hadoop.mapred.FileSplit;  
  14. import org.apache.hadoop.util.LineReader;  
  15. import org.apache.hadoop.mapred.RecordReader;  
  16.   
  17.   
  18. public class ClickstreamRecordReader implements  
  19.         RecordReader<LongWritable, Text> {  
  20.   
  21.   
  22.     private CompressionCodecFactory compressionCodecs = null;  
  23.     private long start;  
  24.     private long pos;  
  25.     private long end;  
  26.     private LineReader lineReader;  
  27.     int maxLineLength;  
  28.   
  29.     public ClickstreamRecordReader(FileSplit inputSplit, Configuration job)  
  30.             throws IOException {  
  31.         maxLineLength = job.getInt("mapred.ClickstreamRecordReader.maxlength",  
  32.                 Integer.MAX_VALUE);  
  33.         start = inputSplit.getStart();  
  34.         end = start + inputSplit.getLength();  
  35.         final Path file = inputSplit.getPath();  
  36.         compressionCodecs = new CompressionCodecFactory(job);  
  37.         final CompressionCodec codec = compressionCodecs.getCodec(file);  
  38.   
  39.         // Open file and seek to the start of the split  
  40.         FileSystem fs = file.getFileSystem(job);  
  41.         FSDataInputStream fileIn = fs.open(file);  
  42.         boolean skipFirstLine = false;  
  43.         if (codec != null) {  
  44.             lineReader = new LineReader(codec.createInputStream(fileIn), job);  
  45.             end = Long.MAX_VALUE;  
  46.         } else {  
  47.             if (start != 0) {  
  48.                 skipFirstLine = true;  
  49.                 --start;  
  50.                 fileIn.seek(start);  
  51.             }  
  52.             lineReader = new LineReader(fileIn, job);  
  53.         }  
  54.         if (skipFirstLine) {  
  55.             start += lineReader.readLine(new Text(), 0,  
  56.                     (int) Math.min((long) Integer.MAX_VALUE, end - start));  
  57.         }  
  58.         this.pos = start;  
  59.     }  
  60.   
  61.     public ClickstreamRecordReader(InputStream in, long offset, long endOffset,  
  62.             int maxLineLength) {  
  63.         this.maxLineLength = maxLineLength;  
  64.         this.lineReader = new LineReader(in);  
  65.         this.start = offset;  
  66.         this.pos = offset;  
  67.         this.end = endOffset;  
  68.     }  
  69.   
  70.     public ClickstreamRecordReader(InputStream in, long offset, long endOffset,  
  71.             Configuration job) throws IOException {  
  72.         this.maxLineLength = job.getInt(  
  73.                 "mapred.ClickstreamRecordReader.maxlength", Integer.MAX_VALUE);  
  74.         this.lineReader = new LineReader(in, job);  
  75.         this.start = offset;  
  76.         this.pos = offset;  
  77.         this.end = endOffset;  
  78.     }  
  79.   
  80.     public LongWritable createKey() {  
  81.         return new LongWritable();  
  82.     }  
  83.   
  84.     public Text createValue() {  
  85.         return new Text();  
  86.     }  
  87.   
  88.     /** 
  89.      * Reads the next record in the split. get usefull fields from the raw nginx 
  90.      * log. 
  91.      *  
  92.      * @param key 
  93.      *            key of the record which will map to the byte offset of the 
  94.      *            record's line 
  95.      * @param value 
  96.      *            the record in text format 
  97.      * @return true if a record existed, false otherwise 
  98.      * @throws IOException 
  99.      */  
  100.     public synchronized boolean next(LongWritable key, Text value)  
  101.             throws IOException {  
  102.         // Stay within the split  
  103.         while (pos < end) {  
  104.             key.set(pos);  
  105.             int newSize = lineReader.readLine(value, maxLineLength,  
  106.                     Math.max((int) Math.min(Integer.MAX_VALUE, end - pos),  
  107.                             maxLineLength));  
  108.   
  109.             if (newSize == 0)  
  110.                 return false;  
  111.   
  112.             String str = value.toString().toLowerCase()  
  113.                     .replaceAll("\\@\\_\\@""\001");  
  114.             value.set(str);  
  115.             pos += newSize;  
  116.   
  117.             if (newSize < maxLineLength)  
  118.                 return true;  
  119.         }  
  120.   
  121.         return false;  
  122.     }  
  123.   
  124.     public float getProgress() {  
  125.         if (start == end) {  
  126.             return 0.0f;  
  127.         } else {  
  128.             return Math.min(1.0f, (pos - start) / (float) (end - start));  
  129.         }  
  130.     }  
  131.   
  132.     public synchronized long getPos() throws IOException {  
  133.         return pos;  
  134.     }  
  135.   
  136.     public synchronized void close() throws IOException {  
  137.         if (lineReader != null)  
  138.             lineReader.close();  
  139.     }  
  140.       
  141.     // 测试 输出  
  142.     //public static void main(String ags[]){  
  143.     //    String str1 ="123@_@abcd@_@fk".replaceAll("\\@\\_\\@", "\001");  
  144.     //    System.out.println(str1);  
  145.     //}  
  146. }  

 

 



1.上传到 HIVE 服务器上 JAVAC 编译

 

[plain] view plaincopyprint?
 
  1. javac -cp ./:/usr/lib/hadoop/hadoop-common.jar:/home/op1/hadoop/hadoop-core-1.0.3.jar:/usr/lib/hadoop/lib/commons-logging-1.1.1.jar */**/*/*/*  

 


2.JAR 打包 类文件

 

  1. jar -cf ClickstreamInputFormat.jar /home/op1/uerdwdb/src/  

 

 

3.复制 Hive/lib Hadoop/lib 文件夹内

 

 

4.Hive 创建表命令

  1. create table hive_text(num int,name string,`add` string)  
  2. stored as INPUTFORMAT 'com.jd.cloud.clickstore.ClickstreamInputFormat'   
  3. OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'   
  4. location '/home/op1/uerdwdb/text.txt';  

http://blog.csdn.net/iquicksandi/article/details/8533699

 

大家可以加我个人微信号:scccdgf

 

 

或者关注soledede的微信公众号:soledede
微信公众号:
分享到:
评论

相关推荐

    Hadoop高级编程- 构建与实现大数据解决方案

    6. **数据输入和输出格式**:学习自定义InputFormat和OutputFormat,以处理非标准格式的数据,如CSV、JSON或其他定制格式。 7. **错误处理和容错机制**:理解Hadoop的检查点、故障检测和恢复策略,以及如何在代码中...

    elasticsearch-hadoop-5.2.1

    9. **RESTful接口**:除了传统的MapReduce和Spark支持,Elasticsearch-Hadoop还支持通过Hadoop的InputFormat和OutputFormat使用Hadoop的通用工具(如Hive和Pig)来与Elasticsearch交互,这些工具可以直接利用Elastic...

    基于A*算法的往返式全覆盖路径规划改进及其Matlab实现

    内容概要:本文详细介绍了如何利用A*算法改进传统的往返式路径规划,解决扫地机器人在复杂环境中容易卡住的问题。首先构建了一个可视化的栅格地图用于模拟环境,然后引入了优先级运动规则,使机器人能够有规律地进行往返清扫。当遇到死角时,通过A*算法计算最佳逃生路径,确保机器人能够顺利脱困并继续完成清扫任务。实验结果显示,改进后的算法显著提高了清洁覆盖率,降低了路径重复率。此外,还讨论了一些潜在的优化方向,如动态调整启发函数权重、断点续传以及能耗模型等。 适合人群:对路径规划算法感兴趣的科研人员、自动化专业学生、扫地机器人开发者。 使用场景及目标:适用于需要高覆盖率和低重复率的室内清洁任务,旨在提高扫地机器人的工作效率和智能化水平。 其他说明:文中提供了详细的Matlab代码实现,并附带了仿真测试结果,有助于读者理解和复现该算法。

    爬取喜马拉雅听书(1).py

    爬取喜马拉雅听书(1)

    安卓向上传递数据学习笔记总结

    安卓向上传递数据学习笔记总结

    tigervnc-selinux-1.11.0-9.el8.x64-86.rpm.tar.gz

    1、文件说明: Centos8操作系统tigervnc-selinux-1.11.0-9.el8.rpm以及相关依赖,全打包为一个tar.gz压缩包 2、安装指令: #Step1、解压 tar -zxvf tigervnc-selinux-1.11.0-9.el8.tar.gz #Step2、进入解压后的目录,执行安装 sudo rpm -ivh *.rpm

    户外储能电源双向逆变器板生产资料及技术规格详解

    内容概要:本文详细介绍了户外储能电源双向逆变器板的技术资料及其特点。涵盖原理文件、PCB文件、源代码、电感与变压器规格参数等,适用于2KW(最大3KW)的户外储能电源。文中强调了双向软开关DC-DC设计、两颗M0+ 32位MCU的分工、SPWM调制方式、H桥IGBT的应用、详细的电气参数和技术特性。此外,还包括了SPWM信号生成代码示例、硬件设计细节、生产注意事项等。 适合人群:从事户外储能电源开发的技术人员、电子工程师、产品经理等。 使用场景及目标:帮助开发者快速掌握双向逆变器板的设计和生产要点,缩短产品研发周期,提高产品质量和可靠性。具体应用场景包括但不限于户外应急电源、便携式储能设备等。 其他说明:本文提供了丰富的技术细节和实践经验,如双向软开关DC-DC设计、SPWM调制、IGBT驱动、EMC整改记录等,有助于解决实际开发中的难题。同时,附带的实际案例展示了该方案的成功应用,进一步证明了其可行性和优越性。

    电能质量分析:间谐波分析.zip

    电子仿真教程,从基础到精通,每个压缩包15篇教程,每篇教程5000字以上。

    【计算机科学领域】美国计算机学会(ACM):组织架构、使命愿景、核心价值及活动项目介绍

    内容概要:美国计算机学会(ACM)是一个成立于1947年的国际性计算机专业组织,致力于推动计算机科学的发展,提供教育、资源和专业发展机会。ACM的使命是促进计算机科学和信息技术领域的进步,愿景是成为全球计算机专业人士的首选组织。其核心价值包括卓越、诚信、包容性、合作和创新。ACM定期举办学术会议,如SIGGRAPH和图灵奖颁奖典礼,出版高质量的学术期刊和会议论文集,涵盖人工智能、软件工程、网络安全等领域。此外,ACM还提供在线课程、研讨会、认证项目等教育资源,以及职业规划、网络机会和领导力培训等职业发展服务。ACM图灵奖被誉为“计算机界的诺贝尔奖”,每年颁发给对计算机科学和技术做出重大贡献的个人。; 适合人群:计算机科学领域的专业人士、教育工作者、工程师和学生。; 使用场景及目标:①了解计算机科学领域的最新研究成果和发展趋势;②获取高质量的教育资源和职业发展机会;③参与计算机科学领域的学术交流和合作。; 其他说明:ACM作为一个全球性的组织,在教育、研究和行业实践中发挥着重要作用,推动了技术创新和社会进步。

    最新版logstash-8.17.4-windows-x86-64.zip

    logstash-8.17.4-windows-x86_64.zip

    一个基于Springboot使用Aspect实现一个切面,以记录日志为例

    springboot 一个基于Springboot使用Aspect实现一个切面,以记录日志为例

    音箱底部折边设备sw22可编辑_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

    音箱底部折边设备sw22可编辑_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

    基于Python Django MySQL的个性化图书推荐系统:协同过滤算法及远程部署实现

    内容概要:本文详细介绍了如何使用Python、Django和MySQL构建一个完整的个性化图书推荐系统。系统从前端界面设计、后端逻辑实现到数据库设计,涵盖了用户管理、图书管理、评分系统等功能模块。重点讲解了基于用户和项目的协同过滤算法实现,以及在用户评分数据不足时的标签推荐备份方案。此外,还包括了系统部署、测试和优化的具体步骤,如云服务器部署、性能测试、数据库优化等。 适合人群:具备一定Python和Web开发基础的研发人员,尤其是对推荐系统感兴趣的技术爱好者。 使用场景及目标:适用于希望深入了解图书推荐系统的工作原理和实现细节的技术人员。目标是帮助读者掌握从零开始搭建一个完整的个性化推荐系统的方法,包括前后端开发、算法实现和系统部署。 其他说明:文中提供了大量代码示例和实战经验,如数据库设计、爬虫实现、权限管理等,有助于读者更好地理解和应用相关技术。

    Ai和python学习资料

    Ai和python学习资料

    文本摘要.py

    文本摘要

    冲击试验机sw22_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

    冲击试验机sw22_三维3D设计图纸_包括零件图_机械3D图可修改打包下载_三维3D设计图纸_包括零件图_机械3D图可修改打包下载.zip

    Java开发MybatisPlus框架详解:增强Mybatis功能实现高效CRUD操作与代码生成

    内容概要:本文详细介绍了MyBatis Plus(MP),它是MyBatis的增强工具,旨在简化CRUD操作、提高开发效率。其主要功能包括内置分页插件、简化CRUD操作以及代码生成器。使用时只需引入相应依赖,自定义Mapper接口继承BaseMapper泛型接口,并通过实体类反射获取数据库表信息。文章还介绍了常用注解如@TableName、@TableId、@TableField、@TableLogic和@Version,配置项如全局配置、类型别名和Mapper文件路径,以及核心功能如批量插入、分页查询、条件构造器(Wrapper)等。此外,扩展功能涵盖逻辑删除、枚举处理器和JSON处理器,插件功能则包括分页插件的配置和使用。 适合人群:具备一定Java开发经验,尤其是熟悉MyBatis框架的开发者,特别是那些希望提高开发效率、减少重复代码的工作1-3年研发人员。 使用场景及目标:①简化数据库操作,提高开发效率;②快速生成代码,减少手动编写SQL语句的工作量;③实现分页查询、逻辑删除、枚举和JSON字段处理等高级功能,提升应用的灵活性和可维护性。 其他说明:本文不仅提供了MyBatis Plus的功能介绍和使用方法,还深入探讨了条件构造器(Wrapper)的使用技巧,帮助开发者更好地理解和掌握这一强大的工具。在实际开发中,合理利用这些功能可以显著提高开发效率和代码质量。建议在学习过程中结合具体项目实践,逐步掌握各个功能的应用场景和最佳实践。

    电路仿真:射频电路仿真.zip

    电子仿真教程,从基础到精通,每个压缩包15篇教程,每篇教程5000字以上。

    【java毕业设计】Springboot+Vue高考志愿填报系统 源码+sql脚本+论文 完整版

    这个是完整源码 SpringBoot + vue 实现 【java毕业设计】Springboot+Vue高考志愿填报系统 源码+sql脚本+论文 完整版 数据库是mysql 随着高考制度的不断完善和高等教育资源的日益丰富,高考志愿填报成为考生和家长关注的焦点。本文旨在开发一个基于Spring Boot后端框架、Vue.js前端框架和实现以下功能:考生信息管理、院校信息查询、专业信息查询、志愿填报、志愿评测等。通过Spring Boot框架构建后端服务,提供 API接口与前端进行交互;Vue.js框架用于构建前端用户界面,实现数据的动态展示和交互操作;MySQL数据库用于存储考生信息、院校信息、专业信息等数据。 在系统设计过程中,我们充分考MySQL数据库的高考志愿填报系统,提高志愿填报的效率和准确性,为考生和家长提供便捷的服务。 系统主要实现以下功能:考分考MySQL数据库的高考志愿填报系统,提高志愿填报的效率和准确性,为考生和家长提供便捷的服务生信息管理、院校信息查询、专业信息查询、志愿填报、志愿评测等。通过Spring Boot框架构建后端服务,提供 API接口与前端进行交互;Vue.js框架用于构建前端用户界面,实现数据的动态展示和交互操作;MySQL数据库用于存储考生信息、院校信息、专业信息等数据。 在系统设计过程中,我们充分考虑了系统的易用性、可扩展性和安全性。通过合理的数据库设计和优化,提高了系统的查询效率。同时,采用Spring Security等安全框架对系统进行安全防护,确保数据的安全性。 本文详细阐述了系统的需求分析、设计、实现和测试过程,并对关键技术和实现难点进行了深入探讨。通过实验验证,本系统能够满足高考志愿填报的基本需求,为考生和家长提供了高效、便捷的服务。此外,本文还对系统未来的发展方向和改进空间进行了展望,以期进一步完善系统功能,提高用户体验。

    基于MATLAB的特征选择算法:SBS与SFS的实现及其应用场景

    内容概要:本文详细介绍了基于MATLAB实现的两种经典特征选择算法——向后搜索(SBS)和向前搜索(SFS)。首先通过构造简单的虚拟数据集展示了这两个算法的基本思想和实现步骤。接着深入探讨了SBS和SFS的具体实现方式,包括特征集的初始化、特征的选择/剔除机制以及评价函数的设计。文中还提供了具体的MATLAB代码示例,帮助读者更好地理解和应用这两种算法。此外,文章讨论了SBS和SFS的特点和局限性,并给出了在实际工程项目中的选型建议。 适合人群:对特征选择有一定兴趣并希望深入了解SBS和SFS算法的初学者,尤其是那些希望通过MATLAB进行特征选择研究的人群。 使用场景及目标:适用于需要从大量特征中挑选出最具影响力的少数特征的情况,如生物医学数据分析、图像识别等领域。主要目标是提高模型性能的同时减少计算成本。 其他说明:尽管SBS和SFS属于较为基础的特征选择方法,在现代工业级项目中已被更先进的算法所替代,但对于理解特征选择的基本原理仍然非常重要。同时,文章强调了评价函数设计的重要性,并指出在实际应用中应综合考虑业务背景和技术因素。

Global site tag (gtag.js) - Google Analytics