brandNewUser

浏览: 460942 次
性别:
来自: 北京

最近访客更多访客>>

yin_bp

ruize

candle_huihui

mwj3970839

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive默认分隔符引起的日志分割问题

博客分类：

hadoop&&storm

hive 外部表

Hive中的外部表

对于Hive中的外部表来说，因为表是外部的，Hive认为其并不拥有这份数据，删除该表并不会真正删除其中的数据，其中的表描述元信息会被删除掉。

对数据进行分区后，对于管理表，可以将其显示在hdfs目录中，但是外部表目录中不会真正存在数据，只能通过show partitions命令来显示外部表的分区信息。

我们的外部表是通过dateid进行的partition，如何显示某个partition外部表对应的location：

hive -e "describe extended xxx partition (dateid=20141230)"

显示出来的信息大致如下：

field1 string
dateid string

# Partition Information
# col_name data_type comment

dateid string

Detailed Partition Information Partition(values:[20141230], dbName:logbase_db, tableName:logbase, createTime:1419984079, lastAccessTime:0, sd:StorageDescriptor(cols:[FieldSchema(name:doc, type:string, comment:null), FieldSchema(name:dateid, type:string, comment:null)], location:hdfs://ns1/xxx/20141230, inputFormat:com.inputformat.XXXInputFormat, outputFormat:org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat, compressed:false, numBuckets:-1, serdeInfo:SerDeInfo(name:null, serializationLib:org.apache.hadoop.hive.serde2.lazy.LazySimpleSerDe, parameters:{serialization.format=1}), bucketCols:[], sortCols:[], parameters:{}, skewedInfo:SkewedInfo(skewedColNames:[], skewedColValues:[], skewedColValueLocationMaps:{}), storedAsSubDirectories:false), parameters:{numFiles=129, transient_lastDdlTime=1419984079, COLUMN_STATS_ACCURATE=false, numRows=-1, totalSize=170482370617, rawDataSize=-1})
Time taken: 0.994 seconds, Fetched: 9 row(s)

显示出来某个partition对应的hdfs地址等，使用的InputFormat等详细信息。

关于外部表创建的语句，完整内容大概如下：

CREATE [EXTERNAL] TABLE [IF NOT EXISTS] table_name
(col_name data_type, ...)
[PARTITIONED BY (col_name data_type, ...)]
[CLUSTERED BY (col_name, col_name, ...)]
[SORTED BY (col_name, col_name, ...)]
[ROW FORMAT row_formart]
[STORED AS file_format]
[LOCATION hdfs_path]
[AS select_statement]

当然，也可以通过使用Like复制一个已经存在的表定义：

CREATE [EXTERNAL] TABLE [IF NOT EXIST] table_name LIKE existing_table name
[LOCATION hdfs_path]

其中各个语句的含义如下：

CREATE TABLE：创建一个指定名字的表名。如果已经存在，使用IF NOT EXIST来忽略抛出的异常
EXTERNAL：创建一个外部表，也就是说在创建一个表的同时指定一个指向实际数据的路径。
LIKE：允许复制一个已经存在的表的定义，而不复制表中已经存在的内容。
PARTITIONED BY：建立带有分区的表。
CLUSTERED：对表和分区进行类聚操作。
SORT BY：根据某个字段进行排序，可以提高数据的查询效率。

如果要使用特定的InputFormat，还需要加入下面的语句：

INPUTFORMAT 'xxxHiveInputFormat'
     OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
     LOCATION '/aaa/hive-table'

这样就指定InputFormat和OutputFormat，以及外部表的Location。其中InputFormat与Hadoop中的略有不同，其中的RecordReader需要特殊继承Hive中的

org.apache.hadoop.hive.ql.io.HiveContextAwareRecordReader

可以做一个Adaptor来将原有的RecordReader进行适配以满足Hive查询的要求。

Hive中的分隔符

hive 默认的字段分隔符为ascii码的控制符\001,建表的时候用fields terminated by '\001',如果要测试的话，造数据在vi 打开文件里面，用ctrl+v然后再ctrl+a可以输入这个控制符\001。按顺序，\002的输入方式为ctrl+v,ctrl+b。以此类推。

当前我们新建的Hive表中，默认fields terminated by没有设置，那么就使用'\001'。

比如我们的一条日志，表面上看起来没有问题：

cat a.log 
tp=imp^ti=1419076654^md=iPhone3,1^__tid=5zKN0REAy8M%253D^mh=640.00x960.00^me=7.1.2^mf=84fef4314602f88b90dad8f2a9d4b23dv1.1t1419076650kcom.qiyi.iphone^mk=1^plt=1^mn=iphone^m9=128f0ab5^os=i^mm=31.892004x119.898267x50.000000^mp=com.qiyi.iphone^e=i___m^mo=1^m5=9920F2E3-4BDB-430F-BCC3-6ACF6EC6F155^kt=mma^mt=1419076649529^a=UoNVX034P723^rawIp=222.185.12.59^mw=1^j=zh^k=2001515^av=11^ip=222.185.12.59^m0=604a45ed52a06f1535711e3c68a130f2edc^pf=c1^p=101324851^pu=m^pn=iphone^rt=2^uuid=9920f2e3-4bdb-430f-bcc3-6acf6ec6f155^po=http%3a%2f%2fmlt01.com%2fo.htm%3fpv%3d0%26sp%3d0%2c1195912%2c1199754%2c2213157%2c0%2c1%2c1^ag=34

但是通过cat -A(--show-all)，就可以看出所有的隐藏字符：

cat -A a.log
tp=imp^ti=1419076654^md=iPhone3,1^__tid=5zKN0REAy8M%253D^mh=640.00x960.00^me=7.1.2^mf=84fef4314602f88b90dad8f2a9d4b23dv1.1t1419076650kcom.qiyi.iphone^mk=1^plt=1^mn=iphone^m9=128f0ab5^os=i^mm=31.892004x119.898267x50.000000^mp=com.qiyi.iphone^e=i___m^mo=1^m5=9920F2E3-4BDB-430F-BCC3-6ACF6EC6F155^kt=mma^mt=1419076649529^a=UoNVX034P723^rawIp=222.185.12.59^mw=1^j=zh^k=2001515^av=11^ip=222.185.12.59^m0=604a45ed52a06f15357^A11e^@^@^@^@3c68a130f2edc^pf=c1^p=101324851^pu=m^pn=iphone^rt=2^uuid=9920f2e3-4bdb-430f-bcc3-6acf6ec6f155^po=http%3a%2f%2fmlt01.com%2fo.htm%3fpv%3d0%26sp%3d0%2c1195912%2c1199754%2c2213157%2c0%2c1%2c1^ag=34$

而其中看到的^A就是'\001'的表示（实际上是一个字符），这样外部表中该行数据^A前面的字符被截断导致该行数据只能显示前半部分。

最终的简单解决方法便是重写InputFormat，替换掉可能会导致问题的字符串特殊字符。

分享到：

MapReduce启动的Map/Reduce子任务简要分析 | Spring MVC中发布Restful Web服务

2015-01-10 21:09
浏览 8020
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive inputformat: Hive默认支持多种InputFormat，如：TextFile、SequenceFile、RCFile等。开发者也可以根据需求自定义InputFormat以适应特定的数据格式。 2. **TextFile InputFormat** 默认情况下，Hive将所有数据视为TextFile格式...

hive开发规范: - **字段分隔符**：为了确保数据的准确性和一致性，默认情况下使用`\001`作为字段分割符，并且使用`SERDEPROPERTIES('serialization.null.format'='')`处理空值。 - **分区表结构**： - **单分区表**：仅包含一级...

ABB常用机器人技术参数.pdf: ABB常用机器人技术参数.pdf

西门子1200 PLC FB284功能块实现多设备控制：V90伺服、相机角度调整及FANUC机器人DP通讯: 内容概要：本文详细介绍了如何利用西门子1200 PLC及其FB284功能块实现对3台V90伺服电机、相机角度调整以及FANUC机器人的控制。主要内容涵盖FB284功能块的基础参数设置、多台伺服电机的具体控制方法、相机角度调整的实现、DP通讯配置FANUC机器人控制，以及PLC程序注解和触摸屏程序的设计。通过具体代码示例和实际操作步骤，帮助读者理解和掌握这一系列控制技术。适合人群：具备一定PLC基础知识的工控初学者和技术人员。使用场景及目标：① 学习并掌握FB284功能块的使用方法；② 实现多台V90伺服电机的协同控制；③ 掌握相机角度调整的技术细节；④ 完成FANUC机器人通过DP通讯的控制配置；⑤ 提高PLC程序的可读性和易维护性。其他说明：文中提供了丰富的代码片段和配置示例，便于读者实践操作。此外，还分享了一些实际项目中的经验和技巧，有助于提高项目的稳定性和效率。

《计算机常用工具软件(第3版)》第6章--图形图像工具.ppt: 《计算机常用工具软件(第3版)》第6章--图形图像工具.ppt

未来产业全球未来产业新赛道布局与发展策略分析：涵盖人工智能、量子科技、氢能等关键技术领域: 内容概要：本文由《未来产业新赛道研究报告》整理而成，涵盖了未来产业在全球范围内的发展态势和竞争形势。报告指出，引领型国家通过全方位体制机制创新，在先进制造、人工智能、量子科技、新一代通信等领域建立了全面领先优势。文中引用了麦肯锡和GVR的数据，预测了人工智能和人形机器人等未来产业的巨大经济潜力。报告还详细介绍了国外和国内对未来产业赛道的重点布局，如量子科技、人工智能、先进网络和通信技术、氢能与储能、生物技术等。此外，报告列举了中国重点省市如北京、上海等的具体发展方向，以及知名研究机构对未来产业热点的分析。最后，报告提出了构建我国未来产业重点赛道目录的建议，包括通用人工智能、高级别自动驾驶、商业航天、人形机器人、新型储能、低空经济、清洁氢、算力芯片、细胞与基因治疗和元宇宙等十大重点赛道。适用人群：对科技趋势和未来产业发展感兴趣的政策制定者、投资者、企业家和研究人员。使用场景及目标：①帮助政策制定者了解全球未来产业发展动态，为政策制定提供参考；②为企业提供未来产业布局的方向和重点领域；③为投资者提供投资决策依据，识别未来的投资机会；④为研究人员提供未来科技发展趋势的全景图。其他说明：报告强调了未来产业在全球经济中的重要性，指出了中国在未来产业布局中的战略定位和发展路径。同时，报告呼吁加强国家顶层设计和行业系统谋划，探索建立未来产业技术预见机制，深化央地联动，推动未来产业高质量发展。

《网络设备安装与调试(神码版)》2交换机的配置.pptx: 《网络设备安装与调试(神码版)》2交换机的配置.pptx

自动驾驶路径规划:Lattice算法中的参考线、Frenet坐标系及多项式拟合的Matlab与C++实现: 内容概要：本文详细介绍了自动驾驶路径规划中Lattice算法的基础部分，主要包括三个关键概念和技术实现：参考线生成、Frenet坐标系转换和五次多项式拟合。首先解释了参考线的作用及其生成方法，如三次样条插值和平滑曲线生成。其次探讨了Frenet坐标系的优势，展示了如何将笛卡尔坐标系下的车辆位置投影到参考线上，从而简化路径规划问题。最后讨论了五次多项式的应用，强调其能够确保轨迹的光滑性和舒适性，并提供了详细的Matlab和C++代码实现。适合人群：对自动驾驶技术感兴趣的开发者、研究人员以及有一定编程基础并希望深入了解路径规划算法的人群。使用场景及目标：适用于研究和开发自动驾驶系统，特别是进行路径规划模块的设计与实现。主要目标是帮助读者掌握Lattice规划的基本原理和技术细节，以便应用于实际工程项目中。其他说明：文中不仅有理论讲解，还附带了大量的代码实例，便于读者理解和实践。此外，作者提醒了一些常见的陷阱和注意事项，如避免过拟合、选择合适的插值算法等。

《网络操作系统(Linux)》项目4-磁盘管理.pptx: 《网络操作系统(Linux)》项目4-磁盘管理.pptx

《计算机应用基础实训指导》实训十八-PowerPoint-2010的动画和切换.pptx: 《计算机应用基础实训指导》实训十八-PowerPoint-2010的动画和切换.pptx

安川机器人DX100使用说明书.1.pdf: 安川机器人DX100使用说明书.1.pdf

《计算机专业英语》Unit-3-What-is-Hardware.ppt: 《计算机专业英语》Unit-3-What-is-Hardware.ppt

汇川H5U-A16自动贴布网胶机的PLC与威纶通触摸屏集成及优化: 内容概要：本文详细介绍了汇川H5U-A16自动贴布网胶机的PLC控制系统及其与威纶通触摸屏的集成方法。主要内容涵盖伺服轴控制、气缸动作、矩阵托盘管理、OEE统计等方面的编程技巧和优化措施。文中展示了如何将复杂的硬件动作抽象为可复用的功能块（FB），并通过参数配置实现灵活的系统控制。此外，还讨论了如何利用威纶通触摸屏进行实时监控和数据分析，以及如何通过合理的IO表管理和注释提高系统的可维护性和扩展性。适合人群：从事工业自动化领域的工程师和技术人员，尤其是熟悉PLC编程和触摸屏应用的专业人士。使用场景及目标：适用于需要开发或优化自动贴布网胶机及其他类似自动化设备的企业。主要目标是提升设备的可靠性和效率，降低维护成本，缩短开发周期。其他说明：本文不仅提供了具体的编程示例，还分享了许多实战经验和技巧，如如何避免常见的错误和陷阱，如何应对特定硬件特性的挑战等。这些内容对于理解和掌握工业自动化系统的开发非常有价值。

电力系统暂态稳定性分析：基于Matlab/Simulink的故障仿真与优化: 内容概要：本文详细介绍了利用Matlab和Simulink进行电力系统暂态稳定性分析的方法和技术。首先构建了一个单机无穷大系统的仿真模型，涵盖了同步电机、无穷大电网、输电线路等基础模块的搭建。接着深入探讨了不同类型故障（如短路、断线）的配置方法及其对系统稳定性的影响。针对常见的暂态问题，提出了多种解决方案，包括并联补偿器的应用、自动重合闸的设计以及仿真加速技巧。同时，通过具体案例展示了如何调整关键参数来优化系统性能，确保暂态过程中系统的稳定性和可靠性。适合人群：从事电力系统研究与开发的技术人员，尤其是对电力系统暂态稳定性感兴趣的工程师和研究人员。使用场景及目标：适用于需要评估电力系统在突发故障情况下的稳定性的场合，帮助用户掌握故障仿真技术，优化系统设计，提高电力系统的可靠性和安全性。其他说明：文中提供的代码片段和仿真技巧均经过实际验证，能够显著提升仿真的效率和准确性。建议读者结合自己的项目需求灵活应用相关技术和方法。

FPGA电机控制：基于Verilog与Nios2的永磁同步电机SVPWM控制系统设计: 内容概要：本文详细介绍了利用FPGA实现永磁同步电机(SPM)的SVPWM控制系统的具体实现方法。系统采用Verilog进行底层硬件时序控制，包括SVPWM模块中的扇区判断、PWM生成以及死区时间控制等；Nios2软核处理器则用于执行控制算法，如磁场定向控制（FOC）、Clarke变换和PID调节器。两者通过Avalon总线连接，实现高效的软硬件协同工作。此外，文中还讨论了一些常见的调试技巧和优化方法，如定点数运算、硬件CRC校验模块的应用等。适合人群：具备一定FPGA开发经验和电机控制理论基础的技术人员，尤其是从事嵌入式系统开发、自动化控制领域的工程师。使用场景及目标：适用于需要高精度、高性能电机控制的应用场合，如工业自动化设备、机器人关节控制等。目标是通过软硬件协同设计提高系统的实时性和可靠性，降低电流谐波失真，增强抗干扰能力。其他说明：文中提供了完整的工程源码和技术细节，有助于读者深入理解和实践。同时，作者分享了许多实用的经验教训，帮助读者避开常见陷阱，提高开发效率。

《移动商务网页设计与制作》第11章--Web-Worker-处理线程.ppt: 《移动商务网页设计与制作》第11章--Web-Worker-处理线程.ppt

chromedriver-win64-135.0.7049.114.zip: chromedriver-win64-135.0.7049.114.zip

《计算机系统维护》第14章--硬盘分区的调整.ppt: 《计算机系统维护》第14章--硬盘分区的调整.ppt

这篇文章详细探讨了交错并联Buck变换器的设计、仿真及其实现，涵盖了从理论分析到实际应用的多个方面（含详细代码及解释）: 内容概要：本文深入研究了交错并联Buck变换器的工作原理、性能优势及其具体实现。文章首先介绍了交错并联Buck变换器相较于传统Buck变换器的优势，包括减小输出电流和电压纹波、降低开关管和二极管的电流应力、减小输出滤波电容容量等。接着，文章详细展示了如何通过MATLAB/Simulink建立该变换器的仿真模型，包括参数设置、电路元件添加、PWM信号生成及连接、电压电流测量模块的添加等。此外，还探讨了PID控制器的设计与实现，通过理论分析和仿真验证了其有效性。最后，文章通过多个仿真实验验证了交错并联Buck变换器在纹波性能、器件应力等方面的优势，并分析了不同控制策略的效果，如P、PI、PID控制等。适合人群：具备一定电力电子基础，对DC-DC变换器特别是交错并联Buck变换器感兴趣的工程师和技术人员。使用场景及目标：①理解交错并联Buck变换器的工作原理及其相对于传统Buck变换器的优势；②掌握使用MATLAB/Simulink搭建交错并联Buck变换器仿真模型的方法；③学习PID控制器的设计与实现，了解其在电源系统中的应用；④通过仿真实验验证交错并联Buck变换器的性能，评估不同控制策略的效果。其他说明：本文不仅提供了详细的理论分析，还给出了大量可运行的MATLAB代码，帮助读者更好地理解和实践交错并联Buck变换器的设计与实现。同时，通过对不同控制策略的对比分析，为实际工程应用提供了有价值的参考。

基于单片机的秒表计时器设计(程序+仿真+电路)(51+SEG4+BZ+KEY5) #0400: 包括：源程序工程文件、Proteus仿真工程文件、电路原理图文件、配套技术手册 1、采用51/52单片机(通用)作为主控芯片； 2、数码管前两位显示分钟，后两位显示秒； 3、可以切换正计时/倒计时; 4、可设置倒计时时间，倒计时结束蜂鸣器报警； 5、计时过程中可记录时刻点 (存储十组记录数据)，可翻看记录的数据。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive默认分隔符引起的日志分割问题

Hive中的外部表

Hive中的分隔符

评论

发表评论

相关推荐

Storm环境搭建和基本入门

理解Storm Metrics

Storm存储结果至Redis

Storm集成Kafka的Trident实现

Java程序中不通过hadoop jar的方式访问hdfs

oozie工作流相关入门整理

Hadoop MapReduce任务的启动分析

记一次数据处理效率优化过程

Hive语句执行优化－简化UDF执行过程

MapReduce启动的Map/Reduce子任务简要分析

locale错误导致Java中文乱码错误的总结

hadoop map任务Combiner被调用的源码逻辑简要分析

hadoop从调整GC到关键Counter计算原理分析

hadoop中使用hprof工具进行性能分析

hadoop map端的超时参数

hadoop Shuffle Error OOM错误分析和解决

hadoop中的一次集群任务执行超时问题查找过程

Hadoop Map/Reduce的工作流

Hive中的用户自定义函数UDF

hadoop集群调优－hadoop settings and MapReduce

最近访客更多访客>>