`
k_lb
  • 浏览: 856240 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论
  • kitleer: 据我所知,国内有款ETL调度监控工具TaskCTL,支持ket ...
    kettle调度

HIVE 通过正则匹配 字段分列

 
阅读更多

通过 SerDe(serialize/deserialize) ,在数据序列化和反序列化时格式化数据。

这种方式稍微复杂一点,对数据的控制能力也要弱一些,它使用正则表达式来匹配和处理数据,性能也会有所影响。但它的优点是可以自定义表属性信息 SERDEPROPERTIES ,在 SerDe 中通过这些属性信息可以有更多的定制行为。



原数据类型:


"abc"@_@123@_@"192.168.1.2"@_@"2013-02-05 12:13:00"


1.Hive 增加JAR 包

add jar /opt/app/hive-0.7.0-rc1/lib/hive-contrib-0.7.0.jar ;  

2.创建表结构


create table hive_test(name string,  
age string,  
ip string ,
`date` string
) ROW FORMAT  
SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  
WITH SERDEPROPERTIES  
( 'input.regex' = '"(.*)"@_@(.*)@_@"(.*)"@_@"(.*)"',  
'output.format.string' = '%1$s %2$s %3$s %4$s')  
STORED AS TEXTFILE  

3.导入数据


load data local inpath '/home/op1/uerdwdb/data_test.txt' into table hive_test;


分享到:
评论

相关推荐

    基于 Java通过hive-sql分析字段的血缘关系

    【作品名称】:基于 Java通过hive-sql分析字段的血缘关系 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】:通过hive-...

    过滤特殊字符及表情符

    - **正则表达式**:使用正则表达式可以高效地匹配并移除或替换特殊字符和表情符号。例如,`[^\w\s]` 可以匹配非字母数字和空格的字符。 - **字符串函数**:Java中的`String.replaceAll()`方法,可以结合正则表达式...

    修改hive表分区名称

    在大数据处理领域中,Apache Hive是一款广泛使用的数据仓库工具,它能够将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能,使得用户能够通过简单的SQL语句来处理存储在Hadoop中的大规模数据集。...

    字符串的全角半角转换 java

    在Java编程中,字符串的全角半角转换是一项常见的需求,尤其在处理用户输入或文本显示时。全角字符和半角字符的区别在于...通过理解字符编码和Unicode,我们可以编写出更灵活和健壮的转换函数,以满足不同项目的需求。

    正则表达式实现匹配连续数字的方法

    我觉的正则对连续的字符匹配很简单,但是对连续的一段数字匹配就不是很好。正好最近有朋友问了匹配连续数字的正则,就帮忙写了一下,算是当作温习一下吧。下面这篇文章就主要介绍了正则表达式实现匹配连续数字的方法...

    hive数据分区时分区字段不可为中文。.doc

    - **关键点回顾**:本文介绍了 Hive 数据分区的概念、分区字段的要求以及如何解决中文字符作为分区字段的问题。 - **最佳实践**:始终确保配置文件中的字符编码设置正确,并且在修改任何配置之前都进行充分的备份。 ...

    CDH6.3.2版本hive2.1.1修复HIVE-14706后的jar包

    通过更新此jar包,Hive用户可以重新获得丢失的字段级血缘信息,使得数据处理和查询变得更加可靠和高效。 修复HIVE-14706问题不仅仅是一个技术上的补丁,它是对整个Hive生态系统的完善。随着修复后的版本发布,...

    sql行列转换、一个字段包含另一个字段.sql

    sql行列转换、一个字段包含另一个字段.sql

    电话号码及日期时间提取(正则表达式 C)

    通过学习和理解这段代码,开发者可以掌握如何在C程序中集成和使用正则表达式,提升文本处理能力。同时,对于电话号码和日期时间的正则表达式设计,也是理解正则表达式灵活性和强大功能的好例子。

    hive表新增字段或者修改字段

    首先,让我们来看看如何在Hive中修改表字段的数据类型或字段名称。这通常涉及到以下步骤: 1. 如果表是外部表,需要将其转换为内部表,以便Hive能够控制其元数据。这可以通过以下命令完成: ```sql alter table ...

    hive sql 拆解字段.docx

    Hive SQL 拆解字段详解 Hive SQL 中的拆解字段是指将一个字段拆分成多个子字段,以便更好地分析和处理数据。在 Hive 中,可以使用多种函数来拆解字段,本文将详细介绍四种常用的函数:SPLIT、SUBSTRING_INDEX、...

    各种情况手机号清洗udf函数(hive impala)

    我们将涵盖正则表达式在手机号码清洗中的应用,以及如何编写和使用Java UDF在Hive和Impala中实现这个过程。 1. **手机号码格式问题**:手机号码可能因历史记录、输入错误或不同的国家/地区标准而呈现多种格式。例如...

    利用Hive进行复杂用户行为大数据分析及优化案例

    利用Hive进行复杂用户行为大数据分析及优化案例(全套视频+课件+代码+讲义+工具软件),具体内容包括: 01_自动批量加载数据到hive ...16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理

    SQL、Hive SQL等SQL血缘解析工具

    // 获取id字段的血缘 LineageNode idNode = Delegate.getDelegate().getLineage(hql, "id"); // 获取name字段的血缘 LineageNode nameNode = Delegate.getDelegate().getLineage(hql, "name"); // 打印血缘 ...

    Hive使用手册Hive使用手册

    连接Hive通常通过Hive Shell或使用其他支持Hive的客户端如Beeline、Hue等。要连接Hive,你需要知道Hive服务器的地址、端口以及认证方式(如果有的话)。 2. **Hive支持的数据类型** - **原子数据类型** 包括:INT...

    SQL获取千分位,两种方法

    select convert(varchar,cast(asst_depreciation_money AS MONEY),1) AS asst_depreciation_money -----带小数点的 select reverse(stuff(reverse(convert(varchar,convert(money,123000),1)),1,3,'')) ----不带...

    sqoop从mysql到hive的时间字段问题

    一、问题发现与分析 ...经过对比:sqoop在转换MySQL的datatime字段类型为hive的string时会出现问题:默认先转为对应时间戳,再转换为北京市区时间,就会使时间多8小时。 解决办法有两个: 1、在sql里将时间字段转换为

    python或hive根据ip计算地域分布的算法

    标题中的“python或hive根据ip计算地域分布的算法”指的是使用Python编程语言或者Hive数据仓库工具来分析网络日志中的IP地址,并将其对应到相应的地理位置,从而得出IP的地域分布情况。这两种方法各有特点,适用于...

    大数据小型实战项目源码之Hive 通过日期计算星座实例

    本实战项目是关于如何利用Hive通过日期来计算星座的一个实例,旨在帮助学习者更好地理解和应用Hive进行实际的数据处理任务。 首先,我们需要了解Hive的基本概念。Hive是由Facebook开发并开源的,基于Hadoop的数据...

    大数据实验六实验报告:熟悉Hive的基本操作

    Hive是基于Hadoop的数据仓库工具,它允许通过SQL-like查询语言(HQL)对分布式存储的大数据集进行处理和分析。 1. **创建内部表**: 在Hive中,内部表由Hive自身管理,数据存储在HDFS中。实验中创建了一个名为`...

Global site tag (gtag.js) - Google Analytics