HIVE 通过正则匹配字段分列 - 松篁 - ITeye博客

`

k_lb

浏览: 856240 次
性别:
来自: 郑州

最近访客更多访客>>

u012363178

rattersnake

LuffyMother

uclnn

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kitleer：据我所知，国内有款ETL调度监控工具TaskCTL，支持ket ...
kettle调度

HIVE 通过正则匹配字段分列

阅读更多

通过 SerDe(serialize/deserialize) ，在数据序列化和反序列化时格式化数据。

这种方式稍微复杂一点，对数据的控制能力也要弱一些，它使用正则表达式来匹配和处理数据，性能也会有所影响。但它的优点是可以自定义表属性信息 SERDEPROPERTIES ，在 SerDe 中通过这些属性信息可以有更多的定制行为。

原数据类型：

"abc"@_@123@_@"192.168.1.2"@_@"2013-02-05 12:13:00"

1.Hive 增加JAR 包

add jar /opt/app/hive-0.7.0-rc1/lib/hive-contrib-0.7.0.jar ;

2.创建表结构

create table hive_test(name string,  
age string,  
ip string ,
`date` string
) ROW FORMAT  
SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  
WITH SERDEPROPERTIES  
( 'input.regex' = '"(.*)"@_@(.*)@_@"(.*)"@_@"(.*)"',  
'output.format.string' = '%1$s %2$s %3$s %4$s')  
STORED AS TEXTFILE

3.导入数据

load data local inpath '/home/op1/uerdwdb/data_test.txt' into table hive_test;

分享到：

hive中使用自定义函数(UDF)实现分析函数ro ... | HIVE 自定义函数 UDF

2013-01-25 17:36
浏览 1484
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

基于 Java通过hive-sql分析字段的血缘关系: 【作品名称】：基于 Java通过hive-sql分析字段的血缘关系【适用人群】：适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。【项目介绍】：通过hive-...

过滤特殊字符及表情符: - **正则表达式**：使用正则表达式可以高效地匹配并移除或替换特殊字符和表情符号。例如，`[^\w\s]` 可以匹配非字母数字和空格的字符。 - **字符串函数**：Java中的`String.replaceAll()`方法，可以结合正则表达式...

修改hive表分区名称: 在大数据处理领域中，Apache Hive是一款广泛使用的数据仓库工具，它能够将结构化的数据文件映射为一张数据库表，并提供类SQL查询功能，使得用户能够通过简单的SQL语句来处理存储在Hadoop中的大规模数据集。...

字符串的全角半角转换 java: 在Java编程中，字符串的全角半角转换是一项常见的需求，尤其在处理用户输入或文本显示时。全角字符和半角字符的区别在于...通过理解字符编码和Unicode，我们可以编写出更灵活和健壮的转换函数，以满足不同项目的需求。

正则表达式实现匹配连续数字的方法: 我觉的正则对连续的字符匹配很简单，但是对连续的一段数字匹配就不是很好。正好最近有朋友问了匹配连续数字的正则，就帮忙写了一下，算是当作温习一下吧。下面这篇文章就主要介绍了正则表达式实现匹配连续数字的方法...

hive数据分区时分区字段不可为中文。.doc: - **关键点回顾**：本文介绍了 Hive 数据分区的概念、分区字段的要求以及如何解决中文字符作为分区字段的问题。 - **最佳实践**：始终确保配置文件中的字符编码设置正确，并且在修改任何配置之前都进行充分的备份。 ...

CDH6.3.2版本hive2.1.1修复HIVE-14706后的jar包: 通过更新此jar包，Hive用户可以重新获得丢失的字段级血缘信息，使得数据处理和查询变得更加可靠和高效。修复HIVE-14706问题不仅仅是一个技术上的补丁，它是对整个Hive生态系统的完善。随着修复后的版本发布，...

sql行列转换、一个字段包含另一个字段.sql: sql行列转换、一个字段包含另一个字段.sql

电话号码及日期时间提取(正则表达式 C): 通过学习和理解这段代码，开发者可以掌握如何在C程序中集成和使用正则表达式，提升文本处理能力。同时，对于电话号码和日期时间的正则表达式设计，也是理解正则表达式灵活性和强大功能的好例子。

hive表新增字段或者修改字段: 首先，让我们来看看如何在Hive中修改表字段的数据类型或字段名称。这通常涉及到以下步骤： 1. 如果表是外部表，需要将其转换为内部表，以便Hive能够控制其元数据。这可以通过以下命令完成： ```sql alter table ...

hive sql 拆解字段.docx: Hive SQL 拆解字段详解 Hive SQL 中的拆解字段是指将一个字段拆分成多个子字段，以便更好地分析和处理数据。在 Hive 中，可以使用多种函数来拆解字段，本文将详细介绍四种常用的函数：SPLIT、SUBSTRING_INDEX、...

各种情况手机号清洗udf函数（hive impala）: 我们将涵盖正则表达式在手机号码清洗中的应用，以及如何编写和使用Java UDF在Hive和Impala中实现这个过程。 1. **手机号码格式问题**：手机号码可能因历史记录、输入错误或不同的国家/地区标准而呈现多种格式。例如...

利用Hive进行复杂用户行为大数据分析及优化案例: 利用Hive进行复杂用户行为大数据分析及优化案例（全套视频+课件+代码+讲义+工具软件），具体内容包括： 01_自动批量加载数据到hive ...16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理

SQL、Hive SQL等SQL血缘解析工具: // 获取id字段的血缘 LineageNode idNode = Delegate.getDelegate().getLineage(hql, "id"); // 获取name字段的血缘 LineageNode nameNode = Delegate.getDelegate().getLineage(hql, "name"); // 打印血缘 ...

Hive使用手册Hive使用手册: 连接Hive通常通过Hive Shell或使用其他支持Hive的客户端如Beeline、Hue等。要连接Hive，你需要知道Hive服务器的地址、端口以及认证方式（如果有的话）。 2. **Hive支持的数据类型** - **原子数据类型** 包括：INT...

SQL获取千分位，两种方法: select convert(varchar,cast(asst_depreciation_money AS MONEY),1) AS asst_depreciation_money -----带小数点的 select reverse(stuff(reverse(convert(varchar,convert(money,123000),1)),1,3,'')) ----不带...

sqoop从mysql到hive的时间字段问题: 一、问题发现与分析 ...经过对比：sqoop在转换MySQL的datatime字段类型为hive的string时会出现问题：默认先转为对应时间戳，再转换为北京市区时间，就会使时间多8小时。解决办法有两个： 1、在sql里将时间字段转换为

python或hive根据ip计算地域分布的算法: 标题中的“python或hive根据ip计算地域分布的算法”指的是使用Python编程语言或者Hive数据仓库工具来分析网络日志中的IP地址，并将其对应到相应的地理位置，从而得出IP的地域分布情况。这两种方法各有特点，适用于...

大数据小型实战项目源码之Hive 通过日期计算星座实例: 本实战项目是关于如何利用Hive通过日期来计算星座的一个实例，旨在帮助学习者更好地理解和应用Hive进行实际的数据处理任务。首先，我们需要了解Hive的基本概念。Hive是由Facebook开发并开源的，基于Hadoop的数据...

大数据实验六实验报告：熟悉Hive的基本操作: Hive是基于Hadoop的数据仓库工具，它允许通过SQL-like查询语言（HQL）对分布式存储的大数据集进行处理和分析。 1. **创建内部表**：在Hive中，内部表由Hive自身管理，数据存储在HDFS中。实验中创建了一个名为`...

Global site tag (gtag.js) - Google Analytics