`

hive用正则表达式的方式使用多字节切割符号

 
阅读更多
hive默认是不支持多字节切割符号的.
我采用了正则表达式的方式来实现.
数据类似:

1<;>1<;>1<;>PC COOKIE<;>99<;>1024<;><;>2013/07/28
39<;>1<;>1<;>PC手机<;>97<;>272<;>8<;>2013/07/28



我的建表语句
CREATE TABLE business1(
downloads string, 
uniqdownloads string, 
uniqimsis string, 
weightname string, 
porttype string,
subporttype string, 
action string,
addtime string
)
ROW FORMAT  SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'  WITH SERDEPROPERTIES  
("input.regex" = "(.*)\\<\\;\\>(.*)\\<\\;\\>(.*)\\<\\;\\>(.*)\\<\\;\\>(.*)\\<\\;\\>(.*)\\<\\;\\>(.*)\\<\\;\\>(.*)",
 "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s")  
STORED AS TEXTFILE  
LOCATION
'hdfs://nameservice1/user/jk/business1';
0
2
分享到:
评论

相关推荐

    电话号码及日期时间提取(正则表达式 C)

    在本项目中,“电话号码及日期时间提取(正则表达式 C)”是一个使用C语言编写的程序,它能够从文本中有效地识别和提取中国大陆的手机号码和固定电话号码,以及简体中文网页中的日期和时间信息。 首先,我们要理解...

    hivezzy:添加partition支持正则表达式

    `hivezzy`项目似乎旨在扩展Hive的功能,添加了对Partition使用正则表达式的支持。 正则表达式在数据处理中非常强大,它允许我们使用模式匹配来搜索、替换或提取数据。在`hivezzy`中,通过集成正则表达式,用户现在...

    正则表达式实现匹配连续数字的方法

    我这两天刚刚学正则表达式。我觉的正则对连续的字符匹配很简单,但是对连续的一段数字匹配就不是很好。正好最近有朋友问了匹配连续数字的正则,就帮忙写了一下,算是当作温习一下吧。下面这篇文章就主要介绍了正则...

    Hive多字节分隔符解决方案.docx

    使用RegexSerDe,可以在加载数据时,使用正则表达式来识别多字节分隔符,并正确加载对应的数据。 ### 解决方案三:自定义InputFormat 自定义InputFormat是Hive提供的一种机制,允许用户自定义数据加载的方式。使用...

    正则表达式大全

    ### 正则表达式知识点详解 #### 一、正则表达式概述 正则表达式是一种强有力的工具,用于处理文本中的模式匹配与替换任务。它能够帮助开发者在文本数据中执行搜索、替换以及提取等操作。尽管初学时可能会觉得有些...

    过滤特殊字符及表情符

    - **正则表达式**:使用正则表达式可以高效地匹配并移除或替换特殊字符和表情符号。例如,`[^\w\s]` 可以匹配非字母数字和空格的字符。 - **字符串函数**:Java中的`String.replaceAll()`方法,可以结合正则表达式...

    C# 去掉特定字符(使用ASC码)

    如果你需要处理包含Unicode字符的字符串,可能需要使用其他方法,例如使用正则表达式或者`string.Replace()`函数。 总结来说,C#中通过ASCII码去除特定字符的方法是一种直观且实用的技巧,尤其适用于处理仅包含...

    各种情况手机号清洗udf函数(hive impala)

    我们将涵盖正则表达式在手机号码清洗中的应用,以及如何编写和使用Java UDF在Hive和Impala中实现这个过程。 1. **手机号码格式问题**:手机号码可能因历史记录、输入错误或不同的国家/地区标准而呈现多种格式。例如...

    字符串的全角半角转换 java

    而半角字符(半宽度字符)则主要是一些英文、数字和ASCII符号,每个字符占用一个字节。 标题“字符串的全角半角转换 java”提示我们将讨论如何在Java中实现这种转换。下面是一个简单的Java类`BCConvert`,它提供了...

    hive函数大全.doc

    下面是 Hive 中的一些常用函数,可以与实际应用结合使用。 关系运算 关系运算是 Hive 中最基本的操作之一,用于比较两个表达式的值。Hive 提供了多种关系运算符,包括: 1. 等值比较:`=` 等值比较操作符用于...

    HIVE函数详解大全

    10. JAVA 的 LIKE 操作:`RLIKE` - 类似于LIKE,但使用正则表达式进行匹配。 11. REGEXP 操作:`REGEXP` - 使用正则表达式进行精确匹配。 二、数学运算 数学运算符用于对数值进行基本的算术操作: 1. 加法操作:`...

    Hive内置函数速查表.pdf

    字符串相关的函数如LIKE、RLIKE、REGEXP等可用于对字符串进行模式匹配,其中LIKE允许使用通配符%和_,而RLIKE和REGEXP则支持正则表达式。 数学运算符在Hive中是基本的数据处理功能,包括加法、减法、乘法、除法、...

    hive sql 拆解字段.docx

    如果要使用正则表达式替换字符串中的匹配项,可以使用 REGEXP_REPLACE 函数;如果要将一个数组列拆解成多行,可以使用 LATERAL VIEW explode 函数。 此外,还有其他一些函数可以用于更复杂的场景,如 `regexp_...

    Hive函数大全.pdf

    使用正则表达式进行匹配,例如`column REGEXP 'pattern'`。 二、数学函数 Hive提供了许多数学函数,如`ABS()`(绝对值)、`SQRT()`(平方根)、`POW(a, b)`(a的b次方)、`RAND()`(随机数)、`ROUND(a, d)`(四舍...

    第5章:Hive函数重要应用案例1

    在Hive中,通常使用单字节分隔符(如逗号、制表符)来加载文本数据,但在实际场景中,可能会遇到使用多字节分隔符(如"||"、"--")的情况,以及字段内包含默认分隔符的数据。 ### 2.1 多字节分隔符 **2.1.1 分隔符...

    Hive metastore 使用达梦数据库存储元数据

    《Hive metastore 使用达梦数据库存储元数据详解》 在大数据处理领域,Hive作为一个分布式数据仓库工具,被广泛用于存储和管理大规模结构化数据。Hive的元数据是其核心组成部分,它包含了表、分区、列等信息,使得...

    hive常用运算和函数1

    9. **JAVA 的 LIKE 操作: RLIKE**: 使用 `RLIKE` 运算符进行Java风格的正则表达式匹配。例如:`hive&gt; select 1 from dual where 'footbar' rlike '^f.*r$';` 10. **REGEXP 操作**: 使用 `REGEXP` 运算符也进行正则...

    利用Hive进行复杂用户行为大数据分析及优化案例

    利用Hive进行复杂用户行为大数据分析及优化案例(全套视频+课件+代码+讲义+工具软件),具体内容包括: 01_自动批量加载数据到hive ...16_Hive中使用正则加载数据 17_Hive中使用Python脚本进行预处理

    连接hive依赖的jar包_hive连接方式

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得用户可以使用SQL语句来处理存储在Hadoop分布式文件系统(HDFS)上的大数据。...

    Hive用户指南 Hive user guide 中文版

    - **REGEX Column Specification**:使用正则表达式来指定列的模式。 #### 三、Hive Select **3.1 分组查询** - `SELECT ... GROUP BY ...`用于对数据进行分组统计。 **3.2 排序** - `ORDER BY`和`SORT BY`分别...

Global site tag (gtag.js) - Google Analytics