`
奔跑的羚羊
  • 浏览: 577764 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

hive自定义分隔符和处理Apache日志

    博客分类:
  • hive
阅读更多
自定义分隔符

1.日志格式
 2010-05-31 10:50:17|61.132.4.82|http://www.360buy.com/product/201185.html  

分隔符是“ | ”

2.创建自定义分隔符的数据表
CREATE TABLE click_test ( time string, ip string, url string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\|' STORED AS TEXTFILE;


3.加载数据
LOAD DATA LOCAL INPATH '/data/clicktest_20110217.txt' OVERWRITE INTO TABLE click_test;


4.查询数据
select * from click_test;




处理Apache日志

1.日志格式
127.0.0.1 - frank [10/Oct/2000:13:55:36 -0700] "GET /apache_pb.gif HTTP/1.0" 200 2326


2.创建数据库
CREATE TABLE apachelog (
  host STRING,
  identity STRING,
  user STRING,
  time STRING,
  request STRING,
  status STRING,
  size STRING,
  referer STRING,
  agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
  "input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\".*\") ([^ \"]*|\".*\"))?",
  "output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

3.加载数据
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.log" INTO TABLE apachelog;
hive> LOAD DATA LOCAL INPATH "./examples/files/apache.access.2.log" INTO TABLE apachelog;


4.查询数据
hive> select * from apachelog order by time;



使用order by查询后,会报错:
Caused by: java.lang.ClassNotFoundException: org.apache.hadoop.hive.contrib.serde2.RegexSerDe
	at java.net.URLClassLoader$1.run(URLClassLoader.java:202)
	at java.security.AccessController.doPrivileged(Native Method)

启动时,需要添加hive_contrib.jar
hive --auxpath ./hive/lib/hive_contrib.jar



参考http://wiki.apache.org/hadoop/Hive/LanguageManual/DDL
分享到:
评论
1 楼 lvshuding 2011-08-05  
学习了,正在找这方面的资料

相关推荐

    Spark不能使用hive自定义函数.doc

    在大数据处理领域,Apache Spark 和 Apache Hive 都是非常重要的工具。Spark 是一种快速通用的大规模数据处理系统,而Hive 则是一种数据仓库工具,主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和...

    Hive多字节分隔符解决方案.docx

    Hive是一种基于Hadoop的数据仓库工具,用于存储和处理大量数据。然而,在加载数据到Hive表中时,我们可能会遇到多字节分隔符问题,即数据中的分隔符不是单字节的,而是多字节的。这种情况下,Hive默认的单字节分隔符...

    Apache Web日志Hive实验数据

    Apache Web日志Hive实验数据是针对大数据处理和分析领域的一个常见练习,主要涉及Apache Hive这一强大的大数据处理工具。Apache Hive是一种基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,...

    hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

    Hive是大数据处理领域中的一个关键组件,它作为基于Hadoop的数据仓库工具,为企业提供了对大规模数据集的SQL-like查询和分析能力。本教程将深入探讨Hive数仓的架构与设计,Hive SQL的基本语法及高级特性,以及如何...

    hive自定义函数demo

    本示例“hive自定义函数demo”将探讨如何在Hive中开发和使用自定义函数(UDF),这对于扩展Hive的功能和适应特定业务需求至关重要。下面,我们将深入学习与Hive自定义函数相关的知识。 1. **什么是Hive UDF?** ...

    hive的自定义函数

    在大数据处理领域,Apache Hive 是一个广泛使用的数据仓库工具,它提供了一种SQL-like查询语言——HiveQL,使用户能够轻松地对存储在Hadoop文件系统中的大规模数据集进行数据汇总、特殊查询和其他统计分析。...

    atlas hive hook 编译依赖 apache-atlas-1.2.0-hive-hook.tar.gz

    4. **数据分类与标签**:Apache Atlas 支持自定义数据分类和标签,Hive Hook 可以自动应用这些标签,以标记敏感或关键数据,进而实施相应的访问控制策略。 5. **安全策略**:通过与 Atlas 的集成,Hive Hook 可以...

    hive2.0+开启审计日志.pdf

    审计日志记录了用户对Hive Metastore的所有操作,包括元数据的创建、修改和查询等,这对于追踪系统活动、故障排查以及满足法规要求非常关键。然而,在Hive 3.0+版本中,由于采用了Log4j2作为默认的日志框架,开启...

    hive自定义UDF编写函数.docx

    本文主要讲解了 Hive 中自定义 UDF 函数的编写方法,包括创建 UDF 类、实现自定义函数逻辑、编译和打包 UDF jar 包、上传至 Hive 服务器并注册自定义函数。 一、创建 UDF 类 为了实现自定义 UDF 函数,需要创建一...

    apache-hive-2.1.1-bin.tar

    apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tar apache-hive-2.1.1-bin.tarapache-hive-2.1.1-bin.tar apache-hive-2.1.1-...

    HIVE自定义UDF函数

    Hive 是一个基于 Hadoop 的数据仓库工具,用于处理大规模数据集。它使用类似 SQL 的语言 HiveQL 来查询和管理数据。而自定义用户定义函数(UDF)是 Hive 中的一个重要功能,允许用户根据自己的需求编写自定义函数,...

    hive综合应用案例-用户搜索日志分析.docx

    这里使用了制表符`\t`作为字段之间的分隔符,并指定了数据文件的具体存储位置。 #### 三、数据导入 完成表结构的定义后,下一步是将实际的日志数据导入到Hive表中。这通常可以通过两种方式实现: 1. **上传数据文件...

    apache-hive-3.1.2.bin.tar 资源 权威官网下载!

    Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用户使用SQL-like语言(称为HQL,Hive Query Language)来查询、管理和处理大数据集。在大数据领域,Hive扮演着重要的角色,因为它为非结构化和半结构化数据提供...

    Apache Hive(apache-hive-3.1.3-bin.tar.gz)

    Apache Hive(apache-hive-3.1.3-bin.tar.gz、apache-hive-3.1.3-src.tar.gz)是一种分布式容错数据仓库系统,支持大规模分析,并使用 SQL 促进读取、写入和管理驻留在分布式存储中的 PB 级数据。Hive 构建在 Apache...

    apache-hive-2.3.0-bin.tar.gz

    总的来说,"apache-hive-2.3.0-bin.tar.gz"提供的二进制文件,可以帮助用户搭建和运行Apache Hive 2.3.0环境,进行大数据处理和分析。通过Hive,用户可以利用SQL熟悉的语法对海量数据进行高效管理和查询,而无需深入...

    Apache Hive Essentials

    Apache Hive Essentials,2015,第一版,Packt Publishing

    apache-hive-1.2.2-bin.tar.gz

    Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用户通过SQL-like语法来查询、管理和处理存储在Hadoop分布式文件系统(HDFS)中的大规模数据集。Hive 1.2.2是其的一个稳定版本,提供了许多改进和新功能。在深入...

    apache-hive-3.1.2-bin.tar.gz

    Apache Hive 是一个基于Hadoop的数据仓库工具,它允许用SQL-like查询语言(称为HQL)对存储在Hadoop分布式文件系统(HDFS)中的大量数据进行处理和分析。Hive 3.1.2是Hive项目的其中一个稳定版本,与Spark 3.0.0有...

    apache-hive-2.3.7-bin.tar.gz

    2. **conf**:配置文件夹,存放如 `hive-site.xml` 和 `log4j.properties` 等配置文件,用于自定义 Hive 的运行环境和日志设置。 3. **lib**:包含 Hive 运行所需的库文件,如 JDBC 驱动、依赖的 Hadoop 库和其他第...

    hive 创建自定义函数 和 hive加载说明

    这篇博文主要探讨了如何在Hive中创建自定义函数以及如何加载它们,这对于深化Hive的使用和解决复杂的数据处理问题至关重要。 首先,我们来看一下创建自定义函数的过程。在Hive中,UDF分为三种类型:UDF(User ...

Global site tag (gtag.js) - Google Analytics