`

Hadoop Hive sql语法详解5--HiveQL与SQL区别

    博客分类:
  • Hive
阅读更多

1.hive内联支持什么格式?
2.分号字符注意什么问题?

3.hive中empty是否为null?
4.hive是否支持插入现有表或则分区中?
5.hive是否支持INSERT INTO 表 values()?


1、Hive不支持等值连接 

•SQL中对两表内联可以写成:
•select * from dual a,dual b where a.key = b.key;
•Hive中应为
•select * from dual a join dual b on a.key = b.key; 
而不是传统的格式:
SELECT t1.a1 as c1, t2.b1 as c2FROM t1, t2
WHERE t1.a2 = t2.b2

2、分号字符
•分号是SQL语句结束标记,在HiveQL中也是,但是在HiveQL中,对分号的识别没有那么智慧,例如:
•select concat(key,concat(';',key)) from dual;
•但HiveQL在解析语句时提示:
        FAILED: Parse Error: line 0:-1 mismatched input '<EOF>' expecting ) in function specification
•解决的办法是,使用分号的八进制的ASCII码进行转义,那么上述语句应写成:
•select concat(key,concat('\073',key)) from dual;

3、IS [NOT] NULL
•SQL中null代表空值, 值得警惕的是, 在HiveQL中String类型的字段若是空(empty)字符串, 即长度为0, 那么对它进行IS NULL的判断结果是False.

4、Hive不支持将数据插入现有的表或分区中,
仅支持覆盖重写整个表,示例如下:

  1. INSERT OVERWRITE TABLE t1  
  2. SELECT * FROM t2;
复制代码



5、hive不支持INSERT INTO 表 Values(), UPDATE, DELETE操作
    这样的话,就不要很复杂的锁机制来读写数据。
    INSERT INTO syntax is only available starting in version 0.8。INSERT INTO就是在表或分区中追加数据。

6、hive支持嵌入mapreduce程序,来处理复杂的逻辑
如:

  1. FROM (  
  2. MAP doctext USING 'python wc_mapper.py' AS (word, cnt)  
  3. FROM docs  
  4. CLUSTER BY word  
  5. ) a  
  6. REDUCE word, cnt USING 'python wc_reduce.py';  
复制代码



--doctext: 是输入
--word, cnt: 是map程序的输出

--CLUSTER BY: 将wordhash后,又作为reduce程序的输入



并且map程序、reduce程序可以单独使用,如:

  1. FROM (  
  2. FROM session_table  
  3. SELECT sessionid, tstamp, data  
  4. DISTRIBUTE BY sessionid SORT BY tstamp  
  5. ) a  
  6. REDUCE sessionid, tstamp, data USING 'session_reducer.sh';  
复制代码



-DISTRIBUTE BY: 用于给reduce程序分配行数据

7、hive支持将转换后的数据直接写入不同的表,还能写入分区、hdfs和本地目录
这样能免除多次扫描输入表的开销。

  1. FROM t1  
  2.   
  3. INSERT OVERWRITE TABLE t2  
  4. SELECT t3.c2, count(1)  
  5. FROM t3  
  6. WHERE t3.c1 <= 20  
  7. GROUP BY t3.c2  
  8.   
  9. INSERT OVERWRITE DIRECTORY '/output_dir'  
  10. SELECT t3.c2, avg(t3.c1)  
  11. FROM t3  
  12. WHERE t3.c1 > 20 AND t3.c1 <= 30  
  13. GROUP BY t3.c2  
  14.   
  15. INSERT OVERWRITE LOCAL DIRECTORY '/home/dir'  
  16. SELECT t3.c2, sum(t3.c1)  
  17. FROM t3  
  18. WHERE t3.c1 > 30  
  19. GROUP BY t3.c2;  
复制代码


实际实例

创建一个表
CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '/t'
STORED AS TEXTFILE;

下载示例数据文件,并解压缩
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz

加载数据到表中:
LOAD DATA LOCAL INPATH 'ml-data/u.data'
OVERWRITE INTO TABLE u_data;

统计数据总量:
SELECT COUNT(1) FROM u_data;

现在做一些复杂的数据分析:
创建一个 weekday_mapper.py: 文件,作为数据按周进行分割 
import sys
import datetime

for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('/t')

生成数据的周信息
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '/t'.join([userid, movieid, rating, str(weekday)])

使用映射脚本
//创建表,按分割符分割行中的字段值
CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '/t';
//将python文件加载到系统
add FILE weekday_mapper.py;

将数据按周进行分割
INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime)
USING 'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
FROM u_data;

SELECT weekday, COUNT(1)
FROM u_data_new
GROUP BY weekday;

处理Apache Weblog 数据
将WEB日志先用正则表达式进行组合,再按需要的条件进行组合输入到表中
add jar ../build/contrib/hive_contrib.jar;

CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|//[[^//]]*//]) ([^ /"]*|/"[^/"]*/") (-|[0-9]*) (-|[0-9]*)(?: ([^ /"]*|/"[^/"]*/") ([^ /"]*|/"[^/"]*/"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;

分享到:
评论
1 楼 cldtc 2014-08-13  
您好,想请教一个问题,using python脚本的时候怎样打counter呢?
如果正常用 sys.stderr.write("\nreporter:counter:*****,1\n) 会直接打在stderr里面,怎样才能变成正常的counter呢? 或者有什么办法可以得到一些计数的值

相关推荐

    DBeaver链接hive驱动包下载: hive-jdbc-uber-2.6.5.0-292.jar

    《DBeaver与Hive连接:hive-jdbc-uber-2.6.5.0-292.jar驱动详解》 在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,广泛用于数据查询和分析。而DBeaver,作为一款跨平台的数据库管理工具,以其用户友好的...

    Hadoop-2.8.0-Day08-Hive函数与HQL详解-课件与资料.zip

    Hadoop是一个开源框架,主要用于分布式存储和计算大规模数据集,而Hive则是建立在Hadoop之上的一种数据仓库工具,它提供了一种SQL-like的语言(称为HiveQL或HQL)来方便数据查询和分析。在这个"Day08-Hive函数与HQL...

    Hive SQL 编译过程详解

    - **Phase1 SQL词法,语法解析**:Hive使用Antlr工具解析SQL,生成抽象语法树(AST Tree)。Antlr是一个强大的解析工具,能够解析特定的语言结构,如HiveQL。 - **Phase2 AST Tree到QueryBlock**:接下来,Hive...

    Hive中SQL详解

    Hive SQL语法与关系型数据库的SQL语法类似,但也有一些差异。 Hive SQL支持绝大多数的语句,如DDL、DML、聚合函数、连接查询、条件查询等。 * SELECT:选择表中的数据。 * FROM:指定表名。 * WHERE:指定条件。 * ...

    Hive语法详解

    ### Hive SQL语法详解 #### 一、Hive简介与特性 Hive是一个建立在Hadoop之上的数据仓库工具,主要用于对存储在Hadoop文件系统(HDFS)中的数据进行数据分析和处理。它提供了类似SQL的查询语言——Hive SQL,使得...

    基于Hadoop的数据仓库Hive学习指南.doc

    - **类SQL查询语言HiveQL**:HiveQL使熟悉SQL的用户能够轻松上手,其语法与MySQL等SQL方言相似。 4. **Hive的安装**:Hive的安装要求先有Hadoop环境,下载Hive源码包后解压,配置环境变量,确保用户有权访问Hive...

    HiveSQL解析原理.docx

    ### HiveSQL解析原理详解 #### 一、引言 Hive作为一款建立在Hadoop之上的数据仓库系统,被广泛应用于大数据处理场景中。对于众多企业和组织而言,它不仅是存储和管理海量数据的有效手段,同时也是进行数据分析的...

    Hive语法详解.docx (排版清晰,覆盖全面,含目录)

    ### Hive语法详解 #### 一、安装和配置 **1.1 要求** - **硬件需求**:为了高效地运行Hive,推荐至少具备4GB内存,并且Hive服务器应该有足够的磁盘空间来存储元数据。 - **软件需求**:Hive需要Java环境支持,...

    Hive SQL练习题库

    ### Hive SQL练习题库知识点详解 #### 一、Hive SQL概述 Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,使不熟悉 MapReduce 的用户可以利用 SQL...

    Hive2--Hive和Hadoop关系.pdf

    《Hive与Hadoop的关系详解》 Hive和Hadoop之间的关系密切且相互依赖,它们共同构成了大数据处理的重要组成部分。Hive,作为一种基于Hadoop的数据仓库框架,旨在为大规模数据集提供灵活的数据查询和分析能力,尤其...

    二万字讲解HiveSQL技术原理、优化与面试.pdf

    ### HiveSQL技术原理详解 #### 一、HiveSQL技术概览 HiveSQL作为大数据处理框架中的一个重要组成部分,主要用于处理存储在Hadoop文件系统(HDFS)中的大规模数据集。它通过提供一种类似SQL的查询语言(HiveQL),...

    Hive开发培训.pptx

    - **相似性**: HiveQL与MySQL提供的SQL方言最为接近,降低了学习成本。 - **灵活性**: 用户可以自定义数据类型、Mapper/Reducer以及函数等,极大地增强了HiveQL的灵活性和扩展性。 - **高扩展性和容错性**: 由于...

    Hadoop实战.Hadoop.in.Action.Chuck.Lam.文字版

    - **HiveQL**:介绍Hive的SQL-like查询语言——HiveQL。 - **数据仓库**:探讨如何利用Hive构建数据仓库。 - **Hadoop生态系统集成**:讨论Hive与其他Hadoop生态组件(如Pig、HBase等)的集成方式。 ##### 3.4 案例...

    深入云计算:Hadoop应用开发实战详解 源代码

    Java是常见的编程语言,但也有如Hadoop Streaming和Pig、Hive等高级工具,它们允许使用Python、Perl等其他语言或SQL语法进行编程,简化开发过程。 5. **实战详解与源代码**:"深入云计算:Hadoop应用开发实战详解 ...

    Hive技术平台详解.pptx

    Hive 的优点在于较低的学习曲线,因为它的语法接近 SQL,适合进行数据仓库的 ETL(Extract, Transform, Load)过程。此外,它适用于大规模的数据统计分析,尤其是在不需要实时响应的场景下。然而,Hive 的缺点是它的...

    Hive初识入门参考的笔记

    - **概念与原理**:Hive 是一个建立在 Hadoop 之上的数据仓库工具,它将结构化的文件映射为表,并提供了类似 SQL 的查询语言 HQL,使得用户能够通过 SQL 语法来查询数据,无需编写复杂的 MapReduce 程序。...

    Hadoop实战-附目录

    - **Hive**:为Hadoop提供了一个SQL-like查询语言“HiveQL”,使用户能够更轻松地进行数据汇总、即席查询和分析。 - **HBase**:基于Hadoop的一个分布式、版本化的列式存储系统,支持随机读取,适用于实时读/写...

    Hive1--HIVE架构.pdf

    HIVE架构详解 HIVE架构是建立在Hadoop平台上的数据仓库基础构架,提供了一系列的工具,可以用来进行数据提取转化加载(ETL),它可以存储、查询和分析存储在Hadoop中的大规模数据。HIVE架构可以分为以下几部分:...

Global site tag (gtag.js) - Google Analytics