`

hive基本用法

    博客分类:
  • hive
 
阅读更多

DDL Operations 
创建表 
hive> CREATE TABLE pokes (foo INT, bar STRING); 
创建表并创建索引字段ds 
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING); 
显示所有表 
hive> SHOW TABLES; 
按正条件(正则表达式)显示表, 
hive> SHOW TABLES '.*s'; 
表添加一列 
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT); 
添加一列并增加列字段注释 
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment'); 
更改表名 
hive> ALTER TABLE events RENAME TO 3koobecaf; 
删除列 
hive> DROP TABLE pokes; 
元数据存储 
将文件中的数据加载到表中 
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes; 
加载本地数据,同时给定分区信息 
hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15'); 
加载DFS数据 ,同时给定分区信息 
hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15'); 
The above command will load data from an HDFS file/directory to the table. Note that loading data from HDFS will result in moving the file/directory. As a result, the operation is almost instantaneous. 
SQL 操作 
按先件查询 
hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>'; 
将查询数据输出至目录 
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>'; 
将查询结果输出至本地目录 
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a; 
选择所有列到本地目录 
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a; 
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100; 
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a; 
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a; 
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>'; 
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a; 
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a; 
将一个表的统计结果插入另一个表中 
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar; 
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar; 
JOIN 
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo; 
将多表数据插入到同一表中 
FROM src 
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100 
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200 
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300 
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300; 
将文件流直接插入文件 
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09'; 
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples) 
实际示例 
创建一个表 
CREATE TABLE u_data ( 
userid INT, 
movieid INT, 
rating INT, 
unixtime STRING) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t' 
STORED AS TEXTFILE; 
下载示例数据文件,并解压缩 
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz 
tar xvzf ml-data.tar__0.gz 
加载数据到表中 
LOAD DATA LOCAL INPATH 'ml-data/u.data' 
OVERWRITE INTO TABLE u_data; 
统计数据总量 
SELECT COUNT(1) FROM u_data; 
现在做一些复杂的数据分析 
创建一个 weekday_mapper.py: 文件,作为数据按周进行分割 
import sys 
import datetime 
for line in sys.stdin: 
line = line.strip() 
userid, movieid, rating, unixtime = line.split('\t') 
生成数据的周信息 
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday() 
print '\t'.join([userid, movieid, rating, str(weekday)]) 
使用映射脚本 
//创建表,按分割符分割行中的字段值 
CREATE TABLE u_data_new ( 
userid INT, 
movieid INT, 
rating INT, 
weekday INT) 
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'; 
//将python文件加载到系统 
add FILE weekday_mapper.py; 
将数据按周进行分割 
INSERT OVERWRITE TABLE u_data_new 
SELECT 
TRANSFORM (userid, movieid, rating, unixtime) 
USING 'python weekday_mapper.py' 
AS (userid, movieid, rating, weekday) 
FROM u_data; 
SELECT weekday, COUNT(1) 
FROM u_data_new 
GROUP BY weekday; 
处理Apache Weblog 数据 
将WEB日志先用正则表达式进行组合,再按需要的条件进行组合输入到表中 
add jar ../build/contrib/hive_contrib.jar; 
CREATE TABLE apachelog ( 
host STRING, 
identity STRING, 
user STRING, 
time STRING, 
request STRING, 
status STRING, 
size STRING, 
referer STRING, 
agent STRING) 
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe' 
WITH SERDEPROPERTIES ( 
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?", 
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s" 

STORED AS TEXTFILE;

分享到:
评论

相关推荐

    Hive 基本命令操作1

    以上就是关于Hive基本命令操作的一些核心知识点,包括创建表、查看表结构、数据加载以及查询等。在实际操作中,根据业务需求选择合适的数据模型(如分区表)并正确地管理数据,能够极大地提高数据处理的效率和便利性...

    Hive基本操作命令大全

    Hive基本操作命令大全 Hive是一个基于Hadoop的数据仓库工具,可以使用SQL语言来查询和管理大规模数据。本文档将详细介绍Hive的基本操作命令,从创建表、加载数据、查询数据到数据管理等方面进行整理。 创建表 ...

    Hive基本命令整理

    Hive基本命令整理 作为大数据处理的重要工具,Hive 提供了许多实用的命令来帮助开发人员高效地处理和分析数据。下面是 Hive 中的一些基本命令整理,涵盖了表的创建、加载数据、查看结构信息、更新表名、添加新列、...

    Java私塾:Hive Shell 基本操作——深入浅出学Hive

    **Java私塾:深入浅出学Hive——Hive Shell基本操作** 在大数据处理领域,Apache ...在实际工作中,Hive Shell 是数据分析和处理的重要工具,熟练掌握其用法能提高工作效率,更好地利用大数据平台进行数据探索和分析。

    Hive总结.docx

    - 使用Stitch Join或其他聚合方法来平衡负载。 总的来说,Hive是一个强大的大数据分析工具,它简化了在Hadoop上的数据查询和分析过程,为大数据分析提供了便利。通过理解其原理、掌握SQL语法、优化技巧和解决数据...

    HIVE函数详解大全

    除了基本的关系和数学运算外,Hive还提供了丰富的其他函数: 1. 聚合函数:如`COUNT`, `SUM`, `AVG`, `MIN`, `MAX`,用于统计和计算数据集的汇总信息。 2. 转换函数:`TO_DATE`, `DATE_FORMAT`, `CAST`等,用于日期...

    SpringBoot整合hive-jdbc示例

    在SpringBoot项目中,我们可以创建一个`HiveJdbcClient`服务类,封装Hive的连接和操作方法: ```java import org.springframework.beans.factory.annotation.Autowired; import org.springframework.jdbc.core....

    Hadoop之hive安装

    若上述设定无效,可以使用下列方法强制设定。 修改并添加 MySQL 配置文件 在设置完MySQL的基本配置后,我们需要修改并添加MySQL的配置文件/etc/my.cnf。红框中的信息有则修改,无责添加。 将 MySQL 的 jdbc 驱动...

    hive2.1.1-cdh6.3.2

    例如,你可以创建一个Java程序,使用`java.sql.DriverManager.getConnection()`方法建立连接,并使用`java.sql.Statement`和`java.sql.ResultSet`来执行HQL并处理结果。 在CDH6.3.2环境下,Hive JDBC驱动还支持SSL...

    hive-jdbc-1.1.0驱动相关jar包

    正确加载和使用Hive JDBC驱动,不仅需要合适的jar包,还需要合理的配置和正确的使用方法。在服务器上经过测试的Hive JDBC 1.1.0驱动,确保了与Hive的稳定交互,为开发人员提供了可靠的连接方案。

    hive jdbc依赖的jar包

    在深入理解Hive JDBC之前,我们需要了解Hive的基本概念。Hive是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,用于处理大规模的数据。它将SQL查询转换为MapReduce任务在Hadoop...

    hive2.1.1 + hadoop2.6.0jdbc驱动

    1. **hive-exec-2.1.1.jar**:这是Hive执行引擎的主要库,包含了执行HQL(Hive Query Language)所需的类和方法。 2. **hive-metastore-2.1.1.jar**:包含了Hive元数据存储服务的实现,负责管理表、分区等元数据。 3...

    使用javaJDBC连接hive数据,实现简单的操作!

    在本教程中,我们将深入探讨如何使用Java JDBC连接到Hive数据库,并执行基本的数据操作。Hive是一个基于Hadoop的数据仓库工具,它允许我们对大规模数据集进行SQL-like查询。 首先,我们需要在Java项目中引入Hive ...

    hive相关jar包

    Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(HQL)来管理和处理大数据。这个压缩包包含了 Hive 在特定版本(可能是 0.11.0)运行所需的一些关键组件的 JAR 文件。以下是对这些文件...

    hive UDF需要jar包

    用户需要编写Java类,继承Hive提供的基类,如`org.apache.hadoop.hive.ql.udf.generic.GenericUDF`,并实现其方法来定义函数逻辑。 3. **JAR包依赖**: 如描述中所述,至少需要两个关键的JAR包: - **hive-exec-...

    jdbc连接hive数据库的驱动jar包

    Hive JDBC驱动的使用不仅限于基本的查询操作,还可以执行DML(数据操纵语言)语句如INSERT、UPDATE和DELETE,以及DDL(数据定义语言)语句来创建或修改表结构。此外,Hive JDBC还支持事务管理和元数据查询,为Java...

    hive jdbc 连接所需要的jar包

    在Java代码中,你可以使用`Class.forName()`方法加载Hive JDBC驱动,然后通过`DriverManager.getConnection()`创建Hive连接。例如: ```java Class.forName("org.apache.hive.jdbc.HiveDriver"); Connection con = ...

    hive-jdbc-1.2.1-standalone

    2. 使用`Class.forName()`方法加载Hive JDBC驱动。 3. 创建`Connection`对象,指定Hive服务器的地址、端口、用户名和密码。 4. 创建`Statement`对象,用于执行SQL查询。 5. 执行SQL语句,如`SELECT`, `INSERT`, `...

    hive入门文档笔记

    ### Hive入门文档笔记 #### 一、Hive简介与安装配置 Hive 是一个构建在 Hadoop 之上的数据仓库工具,它...通过对这些内容的学习,读者可以更好地理解和掌握 Hive 的使用方法,为后续的大数据分析工作打下坚实的基础。

Global site tag (gtag.js) - Google Analytics