DDL Operations
创建表
hive> CREATE TABLE pokes (foo INT, bar STRING);
创建表并创建索引字段ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
显示所有表
hive> SHOW TABLES;
按正条件(正则表达式)显示表,
hive> SHOW TABLES '.*s';
表添加一列
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
添加一列并增加列字段注释
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
更改表名
hive> ALTER TABLE events RENAME TO 3koobecaf;
删除列
hive> DROP TABLE pokes;
元数据存储
将文件中的数据加载到表中
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
加载本地数据,同时给定分区信息
hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
加载DFS数据 ,同时给定分区信息
hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
The above command will load data from an HDFS file/directory to the table. Note that loading data from HDFS will result in moving the file/directory. As a result, the operation is almost instantaneous.
SQL 操作
按先件查询
hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>';
将查询数据输出至目录
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';
将查询结果输出至本地目录
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
选择所有列到本地目录
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;
将一个表的统计结果插入另一个表中
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
JOIN
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;
将多表数据插入到同一表中
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;
将文件流直接插入文件
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples)
实际示例
创建一个表
CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
下载示例数据文件,并解压缩
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz
加载数据到表中
LOAD DATA LOCAL INPATH 'ml-data/u.data'
OVERWRITE INTO TABLE u_data;
统计数据总量
SELECT COUNT(1) FROM u_data;
现在做一些复杂的数据分析
创建一个 weekday_mapper.py: 文件,作为数据按周进行分割
import sys
import datetime
for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('\t')
生成数据的周信息
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '\t'.join([userid, movieid, rating, str(weekday)])
使用映射脚本
//创建表,按分割符分割行中的字段值
CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
//将python文件加载到系统
add FILE weekday_mapper.py;
将数据按周进行分割
INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime)
USING 'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
FROM u_data;
SELECT weekday, COUNT(1)
FROM u_data_new
GROUP BY weekday;
处理Apache Weblog 数据
将WEB日志先用正则表达式进行组合,再按需要的条件进行组合输入到表中
add jar ../build/contrib/hive_contrib.jar;
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
- 浏览: 176186 次
- 性别:
- 来自: 北京
-
文章分类
最新评论
发表评论
-
hive metastore 报错 binlog mode 不对问题
2015-11-17 10:50 10502015-11-16 16:33:55,701 WARN ... -
hive insert directory指定分隔符
2015-10-27 11:39 2077hive insert directory指定分隔符 1 ... -
hive加载数据到表
2015-09-16 15:10 626hive 表加载数据到表中默认地址是warehouse/t ... -
hadoop put 或hive load local file 异常org.apache.hadoop.fs.ChecksumException:
2015-09-15 14:39 1679org.apache.hadoop.fs.Checksum ... -
hive中使用transform小例子
2015-09-08 15:30 1247... -
hive 不以科学计数法输出,hive计数法输出
2015-06-03 18:29 2628Hive中int , float , double这 ... -
hive union
2015-03-11 15:07 546原文:http://www.cnblogs.com/ggju ... -
hive中分组取前N个值的实现
2015-03-11 12:18 595背景 假设有一个学生各门课的成绩的表单,应用hive取出每 ... -
hive中order by,sort by, distribute by, cluster by作用以及用法
2015-03-03 12:39 467hive中order by,sort by, distrib ... -
Hive UDF整理
2015-02-28 19:16 992目录[-] Hive UDF整理 字符串函数 ... -
从一个经典案例看优化mapred.map.tasks的重要性
2014-10-28 22:31 524dfs.block.size=268435456hive.m ... -
overwrite在hive内部表及外部表特性
2014-05-19 14:14 1710overwrite在hive内部表及外部表特性。over ... -
hive insert into overide 用法
2014-05-13 16:23 7061 hive> insert overwrite t ... -
利用udf函数将Hive统计结果直接插入到MySQL
2014-05-13 09:56 1256大部分利用hive做数据分析的步骤是先用hive将统计结果 ... -
hive 建表异常处理字节太长
2014-03-14 14:49 810hive create table: Specif ...
相关推荐
以上就是关于Hive基本命令操作的一些核心知识点,包括创建表、查看表结构、数据加载以及查询等。在实际操作中,根据业务需求选择合适的数据模型(如分区表)并正确地管理数据,能够极大地提高数据处理的效率和便利性...
Hive基本操作命令大全 Hive是一个基于Hadoop的数据仓库工具,可以使用SQL语言来查询和管理大规模数据。本文档将详细介绍Hive的基本操作命令,从创建表、加载数据、查询数据到数据管理等方面进行整理。 创建表 ...
Hive基本命令整理 作为大数据处理的重要工具,Hive 提供了许多实用的命令来帮助开发人员高效地处理和分析数据。下面是 Hive 中的一些基本命令整理,涵盖了表的创建、加载数据、查看结构信息、更新表名、添加新列、...
**Java私塾:深入浅出学Hive——Hive Shell基本操作** 在大数据处理领域,Apache ...在实际工作中,Hive Shell 是数据分析和处理的重要工具,熟练掌握其用法能提高工作效率,更好地利用大数据平台进行数据探索和分析。
- 使用Stitch Join或其他聚合方法来平衡负载。 总的来说,Hive是一个强大的大数据分析工具,它简化了在Hadoop上的数据查询和分析过程,为大数据分析提供了便利。通过理解其原理、掌握SQL语法、优化技巧和解决数据...
除了基本的关系和数学运算外,Hive还提供了丰富的其他函数: 1. 聚合函数:如`COUNT`, `SUM`, `AVG`, `MIN`, `MAX`,用于统计和计算数据集的汇总信息。 2. 转换函数:`TO_DATE`, `DATE_FORMAT`, `CAST`等,用于日期...
在SpringBoot项目中,我们可以创建一个`HiveJdbcClient`服务类,封装Hive的连接和操作方法: ```java import org.springframework.beans.factory.annotation.Autowired; import org.springframework.jdbc.core....
若上述设定无效,可以使用下列方法强制设定。 修改并添加 MySQL 配置文件 在设置完MySQL的基本配置后,我们需要修改并添加MySQL的配置文件/etc/my.cnf。红框中的信息有则修改,无责添加。 将 MySQL 的 jdbc 驱动...
例如,你可以创建一个Java程序,使用`java.sql.DriverManager.getConnection()`方法建立连接,并使用`java.sql.Statement`和`java.sql.ResultSet`来执行HQL并处理结果。 在CDH6.3.2环境下,Hive JDBC驱动还支持SSL...
正确加载和使用Hive JDBC驱动,不仅需要合适的jar包,还需要合理的配置和正确的使用方法。在服务器上经过测试的Hive JDBC 1.1.0驱动,确保了与Hive的稳定交互,为开发人员提供了可靠的连接方案。
在深入理解Hive JDBC之前,我们需要了解Hive的基本概念。Hive是一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,用于处理大规模的数据。它将SQL查询转换为MapReduce任务在Hadoop...
1. **hive-exec-2.1.1.jar**:这是Hive执行引擎的主要库,包含了执行HQL(Hive Query Language)所需的类和方法。 2. **hive-metastore-2.1.1.jar**:包含了Hive元数据存储服务的实现,负责管理表、分区等元数据。 3...
在本教程中,我们将深入探讨如何使用Java JDBC连接到Hive数据库,并执行基本的数据操作。Hive是一个基于Hadoop的数据仓库工具,它允许我们对大规模数据集进行SQL-like查询。 首先,我们需要在Java项目中引入Hive ...
Hive 是一个基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(HQL)来管理和处理大数据。这个压缩包包含了 Hive 在特定版本(可能是 0.11.0)运行所需的一些关键组件的 JAR 文件。以下是对这些文件...
用户需要编写Java类,继承Hive提供的基类,如`org.apache.hadoop.hive.ql.udf.generic.GenericUDF`,并实现其方法来定义函数逻辑。 3. **JAR包依赖**: 如描述中所述,至少需要两个关键的JAR包: - **hive-exec-...
Hive JDBC驱动的使用不仅限于基本的查询操作,还可以执行DML(数据操纵语言)语句如INSERT、UPDATE和DELETE,以及DDL(数据定义语言)语句来创建或修改表结构。此外,Hive JDBC还支持事务管理和元数据查询,为Java...
在Java代码中,你可以使用`Class.forName()`方法加载Hive JDBC驱动,然后通过`DriverManager.getConnection()`创建Hive连接。例如: ```java Class.forName("org.apache.hive.jdbc.HiveDriver"); Connection con = ...
2. 使用`Class.forName()`方法加载Hive JDBC驱动。 3. 创建`Connection`对象,指定Hive服务器的地址、端口、用户名和密码。 4. 创建`Statement`对象,用于执行SQL查询。 5. 执行SQL语句,如`SELECT`, `INSERT`, `...
### Hive入门文档笔记 #### 一、Hive简介与安装配置 Hive 是一个构建在 Hadoop 之上的数据仓库工具,它...通过对这些内容的学习,读者可以更好地理解和掌握 Hive 的使用方法,为后续的大数据分析工作打下坚实的基础。