DDL Operations
创建表
hive> CREATE TABLE pokes (foo INT, bar STRING);
创建表并创建索引字段ds
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
显示所有表
hive> SHOW TABLES;
按正条件(正则表达式)显示表,
hive> SHOW TABLES '.*s';
表添加一列
hive> ALTER TABLE pokes ADD COLUMNS (new_col INT);
添加一列并增加列字段注释
hive> ALTER TABLE invites ADD COLUMNS (new_col2 INT COMMENT 'a comment');
更改表名
hive> ALTER TABLE events RENAME TO 3koobecaf;
删除列
hive> DROP TABLE pokes;
元数据存储
将文件中的数据加载到表中
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
加载本地数据,同时给定分区信息
hive> LOAD DATA LOCAL INPATH './examples/files/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
加载DFS数据 ,同时给定分区信息
hive> LOAD DATA INPATH '/user/myname/kv2.txt' OVERWRITE INTO TABLE invites PARTITION (ds='2008-08-15');
The above command will load data from an HDFS file/directory to the table. Note that loading data from HDFS will result in moving the file/directory. As a result, the operation is almost instantaneous.
SQL 操作
按先件查询
hive> SELECT a.foo FROM invites a WHERE a.ds='<DATE>';
将查询数据输出至目录
hive> INSERT OVERWRITE DIRECTORY '/tmp/hdfs_out' SELECT a.* FROM invites a WHERE a.ds='<DATE>';
将查询结果输出至本地目录
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/local_out' SELECT a.* FROM pokes a;
选择所有列到本地目录
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a;
hive> INSERT OVERWRITE TABLE events SELECT a.* FROM profiles a WHERE a.key < 100;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/reg_3' SELECT a.* FROM events a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_4' select a.invites, a.pokes FROM profiles a;
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT COUNT(1) FROM invites a WHERE a.ds='<DATE>';
hive> INSERT OVERWRITE DIRECTORY '/tmp/reg_5' SELECT a.foo, a.bar FROM invites a;
hive> INSERT OVERWRITE LOCAL DIRECTORY '/tmp/sum' SELECT SUM(a.pc) FROM pc1 a;
将一个表的统计结果插入另一个表中
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT a.bar, count(1) WHERE a.foo > 0 GROUP BY a.bar;
hive> INSERT OVERWRITE TABLE events SELECT a.bar, count(1) FROM invites a WHERE a.foo > 0 GROUP BY a.bar;
JOIN
hive> FROM pokes t1 JOIN invites t2 ON (t1.bar = t2.bar) INSERT OVERWRITE TABLE events SELECT t1.bar, t1.foo, t2.foo;
将多表数据插入到同一表中
FROM src
INSERT OVERWRITE TABLE dest1 SELECT src.* WHERE src.key < 100
INSERT OVERWRITE TABLE dest2 SELECT src.key, src.value WHERE src.key >= 100 and src.key < 200
INSERT OVERWRITE TABLE dest3 PARTITION(ds='2008-04-08', hr='12') SELECT src.key WHERE src.key >= 200 and src.key < 300
INSERT OVERWRITE LOCAL DIRECTORY '/tmp/dest4.out' SELECT src.value WHERE src.key >= 300;
将文件流直接插入文件
hive> FROM invites a INSERT OVERWRITE TABLE events SELECT TRANSFORM(a.foo, a.bar) AS (oof, rab) USING '/bin/cat' WHERE a.ds > '2008-08-09';
This streams the data in the map phase through the script /bin/cat (like hadoop streaming). Similarly - streaming can be used on the reduce side (please see the Hive Tutorial or examples)
实际示例
创建一个表
CREATE TABLE u_data (
userid INT,
movieid INT,
rating INT,
unixtime STRING)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t'
STORED AS TEXTFILE;
下载示例数据文件,并解压缩
wget http://www.grouplens.org/system/files/ml-data.tar__0.gz
tar xvzf ml-data.tar__0.gz
加载数据到表中
LOAD DATA LOCAL INPATH 'ml-data/u.data'
OVERWRITE INTO TABLE u_data;
统计数据总量
SELECT COUNT(1) FROM u_data;
现在做一些复杂的数据分析
创建一个 weekday_mapper.py: 文件,作为数据按周进行分割
import sys
import datetime
for line in sys.stdin:
line = line.strip()
userid, movieid, rating, unixtime = line.split('\t')
生成数据的周信息
weekday = datetime.datetime.fromtimestamp(float(unixtime)).isoweekday()
print '\t'.join([userid, movieid, rating, str(weekday)])
使用映射脚本
//创建表,按分割符分割行中的字段值
CREATE TABLE u_data_new (
userid INT,
movieid INT,
rating INT,
weekday INT)
ROW FORMAT DELIMITED
FIELDS TERMINATED BY '\t';
//将python文件加载到系统
add FILE weekday_mapper.py;
将数据按周进行分割
INSERT OVERWRITE TABLE u_data_new
SELECT
TRANSFORM (userid, movieid, rating, unixtime)
USING 'python weekday_mapper.py'
AS (userid, movieid, rating, weekday)
FROM u_data;
SELECT weekday, COUNT(1)
FROM u_data_new
GROUP BY weekday;
处理Apache Weblog 数据
将WEB日志先用正则表达式进行组合,再按需要的条件进行组合输入到表中
add jar ../build/contrib/hive_contrib.jar;
CREATE TABLE apachelog (
host STRING,
identity STRING,
user STRING,
time STRING,
request STRING,
status STRING,
size STRING,
referer STRING,
agent STRING)
ROW FORMAT SERDE 'org.apache.hadoop.hive.contrib.serde2.RegexSerDe'
WITH SERDEPROPERTIES (
"input.regex" = "([^ ]*) ([^ ]*) ([^ ]*) (-|\\[[^\\]]*\\]) ([^ \"]*|\"[^\"]*\") (-|[0-9]*) (-|[0-9]*)(?: ([^ \"]*|\"[^\"]*\") ([^ \"]*|\"[^\"]*\"))?",
"output.format.string" = "%1$s %2$s %3$s %4$s %5$s %6$s %7$s %8$s %9$s"
)
STORED AS TEXTFILE;
- 浏览: 175984 次
- 性别:
- 来自: 北京
-
文章分类
最新评论
发表评论
-
hive metastore 报错 binlog mode 不对问题
2015-11-17 10:50 10502015-11-16 16:33:55,701 WARN ... -
hive insert directory指定分隔符
2015-10-27 11:39 2077hive insert directory指定分隔符 1 ... -
hive加载数据到表
2015-09-16 15:10 625hive 表加载数据到表中默认地址是warehouse/t ... -
hadoop put 或hive load local file 异常org.apache.hadoop.fs.ChecksumException:
2015-09-15 14:39 1678org.apache.hadoop.fs.Checksum ... -
hive中使用transform小例子
2015-09-08 15:30 1246... -
hive 不以科学计数法输出,hive计数法输出
2015-06-03 18:29 2627Hive中int , float , double这 ... -
hive union
2015-03-11 15:07 545原文:http://www.cnblogs.com/ggju ... -
hive中分组取前N个值的实现
2015-03-11 12:18 593背景 假设有一个学生各门课的成绩的表单,应用hive取出每 ... -
hive中order by,sort by, distribute by, cluster by作用以及用法
2015-03-03 12:39 466hive中order by,sort by, distrib ... -
Hive UDF整理
2015-02-28 19:16 991目录[-] Hive UDF整理 字符串函数 ... -
从一个经典案例看优化mapred.map.tasks的重要性
2014-10-28 22:31 524dfs.block.size=268435456hive.m ... -
overwrite在hive内部表及外部表特性
2014-05-19 14:14 1709overwrite在hive内部表及外部表特性。over ... -
hive insert into overide 用法
2014-05-13 16:23 7061 hive> insert overwrite t ... -
利用udf函数将Hive统计结果直接插入到MySQL
2014-05-13 09:56 1254大部分利用hive做数据分析的步骤是先用hive将统计结果 ... -
hive 建表异常处理字节太长
2014-03-14 14:49 809hive create table: Specif ...
相关推荐
4000套Excel表格模板资料包,涵盖财务、人事、行政、销售、库房等多个领域,提供丰富多样的模板选择。
Zhang 等 - 2022 - Stability-Oriented STAR-RIS Aided MISO-NOMA Commun(1)(1)
非支配排序的蜣螂优化算法:多目标优化的新策略与全局探索-局部开发的有效结合,非支配排序的蜣螂优化算法:多目标优化问题的进化计算新方法,非支配排序的蜣螂优化算法(Non-dominated Sorting Dung Beetle Optimization, NSDBO)是一种结合了非支配排序机制和蜣螂优化算法(Dung Beetle Optimization, DBO)的进化计算方法,专门用于解决多目标优化问题。 在多目标优化中,目标之间通常存在竞争关系,算法的目标是找到一组解,这些解在多个目标之间达到一种平衡,即Pareto最优解集。 蜣螂优化算法(DBO)简介 蜣螂优化算法(dung beetle optimizer,DBO)是东华大学Shen团队推出的第二个算法,其灵感来自于蜣螂的滚球、跳舞、觅食、偷窃和繁殖行为。 该算法同时考虑了全局探索和局部开发,从而具有收敛速度快和准确率高的特点,可以有效地解决复杂的寻优问题。 非支配排序的蜣螂优化算法(NSDBO) NSDBO算法结合了DBO算法和非支配排序的概念,用于解决多目标优化问题。 以下是NSDBO的关键步骤: 初始化:生成初始种群
【毕业设计】前端html模板参考_pgj
基于matlab平台的车牌识别GUI实现.zip
DeepSeek 使用技巧,强烈建议收藏!.pdf
维吾尔文维文数码电子产品店管理系统vb.net 源码
1993A
项目已获导师指导并通过的高分毕业设计项目,可作为课程设计和期末大作业,下载即用无需修改,项目完整确保可以运行。 包含:项目源码、数据库脚本、软件工具等,该项目可以作为毕设、课程设计使用,前后端代码都在里面。 该系统功能完善、界面美观、操作简单、功能齐全、管理便捷,具有很高的实际应用价值。 项目都经过严格调试,确保可以运行!可以放心下载 技术组成 语言:java 开发环境:idea 数据库:MySql5.7以上 部署环境:maven 数据库工具:navicat
基于matlab平台的 ORL的人脸考勤系统.zip
**基于二阶自抗扰控制器的双惯量伺服系统机械谐振抑制的Matlab Simulink仿真模型研究**,基于二阶自抗扰控制器的双惯量伺服系统机械谐振抑制与速度控制的Matlab Simulink仿真模型研究,伺服系统基于二阶自抗扰控制器的双惯量伺服系统机械谐振抑制matlab Simulink仿真(加入了电流环 PI 、自抗扰控制器和观测器参数整定) 如果需要一阶自抗扰控制器进行速度控制,请联系我,也有速度控制 1.模型简介 模型为基于二阶自抗扰控制器的双惯量伺服系统机械谐振抑制仿真,采用Matlab simulink 搭建,支持各个版本。 仿真模型由simscape 库模型搭建,模型内主要包含DC直流电压源、三相逆变器、永磁同步电机、采样模块、SVPWM、Clark、Park、Ipark、三角波发生器、速度环、电流环等模块,其中,SVPWM、Clark、Park、Ipark、三角波发生器适用模块搭建。 位置环和转速环合并成一环,采用二阶自抗扰控制器,控制器参数以及观测器参数已经进行整定, 扩展状态观测器采用Matlab funtion编写,其与C语言编程较为接近,容易进行实物移植
【毕业设计】Python基于图神经网络与多任务学习的图像分类器
"永磁同步电机无感控制技术:基于反电势观测器与锁相环的全速域解决方案",**永磁同步电机无感控制技术——反电势观测器+锁相环PLL方法的全速域应用**,永磁同步电机无感控制--基于反电势观测器+锁相环 在全速域范围内,一般的永磁同步电机无感控制要分为低速区域和高速区域两个部分。 原因在于常规的方法是利用模型建立反电动势观测器来求解转子位置信息,但其只适合在中高速区域。 本介绍一种back-EMF+PLL的方法。 反电势观测器+锁相环PLL的永磁电机无感控制只适合于中、高速区域(一般额定转速的10%以上的速度范围)。 因为在低速区域的信噪比低、反电势与转速成正比,加上采样精度等问题,反电势的估计误差大导致无法正确地计算出转速和位置信息。 基于反电动势的无感控制技术显示出明显的优势,主要体现在如下方面:首先是算法复杂度低,容易理解和实现;其次是具有较高的动态响应速率,能够在短时间内做出响应;最后就是成熟度较高,适用性强,应用场景较多。 3、 ,永磁同步电机; 无感控制; 反电势观测器; 锁相环PLL; 高速区域; 信噪比低; 算法复杂度
重点:所有项目均附赠详尽的SQL文件,这一细节的处理,让我们的项目相比其他博主的作品,严谨性提升了不止一个量级!更重要的是,所有项目源码均经过我亲自的严格测试与验证,确保能够无障碍地正常运行。 1.项目适用场景:本项目特别适用于计算机领域的毕业设计课题、课程作业等场合。对于计算机科学与技术等相关专业的学生而言,这些项目无疑是一个绝佳的选择,既能满足学术要求,又能锻炼实际操作能力。 2.超值福利:所有定价为9.9元的项目,均包含完整的SQL文件。如需远程部署可随时联系我,我将竭诚为您提供满意的服务。在此,也想对一直以来支持我的朋友们表示由衷的感谢,你们的支持是我不断前行的动力! 3.求关注:如果觉得我的项目对你有帮助,请别忘了点个关注哦!你的支持对我意义重大,也是我持续分享优质资源的动力源泉。再次感谢大家的支持与厚爱! 4.资源详情:https://blog.csdn.net/2301_78888169/article/details/141762088 更多关于项目的详细信息与精彩内容,请访问我的CSDN博客!
本项目是自己做的设计,有GUI界面,完美运行,适合小白及有能力的同学进阶学习,大家可以下载使用,整体有非常高的借鉴价值,大家一起交流学习。该资源主要针对计算机、通信、人工智能、自动化等相关专业的学生、老师或从业者下载使用,亦可作为期末课程设计、课程大作业、毕业设计等。 项目整体具有较高的学习借鉴价值!基础能力强的可以在此基础上修改调整,以实现不同的功能。
Airwave升级指导文档翻译中文版本,工具翻译所以有一些可能不通,但大致意思是一样的
"威纶通三菱PLC系列机械手示教器模板:多功能程序流程自定义系统","威纶通三菱PLC系列机械手示教器模板开发:智能编程系统,助力程序流程自由定制",示教器模板(威纶通+三菱plc系列) 本系统开发类似机械手示教器,可以替代多轴机械手示教器功能。 项目应用场景:最终客户需要自由的修改程序流程,如检测什么信号,多少时间,在进入下一步,还是轴定位轨迹可以自由修改,方便最终可以在不修改PLC程序的情况下,自由示教程序。 ,示教器模板; 威纶通; 三菱plc系列; 机械手示教器; 程序流程修改; 信号检测; 时间控制; 轴定位轨迹修改; PLC程序替代。,威纶通三菱PLC机械手示教器模板:自由编程,轻松控制多轴机械手
【上传下载】实现一个简易的FTP服务器,支持文件的上传、下载,以及断点续传 #采用多线程模型完成 #有port和pasv两种工作模式_pgj
2024年度制造业数字化转型典型案例集
(springboot+mysql)旅客行程智能推荐系统 包含数据库mysql+前端页面vue 毕业论文以及开题报告+答辩PPT