Hive基本介绍
查询管理存储在HDFS中的大数据集合,提供像SQL的查询语句HiveQL。Hive表的元数据存储在Derby数据库中,Mysql和Oracle也可以作为Hive的存储源
Hive操作
use:切换数据库
hive> use default; OK Time taken: 0.454 seconds hive> show tables; OK categories customers departments intermediate_access_logs order_items orders products tokenized_access_logs wlslog Time taken: 0.404 seconds, Fetched: 9 row(s)
CREATE DATABASE:创建数据库
CREATE (DATABASE|SCHEMA) [IF NOT EXISTS] database_name //数据库名 [COMMENT database_comment] //数据库说明 [LOCATION hdfs_path] //存储路径 [WITH DBPROPERTIES (property_name=property_value, ...)]; //键值
直接创建数据库
hive> CREATE DATABASE IF NOT EXISTS testdb; OK Time taken: 1.45 seconds hive> DESC database extended testdb; OK testdb hdfs://quickstart.cloudera:8020/user/hive/warehouse/testdb.db cloudera USER Time taken: 0.046 seconds, Fetched: 1 row(s)
CREATE TABLE:创建表
ROW FORMAT:DELIMITED,用于分割文件
FIELDS TERMINATED BY:指定字段
LINES TERMINATE BY:行标识
CREATE TABLE wlslog(time_stamp STRING,category STRING, type STRING,servername STRING,code STRING,msg STRING) ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'; hive> show tables; OK wlslog Time taken: 0.019 seconds, Fetched: 1 row(s)
LOAD DATA:导入数据
LOAD DATA [LOCAL] INPATH 'filepath' [OVERWRITE] INTO TABLE tablename [PARTITION
(partcol1=val1, partcol2=val2 ...)]
导入文件
hive> LOAD DATA LOCAL INPATH 'cdh/wlslog.log' OVERWRITE INTO TABLE wlslog; Loading data to table testdb.wlslog Table testdb.wlslog stats: [numFiles=1, numRows=0, totalSize=717, rawDataSize=0] OK Time taken: 0.757 seconds hive> select * from wlslog; OK Apr-8-2014-7:06:16-PM-PDT Notice WebLogicServer AdminServer BEA-000365 Server state changed to STANDBY Apr-8-2014-7:06:17-PM-PDT Notice WebLogicServer AdminServer BEA-000365 Server state changed to STARTING Apr-8-2014-7:06:18-PM-PDT Notice WebLogicServer AdminServer BEA-000365 Server state changed to ADMIN Apr-8-2014-7:06:19-PM-PDT Notice WebLogicServer AdminServer BEA-000365 Server state changed to RESUMING Apr-8-2014-7:06:20-PM-PDT Notice WebLogicServer AdminServer BEA-000331 Started WebLogic AdminServer Apr-8-2014-7:06:21-PM-PDT Notice WebLogicServer AdminServer BEA-000365 Server state changed to RUNNING Apr-8-2014-7:06:22-PM-PDT Notice WebLogicServer AdminServer BEA-000360 Server started in RUNNING mode Time taken: 0.41 seconds, Fetched: 7 row(s)
复制表结构
CREATE TABLE wlslog_2 LIKE wlslog;插入数据
INSERT OVERWRITE TABLE tablename1 [PARTITION(partcol1=val1,partcol2=val2 ...) [IF NOT EXISTS]] select_statement1 FROM from_statement;
INSERT INTO TABLE tablename1 [PARTITION (partcol1=val1,partcol2=val2 ...)] select_statement1 FROM from_statement;
创建表时插入数据
CREATE TABLE wlslog_copy
ROW FORMAT DELIMITED FIELDS TERMINATED BY ',' LINES TERMINATED BY '\n'
STORED AS TEXTFILE(SEQUENCEFILE/ORC/PARQUET)
AS
SELECT time_stamp,category,type,servername,code,msg
FROM wlslog
ALTER TABLE:修改表名、注释、属性、存储
TRUNCATE TABLE:删除数据行
TRUNCATE TABLE table_name [PARTITION partition_spec];
DROP TABLE:删除表
DROP TABLE [IF EXISTS] table_name;
相关推荐
Hadoop之Hive安装 本篇文章将指导您如何在CentOS 6.4下安装Hive,并解决可能遇到的错误。 环境及软件介绍 本篇文章使用的环境是CentOS 6.4-x86_64-bin-DVD1.iso,软件版本为Hadoop 2.2.0和Hive 0.12.0,以及MySQL...
**大数据与云计算技术:Hadoop之Hive详解** 在当今数据驱动的世界中,大数据和云计算技术扮演着至关重要的角色。Hadoop是Apache软件基金会开发的一个开源框架,它为大规模数据处理提供了分布式存储和计算能力。而...
《阿里巴巴数据产品平台 大数据与云计算技术系列教程:Hadoop之Hive学习笔记》是一部深入探讨Hadoop生态中Hive技术的专业教程。这本笔记共计63页,旨在为读者提供一个全面、系统的学习Hive的平台,帮助读者理解和...
elasticsearch-hadoop-hive-2.3.4.jar包下载
基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化...
在大数据处理领域,Hadoop和Hive是两个非常重要的组件。Hadoop是一个开源框架,主要用于分布式存储和计算大规模数据集,而Hive则是一个基于Hadoop的数据仓库工具,提供了SQL-like查询语言(HQL)来方便地管理和分析...
Hive错误之 Execution Error, return code 2 from org.apache.hadoop.hive.ql.exec.mr.MapRedTask错误分析_xiaohu21的博客-CSDN博客.mht
【标题】:“hadoop,hive,hbase学习资料”是一份综合性的学习资源,涵盖了大数据处理领域中的三个核心组件——Hadoop、Hive和Hbase。这些工具在大数据处理和分析中发挥着至关重要的作用。 【描述】:描述指出这份...
"基于Hadoop+Hive的数据查询优化设计与实现" 本文旨在介绍基于Hadoop和Hive的数据查询优化设计与实现,旨在解决大数据处理的需求。该文涵盖了Hadoop和Hive的工作原理、系统设计与实现、数据查询优化等方面的知识点...
VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。
hadoop和hive调优个人总结 Hadoop和Hive调优是当前大数据处理中非常重要的一部分,如何提高Hadoop和Hive的性能,将直接影响到整个数据处理的效率和质量。本文将总结个人在学习和测试Hive过程中的调优经验,包括...
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUI CLI,即Shell命令行 JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 Web...
### Mac环境下Hadoop与Hive搭建详解 #### 标题:Mac 搭建 Hadoop和hive环境 #### 描述:手把手教你进行mac搭建hadoop和hive环境 #### 标签:hadoop, hive, mac, mysql #### 详细知识点解析: ##### 一、前言 ...
本主题将深入探讨如何构建一个基于Hadoop的大数据离线分析系统,并着重讲解Hive和Sqoop的安装与配置。Hadoop是分布式计算框架,而Hive是基于Hadoop的数据仓库工具,用于数据 warehousing 和 SQL-like 查询。另一方面...
毕业设计,采用Hadoop+Hive构建数据仓库,使用django+echarts构建前端web网站对业务指标进行可视化呈现 1. Hadoop+Hive构建数据仓库 2. django+echarts网站开发 3. 数据清洗,数据模型构建 毕业设计,采用Hadoop+...
【标题】:“基于Hadoop平台Hive数据库处理电影数据”的文档详细介绍了如何在Hadoop分布式环境中利用Hive进行大规模电影数据的分析。该系统的主要目标是建立一个分布式Hadoop集群,并在此基础上对电影数据进行深入...
毕设基于Hadoop+Hive构建数据仓库使用django+echarts构建前端web网站对业务指标进行可视化呈现源码.zip毕设基于Hadoop+Hive构建数据仓库使用django+echarts构建前端web网站对业务指标进行可视化呈现源码.zip毕设基于...
该文档保护了目前比较流行的大数据平台的原理过程梳理。Hadoop,Hive,Hbase,Spark,MapReduce,Storm