一、HIVE简介
Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。HIVE的操作语句称为HiveQL,他提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同时,HiveQL语言能力不足时,它也能允许使用传统map/reduce进行复杂数据分析。
Hive搭建在Hadoop平台之上。它并不是一个真正的数据库,他的元数据存储在其他的数据库中,例如mysql。Hadoop平台提供了HDFS分布式文件存储系统和Map/Reduce分布式计算系统。因为map/reduce编程是比较复杂的,而Hive是凌驾在这两个之上,用户只要熟悉简单的mysql语言就行。
Hive在少量数据查询上和Oracle等软件不能相比,但是在大量的数据上是很有优势的。
二、HIVE的用法
1.hive支持的数据类型
原生数据类型:
TINYINT,SMALLINT,INT,BIGINT,DOUBLE,STRING等
这些数据类型都比较简单,下面我详细说一下复合数据类型。
复合数据类型:
hive的复杂类型包括ARRAY,MAP,STRUCT,UNION,这些复杂类型是由基础类型组成的。
下面通过一个实例来看看hive是如何使用复杂数据类型的
基本的操作语句
1)创建表
hive>create table 表名(表的属性);
2)将数据文件导入到Hive表中
hive>load data local inpath '文件的地址' into table 表名;
3)查询语句
和mysql语句无太大差别,不详细赘述,
示例:
建表-导入数据-查询
接下来会研究一下hive的数据模型。。。。。。
以及如果让hive和hadoop结合的更紧密,会从以下几个角度进行深入研究:
第一:hive的类SQL语句本身进行调优
第二:就是hive的参数调优
第三:hadoop里的hdfs的参数调优(存储格式、压缩格式、RPC调用、连接数控制)
第四:hadoop里的map/reduce的调优(datanode间的数据传输、处理大小、每个child的相关JVM设置等)
第五:就是hadoop环境里的网络传输的调优(硬件环境)
第六:就是hdfs的存储格式调优(文本格式、顺序格式等)
第七:操作系统层面的磁盘I/O调优(多路复用等)
第八:操作系统层面的网络调优(缓冲区大小、连接数放大等)
第九:操作系统层面的内存调优(虚拟内存设置、内存控制等)
第十:hadoop的容错机制的掌握,因为正常的运行到没什么,怕就是出现异常时,有相应的应对方案(调度器、队列等)
第十一:hadoop的管理(包括datanode失效、namenode失效、加入或删除datanode、负载均衡、集群等)
相关推荐
Hive是一个建立在Hadoop之上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,使不熟悉MapReduce的用户可以轻松进行数据查询。Hive 2.3.5是在Hive 2系列中的一个稳定版本,针对...
Hadoop之Hive安装 本篇文章将指导您如何在CentOS 6.4下安装Hive,并解决可能遇到的错误。 环境及软件介绍 本篇文章使用的环境是CentOS 6.4-x86_64-bin-DVD1.iso,软件版本为Hadoop 2.2.0和Hive 0.12.0,以及MySQL...
hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+hadoop配置文件hive+...
【标题】:“基于Hadoop的数据仓库Hive学习指南” 【描述】:该文档是一份针对Hive的学习资料,旨在引导读者理解如何在Hadoop平台上利用Hive进行数据仓库操作和编程实践。它涵盖了Hive的基本概念、安装步骤、实验...
hadoop-基于hive的聊天数据分析可视化案例数据源
Hadoop2.9.2和hive2.3.4在windows下安装所需执行文件 安装教程参考链接 https://blog.csdn.net/a1041646584/article/details/88392714
Hadoop是一个开源的分布式计算框架,主要用于处理和存储海量数据,而Hive则是一个建立在Hadoop之上的数据仓库工具,它提供了SQL(HQL)类查询语言,使得对大数据进行分析变得更加便捷。现在我们来详细探讨在Hadoop上...
Hive是一个数据仓库基础构架,建立在Hadoop之上,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。ZooKeeper是一个开源的分布式协调服务,它为分布式应用提供一致性服务。 为了整合这些组件,首先...
HBase是建立在Hadoop之上的一个开源非关系型分布式数据库,用于解决大数据量下的实时读写问题。Hive是一个建立在Hadoop上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能...
2. **Hadoop学习总结之一:HDFS简介.doc**、**Hadoop学习总结之四:Map-Reduce的过程解析.doc**、**Hadoop学习总结之五:Hadoop的运行痕迹.doc**、**Hadoop学习总结之二:HDFS读写过程解析.doc**:这些文档详细介绍...
基于Hadoop Hive健身馆可视化分析平台项目源码+数据库文件.zip启动方式 环境启动 hadoop hive2元数据库 sql导入 导入hivesql脚本,修改application.yml 启动主程序 HadoopApplication 基于Hadoop Hive健身馆可视化...
在本文中,我们将深入探讨如何在Hadoop 2.2环境下安装Hive。Hive是Apache软件基金会开发的一个数据仓库工具,它允许用户通过SQL-like查询语言...在实践中,不断学习和优化配置,将使Hive更好地服务于大数据处理的需求。
大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...
在Windows 10环境下搭建Hadoop...搭建完成后,你可以使用这个环境进行大数据的学习和实验,例如执行MapReduce作业、创建Hive表、运行Spark程序等。通过不断实践和优化,你将更好地理解和掌握Hadoop生态系统的运作机制。
Hadoop是一个开源框架,主要用于分布式存储和计算大规模数据,而Hive则是建立在Hadoop之上的一种数据仓库工具,它提供了一种SQL-like的查询语言(HQL)来处理和分析大数据。下面将详细介绍这两个组件的安装过程以及...
VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。
总的来说,Spark 3.0.2与Hadoop 2.7和Hive 1.2的集成为大数据处理提供了强大的工具,适用于大规模数据的分析、机器学习和流处理场景。了解并熟练掌握这些技术,对于任何从事大数据领域的专业人士来说,都是至关重要...
docker下构建Hadoop集群,Hive数据库和Mysql数据库查询对比_Hadoop-Hive
- **Hadoop 0.20.X** 或更高版本:Hive是构建在Hadoop之上的,因此需要先安装并运行Hadoop集群。 #### 1.2 安装步骤 1. 解压Hive的安装包,例如: ``` tar zxvf hive-0.8.1-bin.tar.gz ``` 2. 将解压后的文件...