1.1 解压缩Hive
将Hive的tar包解压到/opt目录下:
tar –zxvf hive-0.7.1-cdh3u3.tar.gz
解压缩后的Hive目录如下:
其中bin目录下是一些可执行的脚本文件,在conf下是相关的配置文件,也是我们要修改的主要地方,lib下是一些相关的jar包,包括mysql的连接包、hbase的包等都会放到lib下。
将Hive的安装路径添加到path环境变量中。
以及
export HIVE_CONF_DIR=$HIVE_HOME/conf
export HIVE_LIB=$HIVE_HOME/lib
在/etc/profile文件中添加上述代码,source使之生效。
1.2 创建Hive的目录
在hdfs中创建Hive的目录,命令如下:
[hdfs@sdc0 bin]$ ./hadoop fs -mkdir /tmp
[hdfs@sdc0 bin]$ ./hadoop fs -mkdir /usr/hive/warehouse
[hdfs@sdc0 bin]$ ./hadoop fs -chmod g+w /tmp
[hdfs@sdc0 bin]$ ./hadoop fs -chmod g+w /usr/hive/warehouse
1.3 conf/hive-site.xml
这个文件主要用于配置Hive的一些配置参数。文件中的内容也是主要以property键值对的形式存在,主要有一下五种键:
hive.metastore.local 设置元数据信息的存放位置,如果采用mysql等第三方数据库时,设置为true,本文档编写时采用的就是mysql;
本文档中设置为true
javax.jdo.option.ConnectionURL 设置数据库的连接信息;
本文档中设置为
jdbc:mysql://10.28.171.38:3306/hiveTestDB?createDatabaseIfNotExist=true
javax.jdo.option.ConnectionDriverName 设置数据库的驱动信息;
本文档中设置为:com.mysql.jdbc.Driver
javax.jdo.PersistenceManagerFactoryClass设置数据持久化的类;
本文档中设置为:org.datanucleus.jdo.JDOPersistenceManagerFactory
javax.jdo.option.DetachAllOnCommit设置是否从session中把对象分离出来;本文档中设置为true;
javax.jdo.option.NonTransactionalRead 设置 是否允许事务外的数据对象访问;本文档中设置为true;
javax.jdo.option.ConnectionUserName 设置数据库的用户名;
本文档中设置为:hive
javax.jdo.option.ConnectionPassword 设置数据库的用户密码;
本文档中设置为:hive
hive.querylog.location设置日志的保存位置,如果不设置,将默认保存在/tmp/<user.name>/hive.log里。
hive.aux.jars.path设置运行hive时需要额外加载的一些相关的包,如果不设置的话,在执行insert或者跟mapreduce、hbase相关的操作时会报错。
本文档中设置为:
file:///opt/hive-0.7.1-cdh3u3/lib/hive-hbase-handler-0.7.1-cdh3u3.jar,file:///opt/hive-0.7.1-cdh3u3/lib/hbase-0.94.1-security.jar,file:///opt/hive-0.7.1-cdh3u3/lib/zookeeper-3.4.3.jar,file:///opt/hive-0.7.1-cdh3u3/lib/protobuf-java-2.4.0a.jar
即,把lib目录下的这四个jar包加载进来。其中,hbase-0.94.1-security.jar在habse安装目录中;zookeeper-3.4.3.jar在zookeeper安装目录中;protobuf-java-2.4.0a.jar在hbase安装目录中的lib下,此包是和hbase相关联时通信用。
1.4 配置数据库
一般都采用第三方数据库比如mysql等存储元数据信息,而不用hive自带的derby数据库。安装mysql数据库可采用如下命令:
yum install mysql-server
安装完成后,利用如下命令启动:
/etc/init.d/mysqld start
现在要创建我们前面在hive-site.xml文件中用到的数据库和用户名了。
以root用户登录mysql之后执行:
CREATE USER ‘hive’@'localhost’ IDENTIFIED BY ‘hive’;
或者在数据库mysql的user表中插入:
insert into mysql.user(Host,User,Password) values(‘%’,'hive’,password(‘hive’));
执行上述命令之后都需要执行:
flush privileges;
使命令之生效。之所以host键的值填“%”,这是因为我们要从别的机器连接mysql,如果设置为localhost,就被会本机拒绝连接。除了设置为“%”之外,还可以设置为需要连接mysql的主机的ip地址。
有了相应的hive用户,下面就创建可以被hive用户操作的数据库了。在root用户下创建数据库hiveTestDB:
create database hiveTestDB;
此时的hiveTestDB数据库时属于root的,现在利用命令将hiveTestDB的使用权限给hive用户:
grant all privileges on hiveTestDB.* to hive identified by ‘hive’ with grant option;
还是要使用命令:
flush privileges;
使之生效。
1.5 Hive的lib配置
将hadoop目录下的hadoop-core-0.20.2-cdh3u3.jar包、mysql数据库的mysql-connector-java-5.1.21-bin.jar包和
mysql-connector-java-5.1.6.jar包放入Hive的lib目录下。
1.6 Hive的启动
Hive启动的时候像Hadoop一样,也是在bin目录下,bin的目录结构如下:
目录结构比较简单,在启动的时候需要运行hive脚本,可以直接ctrl+c组合键退出。启动Hive
在Hive的bin的目录下输入命令:
hive
即可进入hive的环境。
相关推荐
HIVE安装部署主要包括以下步骤: * 下载HIVE安装包 * 解压安装包 * 配置HIVE环境变量 * 启动HIVE服务 使用方式: * 使用HIVE命令行工具执行查询 * 使用HIVE API开发应用程序 * 使用HIVE与其他工具集成 HIVE是一...
在Windows环境下部署Hive和Hadoop是一个相对复杂的任务,但一旦成功,将为大数据处理提供一个强大的本地开发和测试环境。以下是对这个主题的详细解释: 1. **Hadoop简介**: Hadoop是一个开源框架,由Apache软件...
3.集群能正常运行的条件是集群可节点宕机数应保证有超过集群机器总数一半的机器在运行,因此从经济和实用性来说,集群的节点一般是奇数个,本文部署4台机器,其容灾能力与部署3台机器一致,即只能宕机1台
"基于CentOS7的Hadoop2.7.7集群部署+hive3.1.1+Tez0.9.1" 本文档旨在描述基于CentOS7的Hadoop2.7.7集群部署+hive3.1.1+Tez0.9.1的环境搭建过程。该文档涵盖了环境说明、软件版本说明、配置hosts和hostname、配置SSH...
大数据集群 Hadoop HBase Hive Sqoop 集群环境安装配置及使用文档 在本文档中,我们将详细介绍如何搭建一个大数据集群环境,包括 Hadoop、HBase、Hive 和 Sqoop 的安装配置及使用。该文档将分为四部分:Hadoop 集群...
- 在 `hadoop-config.sh` 文件中,设置 Hadoop 相关的路径,如 HADOOP_HOME、HIVE_HOME 等。 - 在 `hive-site.xml` 文件中,配置 Hive 的各种属性,如 Metastore 数据库连接信息、HDFS 存储位置等。例如: ```xml...
hive安装
"大数据学习:Hive部署" 在大数据学习中,Hive是一个非常重要的组件,那么如何部署Hive呢?这篇文章将带领大家一步一步完成Hive的部署,从搭建Linux操作系统开始,到部署JDK、Zookeeper、Hadoop和Hive,详细讲解每...
- 在Hadoop集群运行的基础上安装HBase,确保Hadoop的相关环境变量被HBase使用。 - 配置HBase的`hbase-site.xml`以指定Zookeeper地址和集群模式。 - 启动HBase服务,包括Master和RegionServer。 3. **Spark**:...
在大数据领域中,Hadoop、HBase和Hive是重要的组件,它们通常需要协同工作以实现数据存储、管理和分析。随着各个软件的版本不断更新,确保不同组件之间的兼容性成为了一个挑战。本文将介绍Hadoop、HBase、Hive以及...
安装Hive时,需要将其`lib`目录下的JAR文件添加到Hadoop的类路径中。配置`hive-site.xml`,指定MySQL作为元数据存储,并确保与MySQL的连接信息一致。启动Hive服务器,可以使用`hive`命令进入Hive的命令行界面。 **6...
安装Spark时,需要与Hadoop版本兼容,并配置相关环境变量。 Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。通过Hive,用户无需编写Java MapReduce程序,就能对...
"spark--bin-hadoop2-without-hive.tgz"是一个包含Spark二进制发行版的压缩包,专为Hadoop 2版本设计,但不包含Hive组件。这个压缩包主要用于在没有Hive环境的系统上部署和运行Spark。 1. **Spark核心概念**: - *...
大数据平台搭建之 ...大数据平台搭建需要经过多个步骤,包括环境准备、Hadoop 安装和配置、Zookeeper 部署、Hbase 部署和 Hive 部署。通过本文档,我们可以了解大数据平台搭建的整个过程,并掌握相关的技术和经验。
4. **编译和构建**:使用Maven的`mvn clean package`命令来编译源码并创建可部署的Spark二进制包。 压缩包中的"spark-2.3.1-bin-spark.source.bianyi.test"可能是编译后的结果,可能包含了编译者自定义的测试或配置...
【描述】:这份压缩包包含的“Hive安装资料手册”是针对大数据处理工具Hive的详尽指南,旨在帮助用户理解Hive的基本概念,以及如何在Hadoop环境下进行Hive的安装与配置。 【标签】: 1. Hive:Apache Hive是一个...
9. **Hive安装**:下载并解压Hive,配置Hive的环境变量,如`HIVE_HOME`,并配置Hive连接Hadoop和HBase的相关参数。 10. **测试验证**:启动所有服务,进行简单的数据插入和查询操作,确保整合成功。 这个整合部署...
下面我们将详细介绍在Windows上安装Hive 2.3.3所需的CMD相关步骤。 首先,你需要下载Hive 2.3.3的二进制包,这个包通常包含了运行Hive所需的所有文件。解压缩下载的文件后,你会看到一个名为“bin”的目录,这个...
VM虚拟机上,安装ubantu搭建hadoop+Hive集群,步骤详细。