其实Hive的安装配置应该放在第二章来介绍,晚了些,希望对Hive初学者有用。
三、Hive的安装配置
3.1 环境需求
- Hadoop Client
- Mysql
3.2 下载并解压Hive0.13.1安装包
下载地址:http://archive.apache.org/dist/hive/hive-0.13.1/apache-hive-0.13.1-bin.tar.gz
cp apache-hive-0.13.1-bin.tar.gz /usr/local
cd /usr/local
tar –xzvf apache-hive-0.13.1-bin.tar.gz
配置环境变量(如果不是root用户,配置自己的~/.bash_profile即可):
vi /etc/profile
export HIVE_HOME=/usr/local/apache-hive-0.13.1-bin
export PATH=$HIVE_HOME/bin: $PATH
source /etc/profile
3.3 在Mysql中建立Hive元数据库和表
root进入Mysql;
CREATE DATABASE hive;
//下面给所有的ip都赋了访问权限,安全起见,
//一般这里只需要对安装Hive Client端的机器IP赋权即可
GRANT ALL ON hive.* TO hive@’%’ IDENTIFIED BY ‘hive1234′;
flush privileges;
3.4 配置hive-site.xml
cd $HIVE_HOME/conf/
新建hive-site.xml, 里面是以下内容:
<?xml version="1.0"?> <?xml-stylesheet type="text/xsl" href="configuration.xsl"?> <configuration> <property> <name>hive.metastore.warehouse.dir</name> <value>/hivedata/warehouse/</value> <description>Hive在HDFS上的根目录</description> </property> <property> <name>javax.jdo.option.ConnectionURL</name> <value>jdbc:mysql://172.16.212.102:3306/hive?createDatabaseIfNotExist=true</value> <description>Hive元数据库的连接串,红色为数据库名</description> </property> <property> <name>javax.jdo.option.ConnectionDriverName</name> <value>com.mysql.jdbc.Driver</value> <description>Hive元数据库JDBC驱动</description> </property> <property> <name>javax.jdo.option.ConnectionUserName</name> <value>hive</value> <description>Hive元数据库用户名</description> </property> <property> <name>javax.jdo.option.ConnectionPassword</name> <value>hive1234</value> <description>Hive元数据库密码</description> </property> <property> <name>datanucleus.autoCreateTables</name> <value>true</value> <description>不存在时,自动创建Hive元数据表</description> </property> <property> <name>datanucleus.autoCreateColumns</name> <value>true</value> <description>不存在时,自动创建Hive元数据列</description> </property> <property> <name>datanucleus.fixedDatastore</name> <value>false</value> </property> <property> <name>datanucleus.autoStartMechanism</name> <value>SchemaTable</value> </property> </configuration>
这些是必须的参数,配好就行了,特别注意最后几个参数,其他可根据实际需求来配置。
3.5 进入Hive-Cli
由于3.3中已经配置了环境变量,因此直接执行hive命令,即可进入Hive-Cli.
如:
[lxw1234@dev ~]$ hive
Logging initialized using configuration in file:/usr/local/apache-hive-0.13.1-bin/conf/hive-log4j.properties
hive>show databases;
OK
default
Time taken: 0.42 seconds, Fetched: 1 row(s)
hive>
第一次执行,Hive需要在元数据库中建立相关的表,因此会稍微感觉慢一些。
3.6 Hive的日志
Hive的日志一般存放在操作系统本地的/tmp/${user.name}/hive.log中,该文件路径由
$HIVE_HOME/conf/hive-log4j.properties中指定,可自己修改该路径。
相关推荐
2. 配置连接:设置Hive和HBase的配置参数,如Zookeeper地址、HDFS路径等,以便正确地连接到服务。 3. 创建连接:通过API创建Hive和HBase的连接实例,如HiveConnection和HBaseAdmin。 4. 执行操作:使用提供的API进行...
在Hive的基础操作部分,书中涵盖了安装、配置和使用Hive的全过程,包括Java环境的设置、Hadoop的安装(涉及本地模式、伪分布式和分布式模式)、Hive的安装和启动,以及Hive命令行界面的使用。Hive的命令选项、变量和...
JOIN操作是Hive性能优化的关键之一。在执行JOIN操作时,应该将小表放在前面,以避免内存溢出错误。同时,应该使用MAPJOIN操作,以提高 JOIN 的效率。 4. 列裁剪和分区裁剪 列裁剪和分区裁剪是Hive性能优化的重要...
在这个场景中,我们将探讨如何在伪分布式模式下安装和配置Hadoop,并结合Hive和Sqoop进行数据操作。 首先,我们需要理解Hadoop的核心组件:HDFS(Hadoop Distributed File System)和MapReduce。HDFS提供了可靠的、...
在知识方面,这本书可能会涵盖Hive的安装、配置、使用以及优化等各个方面,同时也会涉及到Hadoop生态系统的相关知识,比如MapReduce、HBase、Pig等工具。这些工具通常与Hive一起使用来处理大数据问题。 书中还可能...
这个“19:Flume+HBase+Hive集成大数据项目离线分析”的压缩包文件提供了关于如何将这三个工具集成到一起进行离线数据分析的详细教程。以下是关于这些技术的重点知识点: 1. **Flume**: Flume 是 Apache 提供的一个...
- **Hive**:构建于Hadoop之上的数据仓库工具,简化了对Hadoop数据的查询和管理。 - **Sqoop**:用于在Hadoop和关系型数据库之间高效地传输大量数据。 - **Kettle**:开源ETL(Extract, Transform, Load)工具,用于...
在大数据处理领域,Apache Hive是一个非常重要的工具,它提供了一个SQL-like接口来处理存储在Hadoop分布式文件系统(HDFS)...同时,这个压缩包也可以作为实际项目开发前的测试环境,确保Hive配置和查询脚本的正确性。
- **性能优化**:学习如何调整Spark和Hive的配置参数,以提高数据处理速度和资源利用率。 - **数据安全性**:在大数据环境中,确保数据的安全存储和传输,例如使用SSL/TLS加密通信,设置访问权限等。 总的来说,这...
【Hadoop_Hive_Project: NYU CSCI-GA.3033-003的课程项目】 这个项目是纽约大学CSCI-GA.3033-003课程的一部分,专注于大数据处理,主要使用了Hadoop和Hive两个核心组件。Hadoop是一个开源框架,用于存储和处理大...
Hive是建立在Hadoop之上的数据仓库工具,它允许用户使用SQL(HQL,Hive SQL)语言进行数据查询、分析和管理。Hive将SQL语句转化为MapReduce任务执行,提供了对大型数据集的高效分析能力。尽管Hive的查询速度相比传统...
【实验3 MyJoin1】是关于使用MapReduce和Hive进行大数据处理的实践任务,主要目的是让学生掌握如何在Hadoop环境中实现数据join操作并利用Hive进行数据管理和查询。以下是这个实验涉及的知识点: 1. **MapReduce**:...
接着,我们将深入研究Hadoop的安装与配置,包括单机模式、伪分布式模式和完全分布式模式的搭建。这将帮助你理解Hadoop如何在不同环境下的运行机制,并为你后续的实战操作打下坚实的基础。 进入实战部分,我们将通过...
会涉及目前比较火的大数据的相关概念,比如说spark,hadoop,mahout,hbase,hive,openstack,storm等,目前主要学习hadoop和mahout,后续有时间和精力的话,会涉及更多,也欢迎大家即使补充相关代码,大家一起学习...
《基于互联网招聘信息统计与分析》项目是一个综合性的后端开发实践,主要利用...通过学习和实践这个项目,开发者能够提升自己在这些领域的技能,同时也能了解到如何将它们整合在一起,完成一个实际的数据分析系统。
- **Hive概述**:Hive是一个构建于Hadoop之上的数据仓库工具,允许用户使用SQL-like查询语言(HiveQL)进行数据查询。 - **Hadoop生态系统**:除了Hive之外,还有其他工具如HBase、ZooKeeper等,共同构成了Hadoop...
- **步骤**: 安装操作系统、配置网络环境、安装必要的软件包等。 - **Hadoop的安装与配置**: 在集群环境中配置Hadoop的关键步骤包括设置环境变量、格式化HDFS等。 通过以上知识点的学习,学员将能够全面地理解和...
HBase的架构基于分布式计算框架Hadoop,它主要由四个关键组件构成: - **ZooKeeper**:作为一个协调服务,ZooKeeper负责维护集群的状态信息,如HMaster和HRegionServer的选举,确保系统的高可用性。 - **HMaster...
`spark-master`启动Spark Master,而`hive-metastore`则配置了MySQL数据库来存储Hive的元数据。 启动这个环境只需要在命令行中运行`docker-compose up`。一旦所有服务都运行起来,你可以通过浏览器访问`...
HBase的学习内容包括基本概念、集群安装和API操作,而Hive则让学生了解其在数据处理中的作用,学习如何通过Hive接口进行数据查询和分析。 Spark作为高效的集群计算环境,被广泛用于大数据处理。课程将介绍Spark的...