HIVE详细配置手册
1)下载hive
HIVE只需在Master节点中安装和配置即可。
所以版本是hive-0.7.1,已安装的hadoop版本为hadoop-0.20.204.0,解压到master节点上的/usr/local/hadoop/contrib目录
解压
[root@master:hadoop]$ tar zxvf hive-0.7.1.tar.gz [root@master:hadoop]$mv hive-0.7.1 contrib/hive
2)配置hive
1.修改bin/hive-config.sh,添加jdk支持
export JAVA_HOME=/usr/local/jdk export HIVE_HOME=/usr/local/hadoop/contrib/hive export HADOOP_HOME=/usr/local/hadoop
2.在HDFS中创建目录,并且将其开放g+w模式
[root@master:hadoop]$bin/hadoop fs –mkdir /tmp [root@master:hadoop]$bin/hadoop fs –mkdir /user/hive/warehouse [root@master:hadoop]$bin/hadoop fs –chmod g+w /tmp [root@master:hadoop]$bin/hadoop fs –chmod g+w /user/hive/warehouse
经过试验,以上创建目录的步骤是可以省略的,Hive会自动创建需要的目录 。
浏览器输入http://master:50070 进行查看,点击Browser the filesystem进入,点击user 会看到hive链接,点击进去就能看到数据表。
3. 修改conf/hive-default.xml,这个是hive的关键配置,所以一般不要直接修改,拷贝hive-default.xml为hive-site.xml文件,将修改的内容在这个里面配置。本人为mysql数据库存储hive 的元数据,所以做如下修改:
<property>
<name>javax.jdo.OPTION.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hivedb?createDatabaseIfNotExist=true</value>
<description>JDBC connect string FOR a JDBC metastore</description>
</property>
<property>
<name>javax.jdo.OPTION.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
<description>Driver class name FOR a JDBC metastore</description> </property>
<property>
<name>javax.jdo.OPTION.ConnectionUserName</name>
<value>hiveuser</value>
<description>username TOUSE against metastore database</description>
</property>
<property>
<name>javax.jdo.OPTION.ConnectionPassword</name>
<value>hiveuser</value>
<description>password TOUSE against metastore database</description>
</property>
4.下载mysql连接驱动包,否则会报错:error creating transactional connection。本文下载的为mysql-connector-java-5.0.8-bin.jar文件,并放到$HIVE_HOME/lib目录下,这时HIVE已经全部配置完了。
3)运行hive
[root@master:hadoop]$bin/hive
Hive history file=/tmp/root/hive_job_log_root_201202181057_361521373.txt hive>
有时会报warning:please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.
在Hive官方文档中重点提到了Hive的日志配置$HIVE_HOME/conf/hive-log4j.properties,虽然不是必要更改的配置文件,但合理的设置会对我们有一定的帮助,具体配置方法可见官方文档。
4)测试hive
1.创建数据表
hive> create table tb( id int, name string);
OK Time taken: 5.112 seconds
默认是使用输入格式(input format)为text ,分割符号使用^A(ctrl-a).
2.创建分区的数据表
hive> CREATE table tb2 (foo int, bar string) partitioned by (ds string);
OK Time taken: 31.243 seconds
包含2列和一个分区列(ds)。分区列是一个虚拟列。它不是数据自身的一部分,但是由它得到分区,详细数据加载到里面.
3.显示数据表
显示所有的数据表
show tables;
只显示以's'结尾的数据表
show tables '.*s';
查询数据
select * from tb;
4.从本地加载数据
hive> load data local inpath './files/tb.txt' overwrite into table tb;
这个文件位于hive的安装目录下 files/tb.txt
5.从hdfs加载数据
load data inpath '/input/files/tb.txt' overwrite into table tb;
去掉LOCAL ,就是从HDFS加载
关键字OVERWRITE意味着,数据表已经存在的数据将被删除。省略OVERWRITE,数据文件将会添加到原有数据列表里
删除数据表:drop table tb;
5)Heap size设置
Hive默认-Xmx4096m
修改hive/bin/ext/util/ execHiveCmd.sh
HADOOP_HEAPSIZE=256
6)启动Hive Thrift Server
hive --service hiveserver
默认使用10000端口,也可以使用HIVE_PORT来指定端口
[mars@master hive]$ bin/hive --service hiveserver --help usage HIVE_PORT=xxxx ./hive --service hiveserver HIVE_PORT : Specify the server port
7)启动hwi
bin/hive --service hwi
http://masterIp:9999/hwi即可访问网络接口
取消日志的方式:
nohup bin/hive --service hwi > /dev/null 2> /dev/null &
分享到:
相关推荐
非常全面的hive参数配置,总共有600多项,中文注释是用软件翻译的,勉强能看,引用请注明出处。
本手册将深入探讨Hive的概念、数据类型、表的操作以及优化技巧。 1. **Hive概念与连接使用** Hive是建立在Hadoop之上的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,方便大数据...
本文档将介绍Hive的安装以及在Linux环境下配置Hive以连接到MySQL数据库的详细步骤,同时提供了解决Hive乱码问题的相关信息。 首先,Hive的安装过程分为以下几个步骤: 1. 将Hive安装包解压至集群中的任一机器上。 ...
该手册首先会介绍Hive的基础知识,包括Hive的安装、配置和环境搭建。读者将了解到如何在不同的操作系统上安装Hadoop和Hive,以及如何设置相关的环境变量。这部分还会涵盖Hive的架构,包括元数据存储、执行引擎和查询...
`Hadoop_Developer_Guide.chm`可能是针对Hadoop开发者的详细指南,涵盖了Hadoop生态系统中各个组件的使用、配置和优化。这可能包括如何编写MapReduce作业,理解HDFS的API,以及如何使用YARN进行资源调度。这份指南...
Hadoop2.4、Hbase0.98、Hive集群安装配置手册
【描述】:这份压缩包包含的“Hive安装资料手册”是针对大数据处理工具Hive的详尽指南,旨在帮助用户理解Hive的基本概念,以及如何在Hadoop环境下进行Hive的安装与配置。 【标签】: 1. Hive:Apache Hive是一个...
用户手册提供了全面的官方指导,包括Hive的架构、配置选项、各种操作命令、函数库等。中文版使得中国用户更方便地理解Hive的详细功能和用法。手册中可能涵盖了数据分区、桶化、JOIN操作、子查询、窗口函数等高级...
Hive是基于Hadoop的一个数据仓库工具,它提供了数据存储、查询和分析的机制。...Hive的FAQ部分通常涵盖了常见问题的解答,比如如何安装Hive、如何配置Hive参数、如何管理Hive表以及如何诊断和解决常见问题等。
### hadoop2.2+hbase0.96+hive0.12安装整合详细高可靠文档及经验总结 #### 一、Hadoop2.2的安装 **问题导读:** 1. Hadoop的安装需要安装哪些软件? 2. Hadoop与HBase整合需要注意哪些问题? 3. Hive与HBase的...
- **HiveCommandlineOptions**:配置Hive命令行选项 ```sql hive --hiveconf hive.exec.reducers.bytes.per.reducer=104857600 ``` - **HiveinteractiveShellCommand**:在交互模式下使用Hive命令 ```sql hive...
### Hive搭建与应用手册知识点详解 #### 一、Hive基础简介 1. **基础描述** Hive是一款基于Hadoop的数据仓库工具,主要用于处理数据提取、转化与加载(ETL)工作,支持对Hadoop中大规模存储的数据进行查询与分析。...
**Hive基本概念** Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL-like查询语言(HQL)进行数据查询、分析。Hive设计的目标是使数据分析人员能够利用熟悉的关系型数据库...
6. **Hive配置调整**:通过调整Hive的配置参数,如mapred.reduce.tasks、hive.exec.parallel等,来优化执行效率。 ### 实战应用 实战部分将涵盖实际项目中的具体场景,如数据清洗、报表生成、数据分析等,结合案例...
在部署Hive时,需要配置Hive的元数据存储(如设置Metastore的数据库连接),并确保Hadoop环境已经正确配置。然后,可以通过启动HiveServer2来接受客户端连接,并通过CLI、Beeline或其他SQL客户端进行数据查询和分析...
管理员文档则针对系统管理员,指导如何安装、配置和管理Hive服务,包括设置Hive Metastore、调整性能参数、监控和日志管理。此外,还包括了与安全性相关的主题,如使用Hive与Kerberos的集成来实现身份验证和授权。 ...
对于当前的配置选项,建议参考HiveConf Java类或Hive语言手册中的相关部分,以获取最准确和最新的信息。 在实际操作中,确保正确配置元存储是非常重要的,因为它直接影响到Hive对数据的访问效率和整体系统的稳定性...
《Hive用户指南》中文版是针对大数据处理领域的一款强大工具——Hive的详细使用手册。Hive是由Facebook开发并开源的一种基于Hadoop的数据仓库工具,它允许使用SQL(HQL,Hive Query Language)对大规模数据集进行...
- `stderr` 和 `stdout`:可能包含额外的调试信息,尤其是当 Hive 配置了更详细的日志级别时。 【Hive_LOG_00003】 怎么查看HiveServer日志? 要查看 HiveServer 的日志,你需要找到 HiveServer2 的工作目录,通常...