HIVE配置手册
1)下载hive
目前最新版本是hive-0.6.0,但是不支持hadoop-0.21.0,所以需要安装hadoop-0.20.2或者以下版本
解压到每台服务器的/data/soft
解压
root@master:/data/soft# tar zxvf hive-0.6.0.tar.gz
建立软连
root@master:/data/soft# ln -s hive-0.6.0.tar.gz hive
2)配置hive
1.修改bin/hive-config.sh,添加jdk支持
export JAVA_HOME=/usr/local/jdk
export HIVE_HOME=/data/soft/hive
export HADOOP_HOME=/data/soft/hadoop
2.在HDFS中创建目录,并且将其开放g+w模式
root@master:/data/soft#hadoop fs –mkdir /tmp
root@master:/data/soft#hadoop fs –mkdir /user/hive/warehouse
root@master:/data/soft#hadoop fs –chmod g+w /tmp
root@master:/data/soft#hadoop fs –chmod g+w /user/hive/warehouse
通过我的试验,以上创建目录的步骤是可以省略的,Hive会自动创建需要的目录
3. 修改conf/hive-default.xml,这个是hive的关键配置,所以一般不要直接修改,新建hive-site.xml文件,将修改的内容在这个里面配置。
<property>
<name>hive.exec.scratchdir</name>
<value>/data/work/hive/tmp</value>
<description>Scratch space for Hive jobs</description>
</property>
<property>
<name>hive.querylog.location</name>
<value>/data/work/hive/querylog</value>
</property>
<property>
<name>hive.hwi.listen.host</name>
<value>0.0.0.0</value>
<description>This is the host address the Hive Web Interface will listen on</description>
</property>
<property>
<name>hive.hwi.listen.port</name>
<value>9999</value>
<description>This is the port the Hive Web Interface will listen on</description>
</property>
3)运行hive
root@master:/data/soft/hive/bin# ./hive
Hive history file=/tmp/root/hive_job_log_root_201101241057_361521373.txt
hive>
4)测试hive
1.创建数据表
hive> create TABLE pokes( id INT, name string);
OK
Time taken: 8.192 seconds
默认是使用输入格式(input format)为text ,分割符号使用^A(ctrl-a).
2.创建分区的数据表
hive> CREATE TABLE invites (foo INT, bar STRING) PARTITIONED BY (ds STRING);
OK
Time taken: 36.562 seconds
包含2列和一个分区列(ds)。分区列是一个虚拟列。它不是数据自身的一部分,但是它由得到分区,详细数据加载到里面
3.显示数据表
hive> SHOW TABLES;
显示所有的数据表
hive> SHOW TABLES '.*s';
只显示以's'结尾的数据表
4.查询
hive> select * from pokes;
OK
Time taken: 0.505 seconds
5.从本地加载数据
hive> LOAD DATA LOCAL INPATH './examples/files/kv1.txt' OVERWRITE INTO TABLE pokes;
这个文件位于hive的安装目录下,
examples/files/kv1.txt
6.从hdfs加载数据
LOAD DATA INPATH '/jd/files/kv1.txt' OVERWRITE INTO TABLE pokes;
去掉
LOCAL ,就是从HDFS加载
关键字
OVERWRITE意味着,数据表已经存在的数据将被删除。省略OVERWRITE,数据文件将会添加到原有数据列表里
7. 删除数据表
hive> drop table pokes;
OK
Time taken: 0.726 seconds
5)Heap size设置
Hive默认-Xmx4096m
修改hive/bin/ext/util/ execHiveCmd.sh
HADOOP_HEAPSIZE=256
6)启动Hive Thrift Server
hive --service hiveserver
默认使用10000端口,也可以使用HIVE_PORT来指定端口
root@master:/data/soft/hive/bin# ./hive --service hiveserver --help
usage HIVE_PORT=xxxx ./hive --service hiveserver
HIVE_PORT : Specify the server port
7)启动hwi
bin/hive --service hwi
取消日志的方式
nohup bin/hive --service hwi > /dev/null 2> /dev/null &
相关资料
http://wiki.apache.org/hadoop/Hive/GettingStarted
http://wiki.apache.org/hadoop/Hive/LanguageManual
分享到:
相关推荐
本手册将深入探讨Hive的概念、数据类型、表的操作以及优化技巧。 1. **Hive概念与连接使用** Hive是建立在Hadoop之上的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,方便大数据...
非常全面的hive参数配置,总共有600多项,中文注释是用软件翻译的,勉强能看,引用请注明出处。
该手册首先会介绍Hive的基础知识,包括Hive的安装、配置和环境搭建。读者将了解到如何在不同的操作系统上安装Hadoop和Hive,以及如何设置相关的环境变量。这部分还会涵盖Hive的架构,包括元数据存储、执行引擎和查询...
本文档将介绍Hive的安装以及在Linux环境下配置Hive以连接到MySQL数据库的详细步骤,同时提供了解决Hive乱码问题的相关信息。 首先,Hive的安装过程分为以下几个步骤: 1. 将Hive安装包解压至集群中的任一机器上。 ...
Hive是基于Hadoop的一个数据仓库工具,它提供了数据存储、查询和分析的机制。...Hive的FAQ部分通常涵盖了常见问题的解答,比如如何安装Hive、如何配置Hive参数、如何管理Hive表以及如何诊断和解决常见问题等。
Hadoop2.4、Hbase0.98、Hive集群安装配置手册
**Hive基本概念** Hive是基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供SQL-like查询语言(HQL)进行数据查询、分析。Hive设计的目标是使数据分析人员能够利用熟悉的关系型数据库...
【描述】:这份压缩包包含的“Hive安装资料手册”是针对大数据处理工具Hive的详尽指南,旨在帮助用户理解Hive的基本概念,以及如何在Hadoop环境下进行Hive的安装与配置。 【标签】: 1. Hive:Apache Hive是一个...
管理员文档则针对系统管理员,指导如何安装、配置和管理Hive服务,包括设置Hive Metastore、调整性能参数、监控和日志管理。此外,还包括了与安全性相关的主题,如使用Hive与Kerberos的集成来实现身份验证和授权。 ...
`Hadoop_Developer_Guide.chm`可能是针对Hadoop开发者的详细指南,涵盖了Hadoop生态系统中各个组件的使用、配置和优化。这可能包括如何编写MapReduce作业,理解HDFS的API,以及如何使用YARN进行资源调度。这份指南...
- **HiveCommandlineOptions**:配置Hive命令行选项 ```sql hive --hiveconf hive.exec.reducers.bytes.per.reducer=104857600 ``` - **HiveinteractiveShellCommand**:在交互模式下使用Hive命令 ```sql hive...
6. **Hive配置调整**:通过调整Hive的配置参数,如mapred.reduce.tasks、hive.exec.parallel等,来优化执行效率。 ### 实战应用 实战部分将涵盖实际项目中的具体场景,如数据清洗、报表生成、数据分析等,结合案例...
用户手册提供了全面的官方指导,包括Hive的架构、配置选项、各种操作命令、函数库等。中文版使得中国用户更方便地理解Hive的详细功能和用法。手册中可能涵盖了数据分区、桶化、JOIN操作、子查询、窗口函数等高级...
### Hadoop 数据仓库 Hive 手册 #### 一、Hive 概述 Hive 是一个基于 Hadoop 的数据仓库工具,它为 Hadoop 提供了一层数据仓库基础设施。通过 Hive,用户能够更加方便地对存储在 Hadoop 分布式文件系统 (HDFS) 中...
针对Hadoop云平台的安装,部署,主要包括hadoop,hive,yarn的配置说明,使用的版本是Apache官方开源版本.
对于当前的配置选项,建议参考HiveConf Java类或Hive语言手册中的相关部分,以获取最准确和最新的信息。 在实际操作中,确保正确配置元存储是非常重要的,因为它直接影响到Hive对数据的访问效率和整体系统的稳定性...
在部署Hive时,需要配置Hive的元数据存储(如设置Metastore的数据库连接),并确保Hadoop环境已经正确配置。然后,可以通过启动HiveServer2来接受客户端连接,并通过CLI、Beeline或其他SQL客户端进行数据查询和分析...
《Hive用户指南》中文版是针对大数据处理领域的一款强大工具——Hive的详细使用手册。Hive是由Facebook开发并开源的一种基于Hadoop的数据仓库工具,它允许使用SQL(HQL,Hive Query Language)对大规模数据集进行...
### Hive搭建与应用手册知识点详解 #### 一、Hive基础简介 1. **基础描述** Hive是一款基于Hadoop的数据仓库工具,主要用于处理数据提取、转化与加载(ETL)工作,支持对Hadoop中大规模存储的数据进行查询与分析。...