Hive两种模式安装
数据仓库工具,可以把Hadoop下的原始结构化数据变成Hive中的表。
支持一种与SQL几乎完全相同的语言HiveQL,除了不支持更新、索引和事务。
可以看成是从SQL到Map-Reduce的映射器。
提供shell、JDBC/ODBC、thrift、Web等接口。
一、内嵌模式安装
这样安装的元数据保持在内嵌的Derby
数据库中,只能允许一个会话连接,只适用于简单的测试。
1、解压Hive
[coder@h1 ~]$ tar -zxvf hive-0.10.0.tar.gz
2、配置环境变量/etc/profile
加入Hive的安装目录,并把Hive的bin目录配置到PATH
HIVE_HOME=/home/coder/hive-0.10.0
PATH=$HADOOP_INSTALL/bin:$PIG_INSTALL/bin:$JAVA_HOME/bin:$HIVE_HOME/bin:$PATH
执行 source /etc/profile命令,使得配置生效
3、新建Hive所需目录
在HDFS上建立/tmp和/user/hive/warehouse目录,并赋予组用户写权限。这是Hive默认的数据文件存放目录,可以在hive-site.xml文件中配置。
[coder@h1 hadoop-0.20.2]$ bin/hadoop fs -mkdir /tmp
[coder@h1 hadoop-0.20.2]$ bin/hadoop fs -mkdir /user/hive/warehouse
[coder@h1 hadoop-0.20.2]$ bin/hadoop fs -chmod g+w /tmp
[coder@h1 hadoop-0.20.2]$ bin/hadoop fs -chmod g+w /user/hive/warehouse
4、输入hive命令,出现类似下面的内容,说明安装成功。
[coder@h1 hadoop-0.20.2]$ hive
Logging initialized using configuration in jar:file:/home/coder/hive-0.10.0/lib/hive-common-0.10.0.jar!/hive-log4j.properties
Hive history file=/tmp/coder/hive_job_log_coder_201305072118_1272944282.txt
hive>
hive> show tables;
OK
Time taken: 24.479 seconds
hive> exit;
二、独立模式安装
支持多用户会话,需要一个独立的元数据库,常用的是使用MySQL作为元数据库。
1、启动MySQL
[root@h1 ~]# service
mysqld start
Starting mysqld: [ OK ]
[root@h1 ~]#
2、为Hive建立相应的MySQL账号
[root@h1 ~]# mysql
Welcome to the MySQL monitor. Commands end with ; or \g.
Your MySQL connection id is 2
Server version: 5.1.66 Source distribution
Copyright (c) 2000, 2012,
Oracle and/or its affiliates. All rights reserved.
Oracle is a registered trademark of Oracle Corporation and/or its
affiliates. Other names may be trademarks of their respective
owners.
Type 'help;' or '\h' for help. Type '\c' to clear the current input statement.
mysql> create user 'hive' identified by '123456';
Query OK, 0 rows affected (0.00 sec)
mysql> GRANT ALL PRIVILEGES ON *.* TO 'hive'@'localhost' IDENTIFIED BY '123456' WITH GRANT OPTION;
Query OK, 0 rows affected (0.00 sec)
mysql> flush privileges;
Query OK, 0 rows affected (0.00 sec)
mysql> exit
Bye
[root@h1 ~]#
然后从客户端用hive账号登陆MySQL
3、建立Hive专用元数据库
mysql>create database hive;
4、配置Hive
在Hive安装目录的conf目录下,将hive-default.xml.template复制一份命名为:hive-site.xml
修改以下内容,配置上mysql数据连接、驱动、用户名和密码
<property>
<name>javax.jdo.option.ConnectionURL</name>
<value>jdbc:mysql://localhost:3306/hive?createDatabaseIfNotExist=true</value>
</property>
<property>
<name>javax.jdo.option.ConnectionDriverName</name>
<value>com.mysql.jdbc.Driver</value>
</property>
<property>
<name>javax.jdo.option.ConnectionUserName</name>
<value>hive</value>
</property>
<property>
<name>javax.jdo.option.ConnectionPassword</name>
<value>123456</value>
</property>
5、把mysql的驱动包拷贝到Hive安装路径下的lib目录
6、进入Hive,没报错说明独立模式安装成功
[coder@h1 ~]$ hive
Logging initialized using configuration in jar:file:/home/coder/hive-0.10.0/lib/hive-common-0.10.0.jar!/hive-log4j.properties
Hive history file=/tmp/coder/hive_job_log_coder_201305072212_717503278.txt
hive> show tables;
OK
Time taken: 24.783 seconds
hive> exit;
分享到:
相关推荐
### Hive数据存储模式详解 #### 一、Hive的数据存储 Hive作为一款基于Hadoop的数据仓库工具,其核心功能之一就是提供了一种高效的管理大数据的方式。Hive的数据分为两大类:**表数据**和**元数据**。 - **表数据*...
在`hadoop HA集群安装文档1.0.docx`中,应详细介绍了如何配置两个NameNode节点,设置JournalNodes和Zookeeper,以及如何启用和测试HA模式。这些步骤是确保Hadoop集群稳定性和容错性的基础。 接下来是Hive的安装。...
Hive执行MapReduce任务有两种模式:本地模式和分布式模式。 Hive的安装部署涉及对Hive组件的配置和高可用部署。Hive组件包括HiveServer2,它支持通过Thrift API进行远程访问。为了保证HiveServer2的高可用性,通常...
通常有二进制分发版和源代码两种选择,这里我们选择二进制分发版。 3. **解压并配置**:将下载的Hadoop压缩包解压到指定目录,如 `/usr/local/hadoop`。然后,配置`hadoop-env.sh`和`core-site.xml`文件,设置...
- Hive支持两种类型的元数据库:Derby和MySQL。 - Derby仅适用于单用户模式或测试环境,而MySQL适用于生产环境。 **4. 整合关键点:** - 需要复制`mysql-connector-java-5.1.10-bin.jar`和`hive-hbase-handler-...
Hive on Spark 支持两种运行模式:本地(LOCAL)和远程(REMOTE)。当用户把 SPARK MASTER URL 设置为 LOCAL 时,采用本地模式;其余情况采用远程模式。在本地模式下,SparkContext 与客户端运行在同一个 JVM 中;在...
在Spark on YARN模式下,又分为Cluster和Client两种部署模式。Cluster模式下,Driver程序在ResourceManager上运行,而Client模式下,Driver在提交应用程序的客户端上运行。 接下来,我们将按照以下步骤进行配置: ...
元数据库可以使用两种不同的实现方式: - **Derby**:Derby是一种轻量级的嵌入式数据库,主要用于测试和小型项目。Hive默认使用Derby作为元数据库。 - **MySQL**:对于生产环境中的大型部署,通常推荐使用MySQL...
Flink 提供了两种方式与 Hive 集成:Table API 和 SQL。Table API 是一种声明式编程模型,适用于 Java 和 Scala;SQL 则更直观,适合熟悉 SQL 的用户。两者都可以通过 Flink 的 Hive 支持创建、查询和更新 Hive 表。...
总的来说,这个“hive-udf”项目提供了一种有效的方法,通过自定义Java UDF扩展Hive的功能,实现了地址解析和距离计算,这对于处理涉及地理位置信息的大数据任务非常有用。这不仅能够帮助分析人员更准确地理解数据,...
在Hive中,元存储的配置有两种方式: 1. **本地/嵌入式元存储数据库**:通常用于开发和测试环境,使用Derby作为默认的元存储数据库。元数据存储在与Hive服务在同一台机器上,这简化了设置,但不适合生产环境,因为...
分区是提高Hive查询效率的一种手段,允许用户将大表划分为小块。添加分区:`ALTER TABLE my_table ADD PARTITION (partition_col='value');` 删除分区:`DROP PARTITION IF EXISTS my_table (partition_col='value'...
2. Hive Server:接收客户端请求,处理查询并返回结果,有两种主要的服务模式:HiveServer(HS1)和HiveServer2(HS2)。 3. HQL解析器:将用户的SQL语句转化为抽象语法树(AST)。 4. 编译器:将AST转化为逻辑执行...
在IT行业中,Hive和Spark是两个非常重要的大数据处理框架。Hive主要提供了一种基于Hadoop的数据仓库工具,使得用户可以通过SQL语句对大规模数据进行查询和分析。而Spark则是一个快速、通用且可扩展的大数据处理引擎...
本文档主要介绍了Hadoop集群监控和Hive高可用的解决方案,涵盖了Cacti和Ganglia两种监控工具的优缺点、Hive高可用集群的实现方案、HAProxy的应用和优化。 一、Hadoop集群监控 1. Cacti监控工具 Cacti是一种基于...
Doris的整体架构十分简洁,主要包括两种进程: - **Frontend(FE)**:负责用户请求的接入、查询解析规划、元数据管理及节点管理工作。 - **Backend(BE)**:负责数据存储与查询计划的执行。这些进程可通过一致性...
- **执行引擎**:Hive通过ExecMapper和ExecReducer执行MapReduce任务,支持本地模式和分布式模式两种执行模式。 #### 四、Hive执行流程详解 - **编译阶段**: - **Parser**:将HQL查询解析成抽象语法树(AST)。 ...
表是基本的数据结构,可以有列式存储和行式存储两种模式。分区是将大表逻辑上切分为更小的部分,通过指定一个或多个列的值进行划分,提高查询效率。 4. **分区(Partitioning)**: 分区是Hive的一个重要特性,...
它提供了两种交互模式:HiveServer(旧版,基于Thrift)和HiveServer2(新版,更安全和高性能)。 2. **Hive Metastore**:存储关于Hive表元数据(如表名、列名、分区信息等)的服务。元数据通常存储在关系数据库如...