`

0 hive 简介,安装,本地文件上传到hive操作

    博客分类:
  • hive
 
阅读更多

 

1 简介:

 

架构图:

 



 

 

 

hive和hadoop交互关系图:

 



 上述流程图整理如下:

1、通过用户界面提交SQL		驱动接收SQL
2、驱动将SQL传送给编译器	
3、编译器获得SQL		检查语法、匹配资源、去metastore查询
4、metastore返回相应的数据库字段信息	优化SQL、产生执行计划
5、驱动接收执行计划			将执行计划发送执行引擎
6、执行引擎解析
6.1、	DDL操作:直接和metastore交互
		create table t1(name string);
		drop table t1;
6.1、	DML:直接读取数据,和namenode、datanode交互
		select * from t1 limit 100;
		select name form t1;   现在的hive已经能够针对查询单个列来不执行mr直接和namenode datanode交互了 

6.1、	执行MapReduce
		跑MR job
		返回结果集信息
		select count(1) from t1;

 

 

 

a) 概念:

Hive 是建立在 Hadoop  上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL ),这是一种可以存储、查询和分析存储在 Hadoop  中的大规模数据的机制。Hive 定义了简单的类 SQL  查询语言,称为 QL ,它允许熟悉 SQL  的用户查询数据。
同时,这个语言也允许熟悉 MapReduce  开发者的开发自定义的 mapper  和 reducer  来处理内建的 mapper 和 reducer  无法完成的复杂的分析工作。

Hive作为数据仓库,仓库中的数据是存储在HDFS中,HQL语句的执行是转化为MapReduce的job执行的。也就是说,Hive只是把HQL语句转换为MapReduce的job,然后交给MapReduce去查询位于HDFS中的数据。
因此,Hive依赖于Hadoop,没有Hadoop就没有Hive。

 

b) 解释:

b.1) 数据库侧重于一些操作型的事情,事务型的东西,底层设计侧重于操作

b.2) 数据仓库侧重于查询,底层设计侧重于查询, 在相同数据量下,数据仓库查询速度会更快。

b.3) hive和mapreduce的区别:
相同处: 都是对海量数据的查询
不同处:
mapreduce是用Java开发的,对非Java的人有瓶颈,
hive:封装在Hadoop之上的可以使用SQL进行海量数据查询的框架,因为SQL学习简单使用简单因此降低了使用门槛。

b.4) ETL:
E: 抽取 比如业务提供9个字段,我们之获取4个字段
T: 转化 transform,比如有的业务男女用 true false,有的业务用1,0 在汇总到hive时,需要转成统一标示
L: 加载 load

 

b.5) hive其数据仓库的数据是外面导入进来的。

b.6) hive转化成mapreduce时,需要知道启多少个map  多少个reduce,运行的数量和运行速度是需要关心的。 
对hive的优化实际就是对生成的map-reduce的优化。

 

c) HQL中的信息和hdfs对应规则如下:

表 ----> hdfs文件/文件夹
表中数据 ----> hdfs文件/文件夹内数据
表中列  ----> hdfs文件数据的不同字段

以上对应关系存放在hive的metastore组件中,metastore表现为关系数据库,可以是derby,也可以是mysql

类比于 hibernate和mysql的对应关系:
User  <------> cn_user    对应关系在 *.hbm.xml内

metastore表现默认使用derby,但是这种存储太小众,一般需要将hive和hdfs对应关系存储在MySQL中

 

 

hive除了有SQL, UDF
还支持熟悉mr的用户自定义mapper reducer来处理内建的mapper reducer无法完成的复杂分析工作。

是解析引擎,将SQL转换为mr任务,来在hadoop上执行。

 

何时走jobtracker   select 非* ,

                               (据说在高版本的hive中这种查询不需要再走mr,在hive0.13测试中发现还在走mr)
何时走namenode     select *

 

 

eg: select count(1) from stu;  处理后的结果就是reduce信息的输出结果,依旧会去Hadoop中来找最后的存储结果。

 

 

 只要具备Hadoop环境的每一台机器都可以安装hive, 没有必要安装成hive集群。

 

2 安装hive

2.1) 一定要配置在Hadoop集群的某个节点上

2.2) 类比于QQ,是一款比较简易的客户端安装软件,安装简单

2.3) 安装过程:

 

[root@master local]# tar -zxvf hive-0.9.0.tar.gz   解压
[root@master local]# mv hive-0.9.0 hive    改名
[root@master hive]# cd conf 
[root@master conf]# ls
hive-default.xml.template  hive-exec-log4j.properties.template
hive-env.sh.template       hive-log4j.properties.template
[root@master conf]# mv hive-exec-log4j.properties.template  hive-exec-log4j.properties
[root@master conf]# mv hive-log4j.properties.template hive-log4j.properties
[root@master conf]# ls
hive-default.xml.template  hive-exec-log4j.properties
hive-env.sh.template       hive-log4j.properties
[root@master conf]# mv hive-env.sh.template  hive-env.sh
[root@master conf]# mv hive-default.xml.template  hive-default.xml
[root@master conf]# cp hive-default.xml hive-site.xml
[root@master conf]# ls
hive-default.xml  hive-exec-log4j.properties  hive-site.xml
hive-env.sh       hive-log4j.properties

[root@master conf]# cat hive-site.xml    修改hive-site.xml 成如下样子:
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>  
        <name>javax.jdo.option.ConnectionURL</name>  
        <value>jdbc:mysql://single:3306/hive?createDatabaseIfNotExist=true</value>  
</property>  
<property>  
        <name>javax.jdo.option.ConnectionDriverName</name>  
        <value>com.mysql.jdbc.Driver</value>  
</property>  
<property>  
        <name>javax.jdo.option.ConnectionUserName</name>  
        <value>root</value>  
</property>  
<property>  
        <name>javax.jdo.option.ConnectionPassword</name>  
        <value>123456</value>  
</property> 

</configuration>

[root@master bin]# vi hive-config.sh   修改hive/bin/hive-config.sh  增加如下信息:

export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop  // 关联上hadoop集群
export HIVE_HOME=/usr/local/hive

[root@master bin]# ls       
ext  hive  hive-config.sh
[root@master bin]# jps
20011 Jps
9800 JobTracker
9572 NameNode
9721 SecondaryNameNode
[root@master bin]# hive    保证Hadoop集群开启下,来启动hive
WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.
Logging initialized using configuration in file:/usr/local/hive/conf/hive-log4j.properties ----> 标明配置写出日志文件的配置文件
Hive history file=/tmp/root/hive_job_log_root_201412111909_207218151.txt   -----> 表示日志文件
hive> show databases;   
OK
default
Time taken: 14.129 seconds
hive> use default;
OK
Time taken: 0.141 seconds
hive> show tables;
OK
Time taken: 0.995 seconds
hive> create table t1(id int);
OK
Time taken: 1.015 seconds
hive> show tables;
OK
t1
Time taken: 0.068 seconds
hive> quit;
[root@master bin]# ls -->上面表创建后,可见下面增加文件derby.log和metastore_db
derby.log  ext  hive  hive-config.sh  metastore_db

 

 2.3.1) 配置hive环境变量:

配置hive环境变量:
export JAVA_HOME=/usr/local/jdk
export HADOOP_HOME=/usr/local/hadoop
export HIVE_HOME=/usr/local/hive
export PATH=.:$HIVE_HOME/bin:$HADOOP_HOME/bin:$JAVA_HOME/bin:$PATH
[root@master data]# source /etc/profile   立马生效

 

 

2.4) hive默认数据库对应hdfs路径:

 

hive中的数据库,表对应HDFS中文件夹对应关系:

http://master:50070/dfshealth.jsp
--->Browse the filesystem
--->user
--->hive
--->warehouse
--->t1 看到我们通过命令创建的表 对应目录为:/user/hive/warehouse/t1

其中:
当hive部署成功后,hive默认的数据库default在hdfs上对应的目录是/user/hive/warehouse

 

 

 

如下图:



 

 

 

2.5) hive 映射关系metastore 将默认derby修改成mysql做法:

 

前提
a) mysql数据库安装上
b) 如果mysql服务没有安装在当前hive所在机器,那么设置mysql服务远程连接和操作授权
c) 将mysql-jdbc驱动扔到hive/lib下
[root@master bin]# cp /usr/local/mysql-connector-java-5.1.10.jar ../lib
d) 修改配置文件hive/bin/hive-site.xml  增加mysal连接信息:
[root@master conf]# vi hive-site.xml    修改增加如下内容

[root@master conf]# cat hive-site.xml 
<?xml version="1.0"?>
<?xml-stylesheet type="text/xsl" href="configuration.xsl"?>
<configuration>
<property>
        <name>javax.jdo.option.ConnectionURL</name>
        <value>jdbc:mysql://master:3306/hive_cr00?createDatabaseIfNotExist=true</value>  hive_cr00表示数据库名
</property>
<property>
        <name>javax.jdo.option.ConnectionDriverName</name>
        <value>com.mysql.jdbc.Driver</value>
</property>
<property>
        <name>javax.jdo.option.ConnectionUserName</name>
        <value>root</value>
</property>
<property>
        <name>javax.jdo.option.ConnectionPassword</name>
        <value>admin</value>
</property>
</configuration>

e) 进入hive/bin,删除derby.log  metastore_db等信息:
[root@master bin]# ls
derby.log  ext  hive  hive-config.sh  metastore_db
[root@master bin]# rm -rf derby.log 
[root@master bin]# rm -rf metastore_db/
[root@master bin]# ls
ext  hive  hive-config.sh

f) 继续执行hive命令:
[root@master bin]# hive
WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.
Logging initialized using configuration in file:/usr/local/hive/conf/hive-log4j.properties
Hive history file=/tmp/root/hive_job_log_root_201412112247_263167195.txt
hive> show databases;
OK
default
Time taken: 7.634 seconds
hive> use default;    // 使用hive默认数据库
OK
Time taken: 0.094 seconds
hive> show tables;
OK
Time taken: 1.034 seconds 
hive> create table t1(id int);   // 创建表
OK
Time taken: 0.43 seconds
hive> [root@master bin]# ls   // 此时没有在产生 derby.log  metastore_db等存储映射信息的文件和库
ext  hive  hive-config.sh

g) 进入MySQL服务,查看刚才hive创建操作生成的结果:
mysql> show databases;
+--------------------+
| Database           |
+--------------------+
| information_schema | 
| hive_cr00          | 
| mysql              | 
| test               | 
+--------------------+
4 rows in set (0.00 sec)

mysql> use hive_cr00   //  使用配置文件 hive-site.xml内配置的库 hive_cr00
Reading table information for completion of table and column names
You can turn off this feature to get a quicker startup with -A

Database changed
mysql> show tables;
+---------------------+
| Tables_in_hive_cr00 |
+---------------------+
| BUCKETING_COLS      | 
| CDS                 | 
| COLUMNS_V2          | 
| DATABASE_PARAMS     | 
| DBS                 | 
| PARTITION_KEYS      | 
| SDS                 | 
| SD_PARAMS           | 
| SEQUENCE_TABLE      | 
| SERDES              | 
| SERDE_PARAMS        | 
| SORT_COLS           | 
| TABLE_PARAMS        | 
| TBLS                | 
+---------------------+
14 rows in set (0.00 sec)

mysql> select * from DBS    // 可以看到hive默认数据库名default,默认路径为hdfs://master:9000/user/hive/warehouse
    -> ;
+-------+-----------------------+----------------------------------------+---------+
| DB_ID | DESC                  | DB_LOCATION_URI                        | NAME    |
+-------+-----------------------+----------------------------------------+---------+
|     1 | Default Hive database | hdfs://master:9000/user/hive/warehouse | default | 
+-------+-----

mysql> select * from TBLS \G;   // 可以看到之前通过hive操作创建的表t1,
*************************** 1. row ***************************
            TBL_ID: 1
       CREATE_TIME: 1418366898
             DB_ID: 1
  LAST_ACCESS_TIME: 0
             OWNER: root
         RETENTION: 0
             SD_ID: 1
          TBL_NAME: t1
          TBL_TYPE: MANAGED_TABLE
VIEW_EXPANDED_TEXT: NULL
VIEW_ORIGINAL_TEXT: NULL

mysql> select * from COLUMNS_V2   // 可以看到之前通过hive操作创建的表t1字段 id
    -> ;
+-------+---------+-------------+-----------+-------------+
| CD_ID | COMMENT | COLUMN_NAME | TYPE_NAME | INTEGER_IDX |
+-------+---------+-------------+-----------+-------------+
|     1 | NULL    | id          | int       |           0 | 
+-------+---------+-------------+-----------+-------------+
1 row in set (0.00 sec)

 

 

 

 2.6) 通过hive将本地磁盘文件上传到hdfs中做法:

 



 

实验代码:

a) 通过hive创建单字段表,并上传本地文件到hive:

[root@master data]# cat onecolumn   // 在本地磁盘文件中的创建数据
1
2
3
4
5
// 通过hive hql将本地文件数据上传到hive中(1 实际是将本地磁盘文件数据写到hdfs中 2 通过hive将hdfs和hive表对应关系保持到MySQL中)
hive> load data local inpath '/usr/local/data/onecolumn' into table t1; 
Copying data from file:/usr/local/data
Copying file: file:/usr/local/data/onecolumn
Loading data to table default.t1
OK
Time taken: 16.166 seconds
hive> select * from t1;
OK
1
2
3
4
5
Time taken: 0.812 seconds

上述命令解释如下:
load data local inpath '/usr/local/data/onecolumn' into table t1;
load data 文件在本地(local)  inpath位置在   '可以是绝对路径也可以是相对路径'  into table t1(加载到表t1中)

 

结果图:



 

 

b) 通过hive创建多字段表,并上传本地文件到hive:

 

 

通过hive创建多字段表:
create table t2(id int, name string) row format delimited fields terminated by '\t';	
解释: row format delimited fields terminated by 是固定不动的,不管是多少个字段, '\t'是可变的,表示字段之间的间隔
从外部加载的时候 要知道如何划分字段。\t表示外部数据用这个方式来间隔彼此
hive> create table t2(id int, name string) row format delimited fields terminated by '\t'; // hive中创建多字段表,接受的实际数据之间用'\t'间隔
OK
Time taken: 0.462 seconds

[root@master data]# cat user // 准备本次磁盘文件数据
1       zhangsan
2       lisi
3       wangwu
4       zhaoliu

hive> load data local inpath '/usr/local/data/user' into table t2;   

hive> select * from t2;
OK
1       zhangsan
2       lisi
3       wangwu
4       zhaoliu

hive> select name from t2;    // 在查询某个/某几个列的时候 没办法全表扫描,只能通过map-reduce去做,
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks is set to 0 since there's no reduce operator
Starting Job = job_201412080304_0005, Tracking URL = http://master:50030/jobdetails.jsp?jobid=job_201412080304_0005
Kill Command = /usr/local/hadoop/libexec/../bin/hadoop job  -Dmapred.job.tracker=master:9001 -kill job_201412080304_0005
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 0
2014-12-12 00:15:53,940 Stage-1 map = 0%,  reduce = 0%
2014-12-12 00:16:00,119 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 0.58 sec
2014-12-12 00:16:01,129 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 0.58 sec
2014-12-12 00:16:02,144 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 0.58 sec
MapReduce Total cumulative CPU time: 580 msec
Ended Job = job_201412080304_0005
MapReduce Jobs Launched: 
Job 0: Map: 1   Cumulative CPU: 0.58 sec   HDFS Read: 237 HDFS Write: 29 SUCCESS
Total MapReduce CPU Time Spent: 580 msec
OK
zhangsan
lisi
wangwu
zhaoliu
Time taken: 42.547 seconds

 

 

 

  • 大小: 40.2 KB
  • 大小: 18 KB
  • 大小: 8.3 KB
  • 大小: 77 KB
  • 大小: 204.4 KB
分享到:
评论

相关推荐

    Hive2.3.4安装文档

    1.上传hive的tar包到/usr/local/soft目录下 2.解压tar包并且重命名 ``` tar -zxvf apache-hive-2.3.4-bin.tar.gz mv apache-hive-2.3.4-bin hive ``` 二、配置Hive的环境变量 1. 来到hive的conf目录下 ``` cd /usr/...

    apache-hive-3.1.2+mysql-connector-java-5.1.32-bin.jar

    `hive搭建.doc`是安装指南,通常会详细描述如何在本地或集群环境中安装和配置Hive,包括但不限于以下步骤: 1. 安装Java环境:Hive依赖Java运行,确保系统已安装JDK 8或更高版本。 2. 安装Hadoop:Hive是建立在...

    hive实验报告.docx

    - 开发过程包括创建Java工程,添加Hive相关的依赖,编写UDF类,打包成jar文件,然后将jar文件上传到集群,并在Hive中注册这个函数。 6. **Hive调优策略**: - 虽然实验报告中没有详细列出遇到的问题和解决方案,...

    Linux搭建Hive开发环境

    一旦文件上传完成,我们需要通过Xshell这样的终端工具登录到Linux服务器上,对下载的Hive安装包进行解压。在这个过程中,我们通常会使用命令行操作,例如通过tar命令来解压缩文件。本例中使用的是命令tar -zxvf ...

    hive的安装.pdf

    - **上传 JDBC 驱动**:将 `mysql-connector-java-5.1.46.jar` 文件上传到 Hive 的 `lib` 目录,以便 Hive 能够连接到 MySQL。 3. **远程模式**:在远程模式下,只需将 `hive-site.xml` 中的 `localhost` 替换为 ...

    hive数据加载导出查询

    1. **将本地文件上传至 HDFS:** ```bash bin/hdfs dfs -put /home/hadoop/yijing/emp.txt /data ``` 2. **加载 HDFS 文件到 Hive 表:** ```sql LOAD DATA INPATH '/data/emp.txt' INTO TABLE db_0309.emp ...

    Hive配置和基本操作.docx

    4. `LOAD DATA`语句用于将本地数据加载到表或分区中,`LOAD DATA LOCAL INPATH`用于从本地文件系统加载数据。 5. `SHOW TABLES`显示所有表,`SHOW PARTITIONS`展示表中的所有分区。 6. `ALTER TABLE`用于修改表结构...

    apache-hive-2.3.3-bin.7z

    1. **安装与配置**:首先,解压"apache-hive-2.3.3-bin.7z"到本地目录,配置Hive的环境变量,包括HADOOP_HOME、HIVE_HOME等。 2. **启动Hive**:启动Hive服务,可能需要先启动Hadoop服务,然后运行Hive的启动脚本。...

    hive外部表创建

    这条命令会将本地目录`/usr/wy/writing.txt`中的文件上传至HDFS中的`/wy/input`目录下。 #### 四、创建外部表 外部表是指数据在HDFS上已经有了固定的存放位置,只需要通过Hive定义表结构,即可将这些数据格式化到...

    Hive配置和基本操作.pdf

    Hive 的安装通常包括上传安装包,解压缩,然后将 Hive 添加到系统的环境变量中。在配置阶段,主要修改以下几个文件: 1. `hive-env.sh`:在这个文件中,你需要设置 Hadoop 的安装目录,这将告诉 Hive 如何找到 ...

    Hive配置和基本操作 (2).pdf

    - 数据加载:可以使用`LOAD DATA LOCAL INPATH`命令将本地文件系统中的数据加载到Hive表中,或者使用`INSERT INTO TABLE`或`INSERT OVERWRITE TABLE`语句直接插入数据。 - 查询数据:使用SQL语句进行查询,如`...

    hive学习笔记精华版

    此外,还需要掌握HQL(Hive Query Language)的语法,如SELECT、JOIN、GROUP BY等操作,以及如何优化Hive查询以提高性能,例如通过分区、桶、压缩和数据本地化等方式。最后,熟悉Hive与其他大数据组件(如HDFS、...

    hive入门资料

    ##### 将网关机本地文件上传至Hadoop 使用`hadoop fs -put /tmp/f.txt /user/data/staging/page_view/`命令将文件上传至Hadoop。 ##### 加载本地数据到外部表 在创建外部表时指定location,可以直接指向HDFS中的...

    hive基础查询文档上传

    - **加载数据到表中**:使用`LOAD DATA LOCAL INPATH`命令将本地文件加载到Hive表中。 ```sql LOAD DATA LOCAL INPATH '/opt/module/data/student_info.txt' INTO TABLE student_info; LOAD DATA LOCAL INPATH '/...

    hive数据怎么导入.docx

    使用`hadoop fs -put`命令将本地文件上传到HDFS指定路径,如: ```bash hadoop fs -put test.txt /data/test ``` 3. 查询数据: 在创建外部表并上传数据后,可以直接通过Hive查询数据: ```sql SELECT * ...

    hadoop+ha+hive+mapreduce

    通过cron job或者at命令可以设置定时任务,结合Hadoop的hadoop fs命令,可以实现定期从本地或网络资源向HDFS批量上传数据,满足持续的数据摄入需求。 综上所述,这个主题覆盖了大数据处理的全貌,从数据存储的HDFS...

    关于【python】【UDF】【HIVE】读取外部资源文件和第三方库的问题解决方案

    因为项目需要使用到python udf 工hql调用 ...2.UDF中内部调用的文件地址直接用本地文件地址表示。例如: String filepath = “/home/dev/test/test.txt”;上传至hive之后,外部文件地址只需改成String fil

    大数据平台和HiveSQL.md

    而传统数据库通常使用本地文件系统。 3. 执行方式:Hive通过MapReduce或Spark引擎来执行数据处理任务,而传统数据库使用本地执行器(Executor)。 4. 执行延迟:Hive的执行延迟较高,因为它需要将HQL语句转换为...

    HDFS文件读写操作

    ### HDFS文件读写操作详解 #### 一、HDFS架构概述 HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目之一,旨在提供高吞吐量的数据访问,适用于大规模数据集上的应用。HDFS采用了Master/Slave的...

Global site tag (gtag.js) - Google Analytics