1 解压到目录
2 配置文件修改元数据保存到mysql
3 创建表,就是在hdfs中创建一个文件夹,load数据就是将数据文件拷贝到hdfs表对应的目录下面。
4 创建表(默认为表类型为MANAGED_TABLE,数据是在表的目录下面):
数据就是文件,它可以一次插入一个文件数据,但不能插入一条数据。
CREATE TABLE page_vie (viewTime int ,useid BIGINT,
page_url STRING,referrer_url STRING,
ip STRING COMMENT 'IP Address of the User')
COMMENT 'This is the page view table'
PARTITIONED BY (dt STRING,country STRING) //分区
ROW FORMAT DELIMITED FIELDS TERMINATED BY '\001' //数据是用什么来分割
STORED AS SEQUENCEFILE; //这个可以不加,默认是文本格式
创建内部表:
CREATE table t_order(id int ,name string ,rongliang string,price double )
row format delimited fields terminated by '\t'
5 创建External表 (1 数据可以在hdfs中任何地方,不必要放到表的文件夹中,创建的时候要指定文件夹)
CREATE external table t_order_ex(id int ,name string ,rongliang string,price double )
row format delimited fields terminated by '\t'
location '/hive_ext'
6 MANAGED_TABLE 删除的时候会删除表的目录以及目录中的内容,和表的元数据
External表 删除的时候只会删除表的元数据,文件不会变。
create table t_order_2 (id int ,name string ,rongliang string ,price double)
row format delimited
fields terminated by '\t'
8 数据导入
将本地文件导入到表中:
load data local inpath '/web/test_hive_data/phone.txt' into table t_order_2
将hdfs中的文件移动到到表中:
load data inpath '/phone3.txt' into table t_order_2 ;
9 用一个表创建另一个表,查询结果会单独存储 (会执行mapreduce,比较慢,内部表和外部表都会创建文件)
1)用于创建临时表,存储中间结果
create table t_order_s as
select id ,name ,price from t_order ;
2)创建一个表,和另一个表一样(表复制)
create table t_order_2 like t_order ;
3)表中添加查询出来的数据,表中以前的数据会清除掉(就是将查询出来的数据弄成文件放到文件夹下面)
insert overwrite table t_order_ow
select * from t_order ;
4)查询出来的数据添加到表中,数据追加(查询结果可以直接放到本地文件或者hdfs文件中)
insert into table t_order_ow
select * from t_order ;
10 分区使用:分区字段可以是表中没有的字段 (数据保存就是在表下面有个分区的文件夹,然后里面放内容)
create table t_order_pt(id int ,name string ,rongliang string,price double )
partitioned by (month string)
row format delimited fields terminated by '\t' ;
分区数据加载:
load data local inpath '/web/test_hive_data/phone.txt' into table t_order_pt partition(month='20150115') ;
针对分区做查询与统计的时候,可以把分区作为字段直接where 如:
select count(*) from t_order_pt where month='201502' //month是分区字段
可以动态增加分区 ,
11 数据支持数组
//array
数据:
tony,wang,xiaoming 189,123,456,123
abc,lili,maya 7823,123,34
create table tab_array(a array<int>,b array<string>)
row format delimited
fields terminated by '\t'
collection items terminated by ',';
12 支持Map数据
wang age:17;size:12A;addr:usr
tony age:23;size:32A;addr:bd
//map
create table tab_map(name string,info map<string,string>)
row format delimited
fields terminated by '\t'
collection items terminated by ','
map keys terminated by ':';
13 结构类型:
create table tab_struct(name string,info struct<age:int,tel:string,addr:string>)
row format delimited
fields terminated by '\t'
collection items terminated by ','
14 hive脚本语言执行sql(pathon,shell等) ;
hive -S -e 'select * from db_test.t_order' ;
15 自定义hive函数(JAVA)
1 写Java类,定义函数逻辑
2 打成jar包,上传到hive的lib中
3 在hive中创建函数 getArea,跟jar包
1)创建java工程,实现UDF类,重写evaluate方法打成jar包,引入hive中lib下面的包
2)自定义的jar包加入到classpath中:
add jar /web/hive-0.12.0/lib/hive_area.jar
3) 创建函数与jar包关联:
create TEMPORARY FUNCTION my_area AS 'jar类的全名称'
如: create TEMPORARY FUNCTION get_area AS 'com.wzt.func.PoneToArea'
4)创建表,并且准备数据:
执行sql:select get_area(phone) ,upflow,dflow from t_flow ;
相关推荐
【大数据技术基础实验报告-Hive安装配置与应用】 在大数据处理领域,Apache Hive是一个非常重要的组件,它提供了基于Hadoop的数据仓库工具,用于数据查询、分析以及存储。本实验报告将详细阐述如何安装、配置Hive,...
"HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...
从提供的文件内容中,我们可以提取到关于Hive安装与配置的相关知识点,同时也包括了MySQL的安装知识,因为MySQL是Hive常用的后端数据库。接下来,我将详细介绍这些知识点。 **Hive的安装与配置** 1. Hive是一个...
hive安装
在本压缩包中,"文档.pdf" 和 "资料必看.zip" 可能包含了关于 Hive 安装与配置的详细步骤和指南。现在,我们将深入探讨 Hive 的安装与配置过程。 首先,安装 Hive 需要先确保你已经安装了 Hadoop 环境,因为 Hive ...
以上就是Hive客户端的安装和基本使用过程。通过这个客户端,你可以方便地对存储在Hadoop上的大数据进行结构化查询和分析。在实际生产环境中,你可能还需要配置其他高级特性,如Hive与Hadoop安全性的集成、优化性能...
### Hive安装与配置详解 #### 一、软件准备与环境规划 在进行Hive的安装与配置之前,首先需要对所需的软件及环境进行规划。以下为本次安装与配置的环境规划: - **操作系统**: Ubuntu - **Java版本**: Java 1.6.0...
hive的安装与使用过程,是你不敢相当于还能修复好的哈人家还能够充分股份都是
内容包括hive如何安装与启动,以及如何使用python访问hive,希望对大家有帮助。
这是安装hive的手册指南,安装hive服务端和hive客户端的详细步骤。
本教程将详细介绍如何安装Hive,并配置使用MySQL作为其元数据库。 首先,我们来理解元数据库的作用。元数据库存储了关于Hive表、分区、列等对象的元数据,这些元数据是执行Hive查询的关键。通常,Hive默认使用Derby...
Hadoop之Hive安装 本篇文章将指导您如何在CentOS 6.4下安装Hive,并解决可能遇到的错误。 环境及软件介绍 本篇文章使用的环境是CentOS 6.4-x86_64-bin-DVD1.iso,软件版本为Hadoop 2.2.0和Hive 0.12.0,以及MySQL...
本教程将详细介绍如何搭建Hadoop集群以及安装和使用Hive。 首先,我们来了解Hadoop集群的搭建步骤: 1. **环境准备**:确保所有节点的操作系统一致,通常选择Linux发行版,如Ubuntu或CentOS。安装Java开发套件...
### Hive安装知识点详解 #### 一、Hive简介与安装目的 Hive 是基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 MapReduce 任务进行运行...
Hive是Apache Hadoop生态系统中的一个数据仓库工具,它允许用户使用SQL方言(HQL)对存储在HDFS上的大规模...在学习过程中,可以参考提供的《hive的安装与配置.pdf》和《资源仅供学习使用!!.pdf》等资料,加深理解。
- `HIVE_HOME`:指向Hive安装目录。 - `PATH`:添加`%HIVE_HOME%\bin`,这样你可以在任何目录下通过命令行启动Hive。 4. **配置Hive配置文件**: Hive的配置主要通过`hive-site.xml`文件进行,该文件位于`conf`...
CentOS 7 中 Hive 的安装和使用 Hive 是一个基于 Hadoop 的数据仓库工具,主要用于存储、查询和分析大规模数据。下面将详细介绍 CentOS 7 中 Hive 的安装和使用。 1. 安装 MySQL 在安装 Hive 之前,需要先安装 ...
6. Hive安装完成后,需要创建元数据库。Hive默认使用derby数据库,但为了生产环境的稳定性和性能,建议使用MySQL。配置文件位于$HIVE_HOME/conf目录下,需要修改hive-site.xml来指定MySQL连接信息: ```xml ...