`
gaojingsong
  • 浏览: 1182051 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
文章分类
社区版块
存档分类
最新评论

(四)大数据环境:Hive命令操作(一)

阅读更多
1、准备文本文件,启动hadoop[root@hadoop0 ~]# cat /opt/test.txt
JieJie
MengMeng
NingNing
JingJing
FengJie
[root@hadoop0 ~]# start-all.sh
Warning: $HADOOP_HOME is deprecated.
starting namenode, logging to /opt/hadoop/libexec/../logs/hadoop-root-namenode-hadoop0.out
localhost: starting datanode, logging to /opt/hadoop/libexec/../logs/hadoop-root-datanode-hadoop0.out
localhost: starting secondarynamenode, logging to /opt/hadoop/libexec/../logs/hadoop-root-secondarynamenode-hadoop0.out
starting jobtracker, logging to /opt/hadoop/libexec/../logs/hadoop-root-jobtracker-hadoop0.out
localhost: starting tasktracker, logging to /opt/hadoop/libexec/../logs/hadoop-root-tasktracker-hadoop0.out
2、进入命令行[root@hadoop0 ~]# hive
WARNING: org.apache.hadoop.metrics.jvm.EventCounter is deprecated. Please use org.apache.hadoop.log.metrics.EventCounter in all the log4j.properties files.
Logging initialized using configuration in jar:file:/opt/hive/lib/hive-common-0.9.0.jar!/hive-log4j.properties
Hive history file=/tmp/root/hive_job_log_root_201509252001_1674268419.txt
3、查询昨天的表hive> select * from stu;
OK
JieJie 26       NULL
MM 24   NULL
Time taken: 17.05 seconds
4、显示数据库hive> show databases; 
OK
default
Time taken: 0.237 seconds
5、创建数据库hive> create database test; 
OK
Time taken: 0.259 seconds
hive> show databases;       
OK
default
test
6、使用数据库Time taken: 0.119 seconds
hive> use test;
OK
Time taken: 0.03 seconds
7、创建表textfile 默认格式,数据不做压缩,磁盘开销大,数据解析开销大。
可结合Gzip、Bzip2使用(系统自动检查,执行查询时自动解压),但使用这种方式,hive不会对数据进行切分,从而无法对数据进行并行操作。
SequenceFile是Hadoop API提供的一种二进制文件支持,其具有使用方便、可分割、可压缩的特点。
SequenceFile支持三种压缩选择:NONE, RECORD, BLOCK。 Record压缩率低,一般建议使用BLOCK压缩
rcfile是一种行列存储相结合的存储方式。首先,其将数据按行分块,保证同一个record在一个块上,避免读一个记录需要读取多个block。其次,块数据列式存储,有利于数据压缩和快速的列存取。
hive>  create table test1(str STRING)  STORED AS TEXTFILE; 
OK
Time taken: 0.598 seconds
--加载数据
hive> LOAD DATA LOCAL INPATH '/opt/test.txt' INTO TABLE test1; 
Copying data from file:/opt/test.txt
Copying file: file:/opt/test.txt
Loading data to table test.test1
OK
Time taken: 1.657 seconds
hive> select * from test1;
OK
JieJie
MengMeng
NingNing
JingJing
FengJie
Time taken: 0.388 seconds
hive> select count(*) from test1;
Total MapReduce jobs = 1
Launching Job 1 out of 1
Number of reduce tasks determined at compile time: 1
In order to change the average load for a reducer (in bytes):
  set hive.exec.reducers.bytes.per.reducer=<number>
In order to limit the maximum number of reducers:
  set hive.exec.reducers.max=<number>
In order to set a constant number of reducers:
  set mapred.reduce.tasks=<number>
Starting Job = job_201509252000_0001, Tracking URL = http://hadoop0:50030/jobdetails.jsp?jobid=job_201509252000_0001
Kill Command = /opt/hadoop/libexec/../bin/hadoop job  -Dmapred.job.tracker=hadoop0:9001 -kill job_201509252000_0001
Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
2015-09-25 20:09:55,796 Stage-1 map = 0%,  reduce = 0%
2015-09-25 20:10:19,806 Stage-1 map = 100%,  reduce = 0%, Cumulative CPU 3.67 sec
2015-09-25 20:10:53,218 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 6.95 sec
2015-09-25 20:10:54,223 Stage-1 map = 100%,  reduce = 100%, Cumulative CPU 6.95 sec
MapReduce Total cumulative CPU time: 6 seconds 950 msec
Ended Job = job_201509252000_0001
MapReduce Jobs Launched:
Job 0: Map: 1  Reduce: 1   Cumulative CPU: 6.95 sec   HDFS Read: 258 HDFS Write: 2 SUCCESS
Total MapReduce CPU Time Spent: 6 seconds 950 msec
OK
5
Time taken: 77.515 seconds


create table test1(str STRING)  STORED AS TEXTFILE; 
create table test2(str STRING) ;
hive> create table test3(str STRING)  STORED AS SEQUENCEFILE;
OK
Time taken: 0.112 seconds
 
hive> create table test4(str STRING)  STORED AS RCFILE; 
OK
Time taken: 0.502 seconds
8、把旧表数据导入新表INSERT OVERWRITE TABLE test4 SELECT * FROM test1;
9、设置hive参数hive> SET hive.exec.compress.output=true; 
hive> SET io.seqfile.compression.type=BLOCK;
10、查看hive参数 hive> SET ; 
分享到:
评论

相关推荐

    大数据实验六实验报告:熟悉Hive的基本操作

    在本实验报告中,我们关注的是大数据处理工具Hive的基础操作,主要涵盖了创建表、导入数据以及使用Hive进行数据管理。Hive是基于Hadoop的数据仓库工具,它允许通过SQL-like查询语言(HQL)对分布式存储的大数据集...

    大数据教程-Hive的安装与配置.pdf

    这样可以在命令行直接使用Hive命令。 8. Hive的运行通常涉及到启动Hive服务,可以通过命令`hive`进入Hive命令行界面进行操作,也可以使用`beeline`。 9. 文件中提到的地址信息“北京市丰台区丰台南路永乐文化产业...

    Win10不需要Cygwin搭建大数据测试环境搭建hive的bin文件(包含官方版本中缺少的cmd文件)hive)

    在Windows 10环境下搭建大数据测试环境,Hive是一个常用的数据仓库工具,它通常与Linux系统结合使用。然而,对于Windows用户来说,由于Hive原生不支持Windows,所以传统方法需要借助Cygwin这样的模拟Linux环境来运行...

    大数据java操作hive

    ### 大数据Java操作Hive知识点详解 #### 一、Hive简介与基本配置 **Hive** 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的 SQL 查询功能,可以将 SQL 语句转换为 ...

    尚硅谷大数据视频_Hive视频教程

    3. **安装与配置**:详述在各种操作系统环境下安装Hive和其依赖的Hadoop组件的步骤,以及配置Hive环境变量和配置文件。 4. **HQL(Hive Query Language)**:学习Hive的SQL方言,包括DML(数据操纵语言)、DDL...

    大数据java操作hive.pdf

    首先,Hive是一种基于Hadoop的大数据处理工具,它提供了SQL-like的查询接口,使得对大数据的操作更加简便。在进行Hive操作时,需确保虚拟机上的Hive数据库可以正常连接。如果因为未使用quit;命令退出导致第二次进入...

    大数据入门HIVE和MySQL安装包

    5. **启动Hive**:启动Hive Server2和Hive Metastore服务,可以通过`hive`命令进入交互式shell。 **MySQL介绍** MySQL是一种快速、可靠且易于使用的开源数据库,支持ACID(原子性、一致性、隔离性和持久性)特性,...

    Java私塾:Hive Shell 基本操作——深入浅出学Hive

    Hive 提供了一个称为 Hive Shell 的交互式环境,用于执行 Hive 查询和管理 Hive 对象。本文将详细介绍 Hive Shell 的基本操作。 ### 初始 Hive 首先,你需要安装和配置 Hive。Hive 的安装通常包括将 Hive 的二进制...

    大数据.pdf

    在Hadoop环境下,可以通过编写Shell命令来操作HDFS文件系统。例如,使用hadoop fs-ls命令列出目录内容,使用hadoop fs-mkdir命令创建目录,使用hadoop fs-mv命令移动或重命名文件和目录。Hadoop还提供了API接口,...

    大数据Hadoop+HBase+Spark+Hive集群搭建教程(七月在线)1

    在构建大数据处理环境时,Hadoop、HBase、Spark和Hive是四个核心组件,它们协同工作以实现高效的数据存储、处理和分析。本教程将详细介绍如何在Ubuntu系统上搭建这些组件的集群。 1. **Hadoop**:Hadoop是Apache...

    基于大数据集群的hive搭建

    Hive 是一个基于 Hadoop 的数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,方便数据分析师进行大数据处理。本文将详细介绍如何在大数据集群上搭建 Hive,主要包括三种运行...

    大数据Hadoop第八章hive

    Hadoop 是一个开源框架,主要用于存储和处理大规模数据,而 Hive 则是构建在 Hadoop 上的数据仓库工具,它提供了 SQL 式的查询语言(HQL)来方便地对大数据进行分析。本章节将深入探讨 Hive 的组件、部署以及基本的...

    大数据组件hive的安装步骤

    6. 将Hive的安装目录和bin目录加入到系统的环境变量中,这样可以在任何路径下使用Hive命令。这通常在/etc/profile文件中完成。 7. 启动和关闭Hadoop集群的命令,包括启动YARN和HDFS的脚本以及停止它们的脚本,这些...

    大数据Hive测试数据uaction.rar

    5. **性能评估**:监控Hive查询的执行时间和资源消耗,评估Hive在大数据环境下的处理效率。 6. **扩展性测试**:随着数据的增长,测试Hive在处理更大规模数据时的表现,考察其横向扩展能力。 通过以上步骤,我们...

    大数据编程林子雨实验hive安装包apache-hive-3.1.2-bin

    5. **Hive Web Interface (WebHive)**:一个基于Web的界面,用户可以通过浏览器直接执行HQL查询,查看结果,方便了非命令行用户的操作。 6. **文档**:安装包可能包含了详细的用户手册、开发者指南和API文档,帮助...

    大数据hive实现原理.zip_hive中怎么更新数据

    在大数据处理领域,Hive是一个非常重要的工具,它提供了对大规模数据集的SQL查询能力,使得非编程背景的用户也能方便地操作数据。...通过深入学习这些资料,你将更好地理解和掌握Hive在大数据环境中的作用和使用方式。

    大数据技术知识沉淀 数据仓库学习 Hive学习笔记 共63页.pdf

    以上内容涵盖了关于 Hive 学习的基础知识,包括其架构、与 Hadoop 和传统数据库的关系、元数据库的选择、数据存储方式以及基本操作命令等。通过深入理解这些概念和技术细节,可以帮助用户更好地掌握 Hive 的使用方法...

    hive高级分析函数与优化.rar_hive_hive 函数优化_hive 分析 大数据_hive高级优化_oldwlc

    在大数据环境下,Hive通过分布式计算模型处理PB级别的数据。其支持SQL查询,使得非编程背景的分析师也能操作大数据。Hive的MapReduce或Tez执行引擎可以并行处理任务,提高处理速度。此外,Hive的分区和桶表策略能...

    Esri大数据平台搭建指南之Hive1

    Esri大数据平台搭建指南之Hive1主要涵盖了如何在Esri的大数据环境中构建和使用Apache Hive,这是一个基于Hadoop的数据仓库工具,专为大规模数据集提供了数据查询和分析能力。以下是对该指南主要内容的详细解释: 1....

    java大数据案例_6Hive、Kettle

    本案例涉及的关键技术包括Hive的安装与配置、Hive的基本操作以及Hive与MapReduce的集成使用。Hive是一种数据仓库工具,可以方便地对存储在Hadoop中的大量数据集进行数据提取、转换和加载(ETL)。Kettle作为一款强大的...

Global site tag (gtag.js) - Google Analytics