`
cumtheima
  • 浏览: 256000 次
  • 性别: Icon_minigender_1
  • 来自: 南京
社区版块
存档分类
最新评论

hive学习总结(8)—hive注意点

    博客分类:
  • Hive
阅读更多

--自动补全功能:tab

 

 

--可以把“设置系统属性变量,增加hadoop分布式内存,自定义hive扩展的jar包”放在“$HOME/.hiverc”文件中

 

 

--hiveCLI中执行bash shell命令,只要在命令前加上!,并且以分号(;)结尾就可以

! /bin/echo “what up dog”;

 

 

--hive中使用hadoopdfs命令

dfs -ls /;

 

 

--查看表的存储路径

hive -S -e "set" | grep warehouse;

 

 

--开启hadoop回收站功能

--删除的数据被转移到HDFS中的/user/$USER/.Trash目录中

-- fs.trash.interval后面的整数是回收站检查点的时间间隔,单位是分钟

fs.trash.interval=1440             --24小时

 

 

--注意谓语操作符,“A=B”和“A<=>B”的区别

A=B                    --A等于B,返回true,反之返回false

A<=>B                --如果AB都为null返回true,其他的等号(=)一样

 

 

--修改log级别

--默认的日志存放路径:

/tmp/<user.name>/hive.log

 

 

--通过配置可以指定Hivelog4j日志配置文件的存放路径

hive -hiveconf hive.log4j.file=/home/carl/hive-log4j.properties

-hiveconf hive.log4j.exec.file=/home/carl/hive-exec-log4j.properties

 

 

--临时

hive --hiveconf hive.root.logger=DEBUG,console

 

 

--修改${HIVE_HOME}/conf/hive-log4j.properties文件(永久)

hive.root.logger=DEBUG,console

 

 

--set hiveconf:hive.root.logger=DEBUG,console;是无效的,不能使用的。因为设定log的参数读取在会话建立以前已经完成了。

 

 

--case ...when...then句式

select name,salary,

case

when salary < 50000.0 then ‘low’

when salary > 50000.0 and salary < 7000.0 then ‘middle’

else ‘high’

end as bracket

from employees;

 

 

--浮点数尽量使用double,对于已经使用float的要使用cast操作符

--和钱相关的都避免使用浮点数

cast(0.2 as float)

--不过将浮点型转换为整数,推荐使用round()floor(),而不是用cast

 

 

--hivejoin语句,只支持等值连接。(注:pig提供的交叉生成功能支持“非等值连接”)

--hive目前不支持在join on子句中使用or

 

 

--order by:全局排序

--sort by:局部排序

--如果hive.mapred.mode=strict;时候,因为order by 时间比较长。必须加上limit限制。

 

 

--distribute by来保证具有相同属性值的记录会分到同一个reduce中进行处理

select s.ymd,s.symbol,s.price_close

from stocks s

distribute by s.symbol

sort by s.symbol ASC,s.ymd ASC;

 

 

--如果distribute bysort by语句中涉及到的列完全相同,而且采用的默认的升序排序方式。那么在这种情况下,可以使用cluster by来代替。

--注意:使用distribute bysort by语句 或者简化版的cluster by语句会剥夺sort by的并行性,然而这样可以实现输出文件的数据是全局排序的。

 

 

-- explain dependency语法:以JSON格式输出tablepartition信息

explain dependency select * from wyp;

 

 

-- TRUNCATE可以删除HDFS上面相关表存储的数据,但是会保持表和metadata的完整性

truncate table p;

 

 

--在开发了hiveudf udaf udtf函数的jar文件后,需要将jar文件放入hive的环境中才可以使用。

 add jar path/test.jar;

 

1
0
分享到:
评论

相关推荐

    hive学习总结 思维导图.xmind

    由于 Hive 采用了类似SQL 的查询语言 HQL(Hive Query Language),因此很容易将 Hive 理解为数据库。其实从结构上来看,Hive 和数据库除了拥有类似的查询语言,再无类似之处。本文将从多个方面来阐述 Hive ...

    Hive学习总结及应用.pdf

    Hive学习总结及应用.pdf 本文档主要介绍了Hive的基本概念、应用场景、元数据存储方式、数据导入和导出方式等。下面是对文档中提到的知识点的详细解释: 一、Hive概述 Hive是一个构建在HDFS和Map/Reduce之上的可...

    hadoop hive入门学习总结

    以下是对Hadoop Hive入门学习的详细总结: ### 1. Hive 安装与部署 #### 1.1 环境需求 在开始Hive的安装之前,确保你已经具备了以下基础环境: - **JDK 1.6** 或更高版本:Hive依赖Java运行环境,所以首先需要安装...

    hive优化总结

    hive优化总结 Hive优化总结是Hive性能优化的总结,涉及HIVE的参数设置、HQL语言的写法、JOIN操作的优化、MapReduce操作的优化、列裁剪、分区裁剪等多个方面。 1. 配置文件优化 Hive的配置文件hive-site.xml是Hive...

    Hive总结.docx

    【Hive原理】 Hive是基于Hadoop平台的数据仓库解决方案,它主要解决了在大数据场景下,业务人员和数据科学家能够通过熟悉的SQL语言进行数据分析的问题。Hive并不存储数据,而是依赖于HDFS进行数据存储,并利用...

    基于Hadoop的数据仓库Hive学习指南.doc

    总结,Hive是Hadoop生态系统中的一个重要组成部分,它为数据分析师提供了便捷的SQL接口,简化了大数据处理的复杂性,特别适用于需要对大量历史数据进行分析的场景。虽然Hive在实时性和数据更新方面存在限制,但它在...

    hive学习笔记-比较全的知识

    值得注意的是,Hadoop和Hive默认使用UTF-8编码。 ### Hive与传统关系数据库的异同 - **查询语言**:Hive使用类SQL的HQL查询语言,便于SQL开发者使用。 - **数据存储位置**:Hive的数据存储在HDFS上,与传统数据库...

    Hive学习必备——配置Hive环境教程 免费分享哦~

    Hive学习必备——配置Hive环境教程 在这篇文章中,我们将详细介绍如何配置Hive环境,包括安装Hive、配置Hadoop环境、配置Hive Metastore数据库等步骤。同时,我们还将使用Xshell6工具来远程连接到Hive服务器,并...

    hive的学习资料

    5. 使用 Hive 注意事项 涵盖字符集、压缩、COUNT(DISTINCT)、JOIN、DML 操作、HAVING、子查询、JOIN 中的 NULL 处理、分号字符等。 6. 优化 包括 Hadoop 计算框架的特性、常用优化手段、全排序、笛卡尔积、EXIST ...

    王家林hive学习资料

    《王家林Hive学习资料》是一份详尽的教程,旨在帮助学员深入了解和掌握Hive这一数据仓库工具。Hive在企业Hadoop应用中扮演着核心角色,尤其在大规模离线数据分析方面表现卓越,被Facebook、淘宝等大型公司广泛采用。...

    hive学习资料大全 实战优化资源

    hive被大多数企业使用,学习它,利于自己掌握企业所使用的技术,这里从安装使用到概念、原理及如何使用遇到的问题,来讲解hive,希望对大家有所帮助。 此篇内容较多: 看完之后需要达到的目标 1.hive是什么 2.明白...

    Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版资源合集

    Hive的优点是学习成本低,可以通过类似SQL语句实现快速MapReduce统计,使MapReduce变得更加简单,而不必开发专门的MapReduce应用程序。hive十分适合对数据仓库进行统计分析。 目录: Hive入门与实战.pdf hive函数...

    hive学习笔记

    hive hadoo MapReduce 介绍Hive。Hive入门,Hive学习笔记

    02hive学习总结及应用.pdf

    【Hive 学习总结及应用】 Hive 是一个基于 Hadoop 的数据仓库工具,它提供了 SQL-like 的查询语言——HiveQL,使得用户能够方便地处理存储在 HDFS 上的大规模数据集。Hive 旨在简化数据ETL(提取、转换、加载)流程...

    hive调优总结文档-hive tuning ppt

    以下是对"Hive调优总结文档-hive tuning ppt"中可能涉及的多个知识点的详细阐述: 1. **元数据优化**: - **分区策略**:根据业务需求,合理设计分区字段,减少不必要的数据扫描,例如按日期、地区等进行分区。 -...

    Hive学习笔记(更新版)

    8. **MapReduce**:Hive默认的执行引擎,将HiveQL查询转换为一系列MapReduce作业。 9. **HDFS**:Hive的数据存储层,所有数据都存储在这里。 #### 六、Hive环境搭建 - **切换到命令行模式**:通过修改`/etc/...

    深入浅出学习HIVE.pdf

    Hive的安装与配置需要注意软件的准备和环境的规划,如Hadoop的安装路径、元数据存放目录、数据存放路径以及Hive的安装路径、数据存放路径等。Hive支持使用Derby数据库和MySQL数据库的安装方式。 Hive体系结构包括...

    02 Hive学习总结及应用.pdf

    【Hive学习与应用】 Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL-like的语言,即HiveQL(Hive Query Language),对存储在HDFS(Hadoop Distributed File System)上的大规模数据进行分析和处理。Hive...

Global site tag (gtag.js) - Google Analytics