`

初始Hive —— 深入浅出学Hive

    博客分类:
  • hive
 
阅读更多

 

第一部分:Hive简介
什么是Hive
•Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。
•本质是将SQL转换为MapReduce程序
  
第二部分:为什么使用Hive
面临的问题
  人员学习成本太高
  项目周期要求太短
  我只是需要一个简单的环境
  MapReduce  如何搞定
  复杂查询好难
  Join如何实现
为什么要使用Hive
•操作接口采用类SQL语法,提供快速开发的能力
•避免了去写MapReduce,减少开发人员的学习成本
•扩展功能很方便
 
Hive的特点
•可扩展
Hive可以自由的扩展集群的规模,一般情况下不需要重启服务
•延展性
Hive支持用户自定义函数,用户可以根据自己的需求来实现自己的函数
•容错
良好的容错性,节点出现问题SQL仍可完成执行
 
第三部分:Hive与Hadoop的关系
  
第四部分:Hive与传统数据库对比

 

Hive RDBMS
查询语言 HQL SQL
数据存储 HDFS Raw Device or Local FS
执行 MapReduce Excutor
执行延迟
处理数据规模
索引 0.8版本后加入位图索引 有复杂的索引
 
第五部分:Hive的历史
•由FaceBook 实现并开源
•2011年3月,0.7.0版本 发布,此版本为重大升级版本,增加了简单索引,HAING等众多高级特性
•2011年06月,0.7.1 版本发布,修复了一些BUG,如在Windows上使用JDBC的的问题
• 2011年12月,0.8.0版本发布,此版本为重大升级版本,增加了insert into 、HA等众多高级特性
•2012年2月5日,0.8.1版本发布,修复了一些BUG,如 使 Hive 可以同时运行在 Hadoop0.20.x 与 0.23.0
•2012年4月30日,0.9.0版本发布,重大改进版本,增加了对Hadoop 1.0.0的支持、实现BETWEEN等特性
  
第六部分:Hive的未来发展  
•增加更多类似传统数据库的功能,如存储过程
•提高转换成的MapReduce性能
•拥有真正的数据仓库的能力
•UI部分加强

1
4
分享到:
评论

相关推荐

    Hive_优化——深入浅出学Hive

    【Hive 优化——深入浅出学 Hive】 在大数据领域,Hive 是一个不可或缺的工具,主要用于数据仓库和商业智能(BI)分析。虽然它的主要操作是通过 SQL 进行,但理解其内部原理和优化策略对于提升集群执行效率至关重要...

    Java私塾:Hive Shell 基本操作——深入浅出学Hive

    **Java私塾:深入浅出学Hive——Hive Shell基本操作** 在大数据处理领域,Apache Hive 是一种基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(HiveQL)来管理和处理存储在 HDFS 上的大量数据。...

    hive数仓、hive SQL 、 hive自定义函数 、hive参数深入浅出

    本教程将深入探讨Hive数仓的架构与设计,Hive SQL的基本语法及高级特性,以及如何自定义函数以满足特定需求,并详细解析Hive的重要参数配置。 1. Hive数仓: - 数据仓库概念:数据仓库是为决策支持系统设计的,...

    深入浅出学习HIVE.pdf

    Hive是基于Hadoop的一个数据仓库工具,用于将结构化...初学者可以从Hive的安装配置和使用开始,逐步深入到Hive体系结构、HiveQL的使用、Hive函数、高级编程以及Hive的优化等方面,以达到深入理解并熟练使用Hive的目标。

    深入浅出 Hive

    【深入浅出 Hive】 Hive 是一款基于 Hadoop 的数据仓库工具,它的主要目标是提供对大规模分布式存储在 HDFS 上的数据集进行便捷的查询和分析能力。Hive 提供了类 SQL 的查询语言——HiveQL(HQL),使得熟悉 SQL 的...

    大数据学习指南合集(Hadoop、Spark、Flink等)

    大数据框架组件 含Hadoop、Spark、Flink等大数据书籍 一、Hadoop   1. Hadoop——分布式文件管理系统HDFS   2....  3....  4....  5....  6....  7....  1.Hive——Hive概述   2.Hive——Hive数据类型 ...  5.Hive——Hive查询

    Hive学习必备——配置Hive环境教程 免费分享哦~

    Hive学习必备——配置Hive环境教程 在这篇文章中,我们将详细介绍如何配置Hive环境,包括安装Hive、配置Hadoop环境、配置Hive Metastore数据库等步骤。同时,我们还将使用Xshell6工具来远程连接到Hive服务器,并...

    深入浅出Hive企业级架构优化、Hive Sql优化、压缩和分布式缓存

    ### 深入浅出Hive企业级架构优化 #### Hive概述 Apache Hive 是一个基于 Hadoop 的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,使不熟悉 MapReduce 的开发人员也能用 ...

    Hive4——HIVE元数据库.pdf

    本文将深入探讨Hive元数据库的原理和功能,以及与传统关系数据库的异同。 首先,Hive的元数据存储在RDBMS(关系数据库管理系统)中,如MySQL和DERBY。MySQL由于其稳定性和强大的性能,常被用作生产环境的元数据库。...

    HDP平台的Hive性能调优——Hive高性能最佳实践

    标题中提到的“HDP平台的Hive性能调优——Hive高性能最佳实践”涉及Hadoop发行版平台(HDP)上Apache Hive的性能优化。Apache Hive是一个构建在Hadoop上的数据仓库工具,它允许用户通过类SQL语言HiveQL来对大数据...

    深入浅出Hive企业级架构优化、Hive Sql优化,视频

    深入浅出Hive企业级架构优化、Hive Sql优化,视频!!!

    Hive2——Hive和Hadoop关系.pdf

    Hive是Apache Hadoop生态系统中的一个关键组件,它为大数据处理提供了基于SQL的查询和分析能力。Hive最初设计的目标是解决大规模数据集的离线分析问题,尤其适合那些不频繁但需要进行复杂分析的数据。它通过将SQL...

    hive的学习资料

    Hive 提供了一个类似 SQL 的查询语言——HiveQL,使得非 MapReduce 开发者也能方便地进行大数据分析。此外,Hive 还允许 MapReduce 开发人员通过编写自定义的 mapper 和 reducer 来执行更复杂的计算任务。 **1. ...

    Hive3——Hive和普通关系数据库的异同.pdf

    《Hive与普通关系数据库的异同》 Hive与普通关系数据库,如MySQL、Oracle等,在设计理念、功能特性和应用场景上存在着显著的差异。以下将详细解析它们之间的主要区别。 1. **查询语言**: Hive采用了类SQL的查询...

    Hadoop深入浅出之Hive介绍.pptx

    《Hadoop深入浅出之Hive介绍》 Hive,作为大数据处理的重要工具,是建立在Hadoop生态系统上的数据仓库框架。它旨在提供一个简单、SQL-like的查询语言HiveQL,使得熟悉SQL的用户无需深入理解MapReduce的复杂性,也能...

    王家林hive学习资料

    课程特色在于理论与实践相结合,通过深入浅出的讲解和动手实操,让学员能够全面理解Hive的内部机制。课程内容包括Hadoop的四大核心技术——HDFS、MapReduce、HBase和Hive,以及Hive集群的搭建、管理和监控。此外,...

    王家林的云计算分布式大数据Hadoop深入浅出案例驱动实战

    【云计算分布式大数据Hadoop深入浅出案例驱动实战】是一门以实战为导向的课程,由资深IT专家王家林老师主讲。课程的核心是通过案例教学,帮助学员掌握Hadoop这一强大的分布式大数据处理框架,适用于互联网企业、金融...

    hive客户端安装_hive客户端安装_hive_

    五、初始化Hive元数据 首次使用Hive时,需要初始化元数据: ``` sudo -u hive hive --service metastore ``` 六、启动Hive CLI 现在你可以通过Hive命令行接口(CLI)与Hive交互了: ``` hive ``` 在Hive CLI中,你...

    Hive新手学习资料之Hive入门与实战.+Hive用户手册+hive函数大全中文版资源合集

    Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供类SQL查询功能。 hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查询和分析存储...

Global site tag (gtag.js) - Google Analytics