`

hive指南(一)

 
阅读更多
Hive指南
    概念
        什么是Hive
        Hive是一个基于Hadoop的数据仓库基础架构。Hadoop为在普通的硬件环境上数据的存储和处理提供了巨大的水平扩展能力和容错能力。
        Hive被设计用来更容易进行数据汇总,临时查询和分析巨大的数据。它提供一个简单的查询语言Hive QL,基于SQL使用用户熟悉的SQL做临时查询、统计和数据分析更容易。同时,Hive QL也允许传统的map/reduce程序员能够插入他们自定义的mappers和reducers做更多复杂的分析,这些功能可能HQL内置功能并不支持。
     Hive不是什么
      Hadoop是一个批处理系统,Hadoop的任务基本是高延迟,并且在任务提交和安排上有大的开销。结果--Hive的查询通常延时非常高(分钟级别),既使数据集包含的数据量非常小(只有几百MB)。As a result it cannot be compared with systems such as Oracle where analyses are conducted on a significantly smaller amount of data but the analyses proceed much more iteratively with the response times between iterations being less than a few minutes. Hive aims to provide acceptable (but not optimal) latency for interactive data browsing, queries over small data sets or test queries.
 
    Hive不是被设计作为在线事务处理和不离线实时查询及低级的更新的。它最佳的用处是超大不变数据集进行批处理工作(象web日志)
   下面的章节我们提供系统功能的指南。我们开始讲解数据类型,表和分区的概念,HQL语言功能的一些例子帮助。
          数据单位
    按粒度顺序--Hive数据组织如下:
  •     数据库:分隔表和其它数据单元避免名称冲突的特定名称空间。
  • 表:拥有相同schema均匀的数据单位。一个数据表的例子是page_views表,每行包含下面的列(schema):
              timestamp - 一个INT类型,相当于一个unix的timestamp。
                  userid - 一个BIGINT类型,当一个页被访问时代表用户的标识符。
                    page_url - STRING类型,访问时的位置
                    referer_url - STRING类型
                    IP - STRING类型
  •     分区 :每个表能有一个或多个分区键决定数据如何存储。
  • 存储桶(或集群):一个表相同列的每个分区里的数据可能基于一个hash函数的值被分隔到不同的存储桶里。
    系统类型
        基本类型
  •   类型是与表中的列相关联的,支持下列基本类型:
  • Integers
    • TINYINT - 1字节integer
    • SMALLINT - 2字节integer
    • INT - 4字节integer
    • BIGINT - 8字节integer
  • Boolean类型
    • BOOLEAN - TRUE/FLASE
  • Floating
    • FLOAT -  单精度
    • DOUBLE -  双精度
  • STRING类型
    • STRING - 指定字符集的字符序列
     复合类型
      复合类型能使用基本类型构建和其它组合类型:
  •      结构:类型元素能使用.访问。例如,一个列c的类型是结构{a INT; b INT}访问a字段的表达式为c.a
  • 映射(key-value元组):元素使用['元素名']符号访问。
  • 数组(可索引的列表):在数据里的元素有相同的类型,每个元素可以使用[n]符合访问。
   
分享到:
评论

相关推荐

    Hive权威指南

    《Hive权威指南》是一本深入探讨Hive技术的书籍,专为大数据处理和分析而设计。Hive是建立在Hadoop生态系统上的一个数据仓库工具,它允许通过SQL-like语言(HQL)对大规模分布式数据集进行查询和管理。这本书为读者...

    Hive编程指南 高清带书签

    hive编程, 高清,可以查找相关函数等

    hive编程指南中文

    《Hive编程指南》是一本Apache Hive的编程指南 旨在介绍如何使用Hive的SQL方法 HiveQL来汇总 查询和分析存储在Hadoop分布式文件系统上的大数据集合 全书通过大量的实例 首先介绍如何在用户环境下安装和配置Hive 并对...

    Hive编程指南.pdf

    Hive编程指南.pdf

    Hive用户指南.zip

    《Hive用户指南》是针对大数据处理领域中的一个重要组件——Hive进行详尽解析的资料。Hive是由Facebook开源的一款基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)语法来查询、管理和存储...

    Hive用户指南(Hive_user_guide)_中文版pdf

    《Hive用户指南》中文版是针对大数据处理领域的一款强大工具——Hive的详细使用手册。Hive是由Facebook开发并开源的一种基于Hadoop的数据仓库工具,它允许使用SQL(HQL,Hive Query Language)对大规模数据集进行...

    Hive编程指南PDF

    Hive编程指南PDF

    Hive编程指南(扫描版)

    《Hive编程指南》是针对Apache Hive的一份详尽教程,它主要关注如何利用HiveQL,即Hive的SQL方言,对存储在Hadoop Distributed File System (HDFS) 上的大规模数据集进行聚合、查询和分析。Hive是大数据处理领域的一...

    Hive编程指南 PDF 中文高清版

    根据提供的信息,我们可以推断出该文档主要围绕"Hive编程指南"展开,并且与Linux公社这一平台紧密相关。虽然给出的部分内容并未直接提及Hive的具体信息,但考虑到文档标题及描述均强调了“Hive编程指南”,我们可以...

    Hive编程指南(带书签)

    《Hive编程指南》是一本深入探讨Hive技术的专业书籍,尤其对于初学者和开发者来说,它是理解并掌握Hive的宝贵资源。Hive作为大数据处理领域中的重要工具,是基于Hadoop生态系统的数据仓库解决方案,它允许用户使用...

    HIVE 编程指南

    HIVE 编程指南

    Hive调优全方位指南.pdf

    Hive调优全方位指南,总结了25条关于Hive调优的经验,对于大数据及hive工程师是不可多得的资源。

Global site tag (gtag.js) - Google Analytics