`
samuschen
  • 浏览: 407646 次
  • 性别: Icon_minigender_2
  • 来自: 北京
社区版块
存档分类
最新评论

hive的一些资料整理

    博客分类:
  • hive
阅读更多
  1. 解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中,并在随后有 MapReduce 调用执行。
  2. Hive 的数据存储在 HDFS 中,大部分的查询由 MapReduce 完成(包含 * 的查询,比如 select * from tbl 不会生成 MapRedcue 任务)。
  3. Table 的创建过程和数据加载过程(这两个过程可以在同一个语句中完成),在加载数据的过程中,实际数据会被移动到数据仓库目录中;之后对数据对访问将会直接在数 据仓库目录中完成。删除表时,表中的数据和元数据将会被同时删除。
  4. External Table 只有一个过程,加载数据和创建表同时完成( CREATE EXTERNAL TABLE ……LOCATION ),实际数据是存储在 LOCATION 后面指定的 HDFS 路径中,并不会移动到数据仓库目录中。当删除一个 External Table 时,仅删除 元信息。
  5. 执行延迟。之前提到, Hive 在查询数据的时候,由于没有索引,需要扫描整个表,因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟,因此在利用 MapReduce 执行 Hive 查询时,也会有较高的延迟。相对的,数据库的执行延迟较低。当然,这个低是有条件的,即数据规模较小,当数据规模大到超过数据库的处理能力的时 候, Hive 的并行计算显然能体现出优势。
分享到:
评论

相关推荐

    Hive资料整理集合1

    HIVE在腾讯分布式数据仓库实践分享 赵伟.pdf Hap数据仓库工具--hive介绍.docx The Hive An The Hney Bee Langstrth.pdf bigtable,hive,pig.pdf HIVE优化以及执行原理.pdf hive实现原理-weib.pdf 【Hive】Hap Data ...

    Hive优化方法整理

    Hive 优化方法整理 Hive 优化方法整理是 Hive 数据处理过程中的重要步骤,涉及到 Hive 的类 SQL 语句本身进行调优、参数调优、Hadoop 的 HDFS 参数调优和 Map/Reduce 调优等多个方面。 Hive 类 SQL 语句优化 1. ...

    Hive基本命令整理

    下面是 Hive 中的一些基本命令整理,涵盖了表的创建、加载数据、查看结构信息、更新表名、添加新列、删除表、加载本地文件数据、显示所有函数、查看函数用法、查看数组、map、结构、内连接、外连接、in 查询等方面。...

    hive官方文档整理

    这份“hive官方文档整理”PDF文件,无疑是深入理解Hive功能和用法的宝贵资源。以下是对Hive核心知识点的详细解析: 1. **Hive概述**:Hive是一个基于Hadoop的数据仓库工具,它允许使用SQL-like语言(HQL,Hive ...

    Hive查询优化整理与Hive简易版思维导图

    本文将深入探讨Hive查询优化的一些关键点,并结合个人实践经验和整理的Hive简易版思维导图,帮助你更好地理解和运用Hive。 一、Hive查询优化基础 1. **表分区**:分区是Hive提高查询效率的重要手段。通过将大表按...

    Hive学习笔记整理.pdf

    本文档是关于Hive学习笔记的整理,涵盖了Hive的架构、Hive和Hadoop的关系、Hive和普通关系数据库的异同、Hive的元数据库、Hive数据存储、Hive的基本操作等知识点。 1. HIVE结构 Hive的架构主要包括三个部分:用户...

    原生版的hadoop和hive搭建部分整理.zip

    标题中的“原生版的hadoop和hive搭建部分整理”表明了这个压缩包主要涵盖了Hadoop和Hive的基础搭建过程,以及可能相关的配置和优化内容。Hadoop是Apache基金会的一个开源项目,它提供了分布式文件系统(HDFS)和...

    Hadoop、HBase、Hive、Pig、Zookeeper资料整理

    标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目,这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍: 1. **Hadoop**:Hadoop...

    HIVE_整理.xmind

    HIVE_整理.xmind

    Hive大数据仓库-笔记整理 (一)2020年最新版.pdf

    以下是关于Hive的一些核心知识点: 1. **Hive架构**:Hive由多个组件组成,包括Hive Server、Hcatalog、Hive Metastore、HQL(Hive Query Language)等。Hive Server负责接收和执行客户端的查询请求,Hcatalog用于...

    Hive内部表合并小文件Java程序

    在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,被广泛用于存储和查询大规模数据集。然而,Hive在处理大量小文件时可能会遇到性能问题,因为HDFS(Hadoop分布式文件系统)对小文件的管理效率较低。为了...

    jdbc连接hive数据库的驱动jar包

    整理可用合集."暗示这可能是一个包含了不同版本或者多个版本的Hive JDBC驱动的集合,便于开发者根据项目需求选择合适的驱动。这样的合集对于开发者来说非常实用,因为它省去了分别寻找和测试不同版本驱动的麻烦。 ...

    2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf

    Hive大数据仓库知识点 Hive是一种基于Hadoop的大数据仓库工具,可以将结构化的数据文件映射为一个表,并提供类SQL查询功能。Hive的优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计。延迟较高,...

    Hive 简明教程.pdf

    第一部分:完全以日常使用为目标,整理了常用的Hive 语法,而抛弃了不常用的部分,用来 满足不懂技术的分析人员来快速使用Hive 进行常见的日常数据分析。 第二部分:如果想能写出高效的Hive 语句,必须要先了解Hive ...

    大数据整理hadoop/hive

    大数据整理hadoop/hive

    Spark不能使用hive自定义函数.doc

    Spark 是一种快速通用的大规模数据处理系统,而Hive 则是一种数据仓库工具,主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析存储。然而,在实际应用中,开发人员可能会遇到一个常见问题——...

    大数据相关资料整理(Hadoop、Hive等等)

    本资料整理集合了关于这些技术的重要知识点,旨在帮助读者深入理解和掌握大数据处理的核心概念。 首先,Hadoop是Apache基金会的一个开源项目,它提供了一个分布式文件系统(HDFS)和一个计算框架(MapReduce)。...

    hive-testbench-hive14.zip大数据TPCDS-99SQL自动测试脚本

    6. **报告编写**:最后,整理测试过程和结果,编写详细的测试报告,为团队提供决策依据,指导后续的系统优化工作。 总结来说,“hive-testbench-hive14.zip”提供的测试工具和脚本,是评估和优化Hive在大数据环境下...

Global site tag (gtag.js) - Google Analytics