hive的一些资料整理 - - ITeye博客

`

samuschen

浏览: 409639 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

u012363178

谁谁谁

wangyy

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

秦时明月黑：深入浅出，楼主很有功底
hive编译部分的源码结构
tywo45：感觉好多错误，但还是支持！
HDFS+MapReduce+Hive+HBase十分钟快速入门
xbbHistory：解析的很棒！！
Linux-VFS
darrendu：执行这个命令，bin/hadoop fs -ls /home/ ...
Hadoop示例程序WordCount运行及详解
moudaen：请问楼主，我执行总后一条语句时，执行的是自带的1.sql，你当 ...
TPC-H on Hive

hive的一些资料整理

博客分类：

hive

Mapreduce 框架

阅读更多

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。
Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 任务）。
Table 的创建过程和数据加载过程（这两个过程可以在同一个语句中完成），在加载数据的过程中，实际数据会被移动到数据仓库目录中；之后对数据对访问将会直接在数据仓库目录中完成。删除表时，表中的数据和元数据将会被同时删除。
External Table 只有一个过程，加载数据和创建表同时完成（ CREATE EXTERNAL TABLE ……LOCATION ），实际数据是存储在 LOCATION 后面指定的 HDFS 路径中，并不会移动到数据仓库目录中。当删除一个 External Table 时，仅删除元信息。
执行延迟。之前提到， Hive 在查询数据的时候，由于没有索引，需要扫描整个表，因此延迟较高。另外一个导致 Hive 执行延迟高的因素是 MapReduce 框架。由于 MapReduce 本身具有较高的延迟，因此在利用 MapReduce 执行 Hive 查询时，也会有较高的延迟。相对的，数据库的执行延迟较低。当然，这个低是有条件的，即数据规模较小，当数据规模大到超过数据库的处理能力的时候， Hive 的并行计算显然能体现出优势。

分享到：

SequenceFile的压缩和分片 | scp

2010-12-06 16:23
浏览 1585
评论(0)
分类:企业架构
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive资料整理集合1: HIVE在腾讯分布式数据仓库实践分享赵伟.pdf Hap数据仓库工具--hive介绍.docx The Hive An The Hney Bee Langstrth.pdf bigtable,hive,pig.pdf HIVE优化以及执行原理.pdf hive实现原理-weib.pdf 【Hive】Hap Data ...

Hive优化方法整理: Hive 优化方法整理 Hive 优化方法整理是 Hive 数据处理过程中的重要步骤，涉及到 Hive 的类 SQL 语句本身进行调优、参数调优、Hadoop 的 HDFS 参数调优和 Map/Reduce 调优等多个方面。 Hive 类 SQL 语句优化 1. ...

Hive基本命令整理: 下面是 Hive 中的一些基本命令整理，涵盖了表的创建、加载数据、查看结构信息、更新表名、添加新列、删除表、加载本地文件数据、显示所有函数、查看函数用法、查看数组、map、结构、内连接、外连接、in 查询等方面。...

hive官方文档整理: 这份“hive官方文档整理”PDF文件，无疑是深入理解Hive功能和用法的宝贵资源。以下是对Hive核心知识点的详细解析： 1. **Hive概述**：Hive是一个基于Hadoop的数据仓库工具，它允许使用SQL-like语言（HQL，Hive ...

Hive查询优化整理与Hive简易版思维导图: 本文将深入探讨Hive查询优化的一些关键点，并结合个人实践经验和整理的Hive简易版思维导图，帮助你更好地理解和运用Hive。一、Hive查询优化基础 1. **表分区**：分区是Hive提高查询效率的重要手段。通过将大表按...

Hive学习笔记整理.pdf: 本文档是关于Hive学习笔记的整理，涵盖了Hive的架构、Hive和Hadoop的关系、Hive和普通关系数据库的异同、Hive的元数据库、Hive数据存储、Hive的基本操作等知识点。 1. HIVE结构 Hive的架构主要包括三个部分：用户...

原生版的hadoop和hive搭建部分整理.zip: 标题中的“原生版的hadoop和hive搭建部分整理”表明了这个压缩包主要涵盖了Hadoop和Hive的基础搭建过程，以及可能相关的配置和优化内容。Hadoop是Apache基金会的一个开源项目，它提供了分布式文件系统（HDFS）和...

Hadoop、HBase、Hive、Pig、Zookeeper资料整理: 标题 "Hadoop、HBase、Hive、Pig、Zookeeper资料整理" 涵盖了大数据处理领域中几个核心的开源项目，这些项目在分布式计算、数据存储和管理方面发挥着重要作用。以下是对这些技术的详细介绍： 1. **Hadoop**：Hadoop...

HIVE_整理.xmind: HIVE_整理.xmind

Hive大数据仓库-笔记整理（一）2020年最新版.pdf: 以下是关于Hive的一些核心知识点： 1. **Hive架构**：Hive由多个组件组成，包括Hive Server、Hcatalog、Hive Metastore、HQL（Hive Query Language）等。Hive Server负责接收和执行客户端的查询请求，Hcatalog用于...

Hive内部表合并小文件Java程序: 在大数据处理领域，Hive作为一个基于Hadoop的数据仓库工具，被广泛用于存储和查询大规模数据集。然而，Hive在处理大量小文件时可能会遇到性能问题，因为HDFS（Hadoop分布式文件系统）对小文件的管理效率较低。为了...

jdbc连接hive数据库的驱动jar包: 整理可用合集."暗示这可能是一个包含了不同版本或者多个版本的Hive JDBC驱动的集合，便于开发者根据项目需求选择合适的驱动。这样的合集对于开发者来说非常实用，因为它省去了分别寻找和测试不同版本驱动的麻烦。 ...

2021年-Hive大数据仓库-期末考试知识点重点-笔记整理.pdf: Hive大数据仓库知识点 Hive是一种基于Hadoop的大数据仓库工具，可以将结构化的数据文件映射为一个表，并提供类SQL查询功能。Hive的优点是学习成本低，可以通过类SQL语句快速实现简单的MapReduce统计。延迟较高，...

Hive 简明教程.pdf: 第一部分：完全以日常使用为目标，整理了常用的Hive 语法，而抛弃了不常用的部分，用来满足不懂技术的分析人员来快速使用Hive 进行常见的日常数据分析。第二部分：如果想能写出高效的Hive 语句，必须要先了解Hive ...

大数据整理hadoop/hive: 大数据整理hadoop/hive

Spark不能使用hive自定义函数.doc: Spark 是一种快速通用的大规模数据处理系统，而Hive 则是一种数据仓库工具，主要用于对存储在 Hadoop 文件中的数据集进行数据整理、特殊查询和分析存储。然而，在实际应用中，开发人员可能会遇到一个常见问题——...

hive-testbench-hive14.zip大数据TPCDS-99SQL自动测试脚本: 6. **报告编写**：最后，整理测试过程和结果，编写详细的测试报告，为团队提供决策依据，指导后续的系统优化工作。总结来说，“hive-testbench-hive14.zip”提供的测试工具和脚本，是评估和优化Hive在大数据环境下...

大数据相关资料整理(Hadoop、Hive等等): 本资料整理集合了关于这些技术的重要知识点，旨在帮助读者深入理解和掌握大数据处理的核心概念。首先，Hadoop是Apache基金会的一个开源项目，它提供了一个分布式文件系统（HDFS）和一个计算框架（MapReduce）。...

Global site tag (gtag.js) - Google Analytics