Hive 是基于 Hadoop 的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供简单的 sql 查询功能,可以将 sql 语句转换为 MapReduce 任务进行运行。 其优点是学习成本低,可以通过类 SQL 语句快速实现简单的 MapReduce 统计,不必开发专门的 MapReduce 应用,十分适合数据仓库的统计分析。
适用场景
Hive 的最佳使用场合是大数据集的批处理作业,例如,网络日志分析。
Hive 构建在基于静态批处理的 Hadoop 之上,Hadoop 通常都有较高的延迟并且在作业提交和调度的时候需要大量的开销。
Hive 并不提供实时的查询和基于行级的数据更新操作,不适合那些需要低延迟的应用,例如,联机事务处理。
设计特征
Hive 是一种底层封装了 Hadoop 的数据仓库处理工具,使用类 SQL 的 HiveQL 语言实现数据查询,所有 Hive 的数据都存储在 Hadoop 兼容的文件系统(例如,Amazon S3、HDFS)中。Hive 在加载数据过程中不会对数据进行任何的修改,只是将数据移动到 HDFS 中 Hive 设定的目录下,因此,Hive 不支持对数据的改写和添加,所有的数据都是在加载的时候确定的。Hive 的设计特点如下。
● 支持索引,加快数据查询。
● 支持不同的存储类型,例如,纯文本文件、HBase 中的文件。
● 将元数据保存在关系数据库中,大大减少了在查询过程中执行语义检查的时间。
● 可以直接使用存储在 Hadoop 文件系统中的数据。
● 内置大量用户函数 UDF 来操作时间、字符串和其他的数据挖掘工具,支持用户扩展 UDF 函数来完成内置函数无法实现的操作。
● 类 SQL 的查询方式,将 SQL 查询转换为 MapReduce 的 job 在Hadoop集群上执行。
相关推荐
大数据技术之Hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张表,并提供类SQL查询功能。本质是将HQL转化成MapReduce程序。Hive处理的数据存储在HDFS,分析数据底层的实现是MapReduce,执行...
Hive-JDBC简介 Hive-JDBC是Hive提供的一个客户端接口,允许Java应用程序通过JDBC连接到Hive服务器,执行SQL查询并获取结果。它为Hive提供了标准的数据库访问方式,使得开发者能够像操作关系型数据库一样操作Hive。...
一、Hive JDBC驱动简介 Hive JDBC(Java Database Connectivity)驱动是Hive与Java应用程序之间通信的桥梁,允许开发者通过编写Java代码或者使用支持JDBC的工具(如DBeaver)来访问和操作Hive数据。"hive-jdbc-uber...
Hive是一个构建在Hadoop上的数据仓库平台,它允许用户使用类SQL语言HiveQL进行数据的查询和分析,大大简化了在Hadoop上进行数据操作的复杂性。Hive的设计初衷是让熟悉SQL的开发人员可以轻松地进行大数据处理。...
Hive是大数据处理领域中的一个关键组件,它提供了一个基于Hadoop的数据仓库工具,用于查询和管理大规模数据集。这个资料包将引导你逐步了解Hive的安装配置、基本概念以及SQL操作,非常适合初学者和正在从事Hive相关...
基于hadoop的Hive数据仓库JavaAPI简单调用的实例,关于Hive的简介在此不赘述。hive提供了三种用户接口:CLI,JDBC/ODBC和 WebUI CLI,即Shell命令行 JDBC/ODBC 是 Hive 的Java,与使用传统数据库JDBC的方式类似 Web...
#### 一、Hive简介 - **背景与需求**:随着商业智能领域数据量的急剧增加,传统的数据仓库解决方案成本高昂,难以满足需求。Hadoop作为一种流行且开源的MapReduce实现,在Yahoo、Facebook等企业中广泛使用,能够...
1. **Hive简介**:Hadoop Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,使得开发者能够通过SQL语句对大数据进行分析处理。Hive 1.2版本是一个较早但仍然广泛...
第一节 hive简介 v2.mp4
第一节 hive简介 v1.mp4
【描述】:这个压缩文件“hive简介共5页.pdf.zip”包含了一份关于Hive的简短介绍,共计5页。Hive是Apache软件基金会的一个开源项目,主要设计用于大数据处理和分析。它提供了一种基于SQL的查询语言(HQL)来操作存储...
一、Hive简介 Hive是Apache软件基金会下的一个开源项目,它提供了一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL(HQL,Hive Query Language)查询功能,使得用户能够通过SQL...
1. **Hive简介**: Hive是一个基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能。它将SQL语句转换为MapReduce任务在Hadoop集群上执行,非常适合大数据分析。 2. **Java与...
一、Hive JDBC简介 Hive JDBC是Hive与SQL兼容的数据库访问接口,它遵循JDBC规范,允许任何支持JDBC的编程语言(如Java、Python等)连接到Hive服务器,执行查询并获取结果。Hive JDBC提供了诸如建立连接、发送SQL语句...
一、Hive简介 Hive最初由Facebook开发,目的是为了解决大规模数据集的查询和分析问题。它提供了数据仓库的功能,将结构化的数据文件映射为一张数据库表,并提供简单的SQL查询功能,极大地简化了大数据处理的工作。 ...
#### 一、Hive简介 - **定义**: Hive是一种基于Hadoop的数据仓库工具,它可以将结构化的数据文件映射成一张数据库表,并提供类SQL查询功能,使得Hadoop能够更好地处理大数据。 - **特点**: - **易于使用**: 用户...