这个版本中有什么新东西:Apache Hive
hvie 3.1包括物化视图的分区,这可以提高查询响应能力和维护修复。
工作量管理
使用工作负载管理,您可以配置谁使用资源,可以使用多少以及Hive响应资源请求的速度。管理资源对于Hive LLAP(低延迟分析处理)至关重要,尤其是在多租户环境中。使用工作负载管理,您可以创建资源池并分配资源以满足可用性需求,并防止对这些资源的争用。工作负载管理改进了在Hive LLAP上运行的查询的并行查询执行和集群共享,还提高了非LLAP查询的性能。工作负载管理可减少大型集群中的资源不足。您可以使用Hive查询语言在命令行上实现工作负载管理。
事务改进
成熟版本的ACID(原子性,一致性,隔离性和持久性)事务处理和低延迟分析处理(LLAP)在Hive和HDP 3.0中发展。增强ACID表作为HDP 3.0中的默认表类型,没有性能或操作过载。使用ACID表操作有助于遵守GDPR(通用数据保护法规)要求被遗忘的权利。通过更强的事务保证和更简单的SQL命令语义,简化了应用程序开发和操作。您不需要存储ACID表,因此维护更容易。您不再需要在Hive表中执行ACID删除操作。
物化物化
随着事务语义的改进,出现了高级优化,例如物化视图重写和自动查询缓存。通过这些优化,您可以部署新的Hive应用程序类型。由于多个查询经常需要相同的中间汇总或连接表,因此可以通过预先计算和将中间表缓存到视图中来避免代价高昂的重复查询部分共享。查询优化器自动利用预先计算的缓存,从而提高性能。例如,物化视图可提高商业智能(BI)和仪表板应用程序中的连接和聚合查询的速度。
Kafka主题的直接,低延迟Hive查询
可以在单个命令中从Kafka主题在Hive中创建Druid表。此功能通过消除Kafka交付和查询德鲁伊之间的数据处理步骤,简化了对Kafka数据的查询。
Spark与Hive集成
您可以使用Hive 3从Apache Spark和Apache Kafka应用程序查询数据,而无需解决方法。Hive Warehouse Connector支持从Spark读取和编写Hive表。
Hive安全性改进
Apache Ranger默认保护Hive数据。为满足客户对并发性改进的需求,ACID对GDPR(通用数据保护法规)的支持,渲染安全性和其他功能,Hive现在严格控制文件系统和计算机内存资源。通过额外的控制,Hive可以更好地优化共享文件和YARN容器中的工作负载。Hive控制文件系统越多,Hive就越能保护数据安全。
查询结果缓存
Hive过滤并缓存类似或相同的查询。Hive不会重新计算未更改的数据。当数百或数千名BI工具和Web服务用户查询Hive时,缓存重复查询可以大大减轻负载。
信息模式数据库
将Hive服务添加到集群时,Hive会从JDBC数据源创建两个数据库:information_schema和sys。所有Metastore表都映射到您的表空间,并在sys中可用。information_schema数据显示系统的状态,类似于sys数据库数据。您可以使用SQL标准查询来查询information_schema,这些查询可以从一个DBMS移植到另一个DBMS。
分享到:
相关推荐
标题“hive3.x编译spark3.x包”表明我们要讨论的是关于如何在Hive 3.x版本上编译与之兼容的Spark 3.x版本的二进制包。这个过程通常涉及到以下步骤: 1. **环境准备**:首先确保你已经安装了Java开发环境(JDK),...
标题 "Hive2.x系列驱动" 指的是Hive版本2.x的客户端连接器,这些驱动程序使得应用程序能够与Hive服务器进行交互,执行SQL查询并获取数据。Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL语言处理存储在HDFS...
本文将从 HIVE 架构的演进看 HIVE 的发展趋势,介绍 HIVE3.X 和 HIVE2.X 的差异点,讨论周边生态如 SPARK/DATAXhow to 对接 HIVE3.x,并提供大数据应用对接 HIVE3.x 的建议。 一、HIVE 架构演进 HIVE 的发展过程中...
7. **Hive Execution Engine**:负责将HQL转换为MapReduce任务或Tez任务(在Hive 2.x版本中,默认执行引擎是Tez,它提供了比MapReduce更高的性能)。 8. **Hive Web UI**:提供一个Web界面,用于监控Hive服务器的...
Hive主要应用于大数据处理领域,特别是那些基于Hadoop的数据处理任务,其设计目标是为大规模数据集提供便捷的数据提取、转化和加载(ETL)功能,以及数据分析。 ### Hive核心概念 1. **元数据(Metadata)**:Hive...
Hive是一个建立在Hadoop之上的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,用于查询和处理存储在HDFS上的大规模数据集。 3. 安装Hive: - 进入Hive安装包所在目录,并解压到...
Hive 是一种数据仓库工具,它可以将结构化的数据文件映射为一张数据库表,并提供简单的 SQL 查询功能,使 MapReduce 编写者可以不必学习 MapReduce 编程,也可以利用 Hive 进行数据处理。 #### 二、环境准备 在...
本文档旨在详细介绍Hive中的各种内置函数及其使用方法,这些内容主要源自Apache官方文档并已翻译成中文。Hive是一种基于Hadoop的数据仓库工具,它提供了类SQL的查询语言“HiveQL”,使用户可以方便地进行数据提取、...
Hive 提供了数据汇总、分析和查询功能,非常适合批处理分析任务。本笔记将详细介绍 Hive 的概念、安装过程、常见错误处理以及 MySQL 作为元数据存储的配置。 1. **Hive 概念** Hive 将非结构化或半结构化的数据...
Hive是基于Hadoop的数据仓库工具,用于将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,适合大规模数据集的离线分析。Hive 1.2是Hive的一个稳定版本,它增强了性能和稳定性,支持更多的SQL特性,并改进了...
通常情况下,Spark 2.x 版本支持 Hive 2.x 或更高版本。可以通过升级或降级其中之一来实现版本兼容。 2. **正确配置 ClassPath**: - 将包含 Hive UDF 的 jar 包添加到 Spark 的 ClassPath 中。这可以通过修改 ...
3. **Hive-Spark交互**: 通过设置`spark.sql.hive.thriftServer.singleSession`为`true`,使Hive Thrift Server在每个连接上只启动一个Spark会话,以优化资源利用率。 4. **Spark-Hadoop版本匹配**: 确保Hadoop和...
这里"1.2.1000"可能是Hive的一个特定构建或补丁版本,通常正式版本号为"1.2.x",而"x"是一个小版本号,"1000"可能是内部版本编号或者是开发版本的标识。标签中的"java"和"hadoop"进一步强调了这是Java编程语言与...
在本文中,我们将深入探讨如何在Hive 3.1.2版本中进行源码编译,以便使其兼容Spark 3.x。这个过程涉及到解决依赖冲突、修改源代码以及适应新版本的Spark和Hadoop。以下是一步步的详细步骤: 首先,确保你已经准备好...
6. **ACID特性**: Hive 2.x引入了事务支持,实现了基本的ACID(原子性、一致性、隔离性、持久性)特性,提高了数据的一致性和可靠性。 7. **Hive on Tez / Spark**: 除了默认的MapReduce执行引擎,Hive还支持Tez和...
本压缩包“spark--bin-hadoop3-without-hive.tgz”提供了Spark二进制版本,针对Hadoop 3.1.3进行了编译和打包,这意味着它已经与Hadoop 3.x兼容,但不包含Hive组件。在CentOS 8操作系统上,这个版本的Spark已经被...
3. **Zookeeper jar**:如果 Hive 配置了 Zookeeper 作为元数据的协调服务,那么也需要包含 `zookeeper.jar`,它提供了对 Zookeeper API 的支持。 4. **Hive 元数据存储相关 jar**:如果 Hive 使用 MySQL、Derby 或...
本文将介绍Hadoop、HBase、Hive以及ZooKeeper的版本整合兼容性,以及如何根据版本找到兼容性信息。 首先,Hadoop是一个开源的分布式存储和计算框架,它由HDFS和MapReduce两部分组成。HDFS用于存储大数据,而...
3. **修改POM.xml**:根据需要修改或添加依赖,例如,如果你想包含Hive支持,你需要在这里进行相应的配置。 4. **编译和构建**:使用Maven的`mvn clean package`命令来编译源码并创建可部署的Spark二进制包。 ...