`
yugouai
  • 浏览: 499323 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

Hive索引Demo

 
阅读更多

 

一、创建表

CREATE TABLE employees (  
  name         STRING,  
  salary       FLOAT,  
  subordinates ARRAY<STRING>,  
  deductions   MAP<STRING, FLOAT>,  
  address      STRUCT<street:STRING, city:STRING, state:STRING, zip:INT>  
)  
PARTITIONED BY (country STRING, state STRING); 

 

二、创建PATITION:country索引

CREATE INDEX employees_index  
ON TABLE employees (country)  
AS 'org.apache.hadoop.hive.ql.index.compact.CompactIndexHandler'  
WITH DEFERRED REBUILD  
IDXPROPERTIES ('creator = 'me', 'created_at' = 'some_time')  
IN TABLE employees_index_table  
PARTITIONED BY (country, name)  
COMMENT 'Employees indexed by country and name.'; 

 

三、Bitmap Indexes

Hive从0.8.0版本开始,增加了built-in bitmap作为索引处理器。

bitmap一般用在列值含有比较少的distinct value,也就是说列值的相同数据比较多的情景。

CREATE INDEX employees_index  
ON TABLE employees (country)  
AS 'BITMAP'  
WITH DEFERRED REBUILD  
IDXPROPERTIES ('creator = 'me', 'created_at' = 'some_time')  
IN TABLE employees_index_table  
PARTITIONED BY (country, name)  
COMMENT 'Employees indexed by country and name.';

 

rebulid 索引

ALTER INDEX employees_index  
ON TABLE employees  
PARTITION (country = 'US')  
REBUILD;  

 

查看索引信息

SHOW FORMATTED INDEX ON employees;  

 

删除索引

DROP INDEX IF EXISTS employees_index ON TABLE employees;  

 

 

分享到:
评论

相关推荐

    spark连接HIveDemo

    .appName("Spark-Hive Demo") \ .config("spark.sql.warehouse.dir", "hdfs://namenode:port/warehouse") \ .enableHiveSupport() \ .getOrCreate() ``` 这段代码创建了一个SparkSession实例,启用了Hive支持,...

    hivedemo.rar

    而 `hivedemo.rar` 文件提供的显然是一个 Hive JDBC 调用的示例,这将帮助我们了解如何通过 Java 或其他编程语言与 Hive 进行交互。 Hive JDBC(Java Database Connectivity)是 Hive 提供的一种标准接口,允许应用...

    使用javaJDBC连接hive数据,实现简单的操作!

    在本教程中,我们将深入探讨如何使用Java JDBC连接到Hive数据库,并执行基本的数据操作。Hive是一个基于Hadoop的数据仓库工具,它允许我们对大规模数据集进行SQL-like查询。 首先,我们需要在Java项目中引入Hive ...

    hive自定义函数demo

    本示例“hive自定义函数demo”将探讨如何在Hive中开发和使用自定义函数(UDF),这对于扩展Hive的功能和适应特定业务需求至关重要。下面,我们将深入学习与Hive自定义函数相关的知识。 1. **什么是Hive UDF?** ...

    flink、spark和hive处理大数据demo.zip

    flink、spark和hive处理大数据demo爬虫flink、spark和hive处理大数据demo

    java连接hive数据库的demo

    Java连接Hive数据库的示例(Demo)是一个用于演示如何在Java应用程序中与Hive进行交互的代码片段。Hive是基于Hadoop的数据仓库工具,它允许用户使用SQL语法(称为HQL,Hive SQL)对大数据集进行查询、分析和处理。在...

    hive2-demo:对hive2接口的demo

    在这个“hive2-demo”项目中,我们将深入探讨如何使用Java通过JDBC(Java Database Connectivity)接口来访问和操作Hive2。 首先,我们需要了解Hive2的主要改进。相比Hive1.x,Hive2引入了以下关键特性: 1. **...

    hive jdbc连接Demo

    jdbc连接hive的小示例程序,使用方法: 1、在Hadoop服务器上启动远程服务接口,命令: nohup hive --service hiveserver 10000 & (指定端口启动) 2、将test主程序里的IP改为自己用的Hadoop服务器ip,即可使用。

    flutter_hive_demo

    flutter_hive_demo 一个新的Flutter项目。 入门 该项目是Flutter应用程序的起点。 如果这是您的第一个Flutter项目,那么有一些资源可以帮助您入门: 要获得Flutter入门方面的帮助,请查看我们的,其中提供了教程,...

    hive客户端安装_hive客户端安装_hive_

    在大数据处理领域,Hive是一个非常重要的工具,它提供了一个基于Hadoop的数据仓库基础设施,用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端,以便进行数据操作和分析。 ...

    HIVE安装及详解

    "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...

    简单的hive demo 后续会加入新内容.zip

    hive的安装与配置 一.Hive的安装和配置 1.Hive并不是hadoop自带的组件,因此我们需要去下载hive,此次课我们使用hive 1.2.1版本,下载地址为: 2.下载完成之后,安装包默认保存在下载文件夹中,解压安装包apache-...

    hive2.1.1中orc格式读取报数组越界错误解决方法

    它提供了压缩、索引和列式存储等特性,能够极大地提高查询性能。然而,有时候在使用ORC格式读取数据时,可能会遇到“数组越界”错误,这通常是由于软件bug或者不兼容性导致的。 “数组越界”错误是Java编程语言中...

    Hive视图和索引.md

    Hive视图和索引,基础篇

    Hive_JDBC.zip_hive java_hive jdbc_hive jdbc pom_java hive_maven连

    在大数据处理领域,Apache Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询存储在Hadoop集群中的大型数据集。Hive JDBC(Java Database Connectivity)是Hive提供的一种...

    Scala代码积累之spark streaming kafka 数据存入到hive源码实例

    Scala代码积累之spark streaming kafka 数据存入到hive源码实例,Scala代码积累之spark streaming kafka 数据存入到hive源码实例。

    Hive驱动1.1.0.zip

    在大数据处理领域,Hive是一个基于Hadoop的数据仓库工具,它允许用户使用SQL(HQL,Hive Query Language)查询和管理存储在Hadoop分布式文件系统(HDFS)中的大量结构化数据。Hive 1.1.0是Hive的一个版本,提供了...

    Hive3.1.2编译源码

    使用hive3.1.2和spark3.0.0配置hive on spark的时候,发现官方下载的hive3.1.2和spark3.0.0不兼容,hive3.1.2对应的版本是spark2.3.0,而spark3.0.0对应的hadoop版本是hadoop2.6或hadoop2.7。 所以,如果想要使用高...

    Ambari下Hive3.0升级到Hive4.0

    在大数据领域,Apache Ambari 是一个用于 Hadoop 集群管理和监控的开源工具,而 Hive 是一个基于 Hadoop 的数据仓库系统,用于处理和分析大规模数据集。本话题聚焦于如何在 Ambari 环境下将 Hive 3.0 升级到 Hive ...

    Hive总结.docx

    - 利用索引加速查询。 - 合理选择计算引擎,Tez和Spark相对于MapReduce能提供更好的性能。 - 减少数据倾斜,通过数据预处理、分区优化等方式避免部分节点负担过重。 【数据倾斜】 数据倾斜是指在分布式计算过程中,...

Global site tag (gtag.js) - Google Analytics