`
k_lb
  • 浏览: 856188 次
  • 性别: Icon_minigender_1
  • 来自: 郑州
社区版块
存档分类
最新评论
  • kitleer: 据我所知,国内有款ETL调度监控工具TaskCTL,支持ket ...
    kettle调度

HIVE Schema Design 模式设计

 
阅读更多

Table-by-Day


hive> CREATE TABLE supply_2011_01_02 (id int, part string, quantity int);
hive> CREATE TABLE supply_2011_01_03 (id int, part string, quantity int);
hive> CREATE TABLE supply_2011_01_04 (id int, part string, quantity int);
hive> .... load data ...
hive> SELECT part,quantity supply_2011_01_02
    > UNION ALL
    > SELECT part,quantity from supply_2011_01_03
    > WHERE quantity < 4;


hive> CREATE TABLE supply (id int, part string, quantity int)
    > PARTITIONED BY (day int);
hive> ALTER TABLE supply add PARTITION (day=20110102);

hive> ALTER TABLE supply add PARTITION (day=20110103);
hive> ALTER TABLE supply add PARTITION (day=20110102);
hive> .... load data ...
hive> SELECT part,quantity FROM supply
    > WHERE day>=20110102 AND day<20110103 AND quantity < 4;


Adding Columns to a Table


hive> CREATE TABLE weblogs (version LONG, url STRING)
    > PARTITIONED BY (hit_date int)
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
hive> ! cat log1.txt
1  /mystuff
1  /toys
hive> LOAD DATA LOCAL INPATH 'log1.txt' int weblogs partition(20110101);
hive> SELECT * FROM weblogs;
1  /mystuff  20110101
1  /toys     20110101

hive> ! cat log2.txt
2  /cars   bob
2  /stuff  terry
hive> ALTER TABLE weblogs ADD COLUMNS (user_id string);
hive> LOAD DATA LOCAL INPATH 'log2.txt' int weblogs partition(20110102);
hive> SELECT * from weblogs
1  /mystuff  20110101  NULL
1  /toys     20110101  NULL
2  /cars     20110102  bob
2  /stuff    20110102  terry


分享到:
评论

相关推荐

    hive-json-schema最新源代码

    hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema...

    hive数据存储模式

    ### Hive数据存储模式详解 #### 一、Hive的数据存储 Hive作为一款基于Hadoop的数据仓库工具,其核心功能之一就是提供了一种高效的管理大数据的方式。Hive的数据分为两大类:**表数据**和**元数据**。 - **表数据*...

    Hive的数据存储模式

    Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式

    Hive优化案例、Hive数据处理模式、Hive常见问题与优化、Hive实践

    1. Hive数据仓库设计:Hive数据仓库设计是非常重要的,需要考虑数据的规模、查询频率、存储空间等因素。 2. Hive性能优化:Hive性能优化是非常重要的,需要考虑查询语句、数据存储格式、数据处理模式等因素。 3. ...

    Hive安装指南,Hive 嵌入模式安装指南

    Hive安装指南,Hive 嵌入模式安装指南 Hive 是一个基于 Hadoop 的数据仓库工具,提供了 类似 SQL 的查询语言 HiveQL,能够快速地查询和分析大规模数据。Hive 安装指南将指导您完成 Hive 的安装和配置。 知识点 1: ...

    hive实验报告.docx

    - 虽然实验报告中没有详细列出遇到的问题和解决方案,但在实际使用中,Hive的调优可能涉及到优化查询计划、调整Metastore性能、设置合适的执行引擎(MapReduce或Tez或Spark)、合理设计表分区等。 通过这次实验,...

    HIVE安装及详解

    "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具,主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么?HIVE是一种数据仓库工具,主要用于处理和分析大规模数据。它将...

    hive客户端安装_hive客户端安装_hive_

    在大数据处理领域,Hive是一个非常重要的工具,它提供了一个基于Hadoop的数据仓库基础设施,用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端,以便进行数据操作和分析。 ...

    HIVE从入门到精通.pdf

    #### 八、Hive Schema - **Schema的作用**:定义表结构,包括列名、数据类型等信息。 - **查看Schema**:使用DESCRIBE命令查看表的Schema信息。 #### 九、Hive Join - **Join操作**:支持多种类型的JOIN操作,如...

    基于Hadoop+Hive的数据查询优化设计与实现

    "基于Hadoop+Hive的数据查询优化设计与实现" 本文旨在介绍基于Hadoop和Hive的数据查询优化设计与实现,旨在解决大数据处理的需求。该文涵盖了Hadoop和Hive的工作原理、系统设计与实现、数据查询优化等方面的知识点...

    Hive离线分析项目.zip

    2. **Hive表设计**:理解如何根据业务需求设计分区表,以及如何选择合适的分区列(如日期)以优化查询性能。 3. **HQL语言**:学习如何编写HQL语句进行数据查询、聚合、过滤和排序等操作。 4. **数据加载**:掌握...

    设计开发 Hive 编程指南 完整版

    《设计开发 Hive 编程指南 完整版》是一份详尽的教程,旨在帮助开发者深入理解和高效使用 Apache Hive 进行大数据处理。Hive 是一个基于 Hadoop 的数据仓库工具,可将结构化的数据文件映射为一张数据库表,并提供 ...

    hive metastore java api使用

    hive metastore hive metastore是hive的元数据管理服务,实际应用中很多第三方框架需要访问metastore服务,如spark,impala等。...import org.apache.hadoop.hive.metastore.api.FieldSchema; import org.apache.ha

    hive远程连接详细配置

    Hive 远程连接详细配置 Hive 远程连接是指 Hive 客户端与 Hive 服务器的连接,以便在分布式环境中实现数据仓库的管理和分析。在这个过程中,Hive 客户端与 Hive 服务器之间的连接是通过 Thrift 协议实现的。在这个...

    hive 重要jira 设计文档

    Hive的设计文档,尤其是JIRA相关的文档,记录了Hive在发展历程中的重大特性和改进,对于理解Hive的工作原理、优化查询性能以及追踪其最新进展具有重要意义。下面我们将深入探讨这些关键知识点。 首先,我们要了解...

    hive相关jar包

    在Hive on Spark模式下,还需要包含Spark的相关jar包。此外,如果涉及到数据集成,可能还需要与Hive连接的其他数据源(如Kafka、HBase等)的驱动jar包。 总之,"hive相关jar包"是实现与Hive数据仓库交互的基础,...

    Hive数据仓库之垃圾分类数据分析系统

    (2)hive数据仓库分层设计,包含ODS、DWD、ADS层 (3)sqoop数据迁移,完成HIve与MySQL数据库中的数据交互 (4)Echarts搭建动态可视化大屏 (5)SpringBoot搭建可视化后台系统,完成前端与后台的数据传递与交互。 ...

    Hive 对 Protobuf 序列化文件读取.zip

    为了在Hive中读取Protobuf序列化的文件,我们需要使用自定义的Protobuf SerDe,如本压缩包中的`hive-protobuf-serde-master`项目所示,这是一个专门为Hive设计的 Protobuf SerDe 实现。 使用Hive与Protobuf集成的...

    Hive数据导入HBase的方法.docx

    首先,需要创建一个 Hive 表,关联到 HBase 表,并指定 Hive schema 到 HBase schema 的映射关系。例如: CREATE TABLE hive_hbase_table(key int, name String, age String) STORED BY 'org.apache.hadoop.hive....

    Hive-Vectorized-Query-Execution-Design.pdf

    向量化执行设计文档《Hive-Vectorized-Query-Execution-Design.pdf》对此进行了详细的阐述。 向量化执行的关键特点包括: 1. 批量处理:将数据行批量处理,即每次操作获取1024行数据,而不是一次只获取单行,这极...

Global site tag (gtag.js) - Google Analytics