HIVE Schema Design 模式设计 - 松篁 - ITeye博客

`

k_lb

浏览: 856188 次
性别:
来自: 郑州

最近访客更多访客>>

u012363178

rattersnake

LuffyMother

uclnn

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

kitleer：据我所知，国内有款ETL调度监控工具TaskCTL，支持ket ...
kettle调度

HIVE Schema Design 模式设计

阅读更多

Table-by-Day

hive> CREATE TABLE supply_2011_01_02 (id int, part string, quantity int);
hive> CREATE TABLE supply_2011_01_03 (id int, part string, quantity int);
hive> CREATE TABLE supply_2011_01_04 (id int, part string, quantity int);
hive> .... load data ...
hive> SELECT part,quantity supply_2011_01_02
    > UNION ALL
    > SELECT part,quantity from supply_2011_01_03
    > WHERE quantity < 4;

hive> CREATE TABLE supply (id int, part string, quantity int)
    > PARTITIONED BY (day int);
hive> ALTER TABLE supply add PARTITION (day=20110102);

hive> ALTER TABLE supply add PARTITION (day=20110103);
hive> ALTER TABLE supply add PARTITION (day=20110102);
hive> .... load data ...
hive> SELECT part,quantity FROM supply
    > WHERE day>=20110102 AND day<20110103 AND quantity < 4;

Adding Columns to a Table

hive> CREATE TABLE weblogs (version LONG, url STRING)
    > PARTITIONED BY (hit_date int)
    > ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t';
hive> ! cat log1.txt
1  /mystuff
1  /toys
hive> LOAD DATA LOCAL INPATH 'log1.txt' int weblogs partition(20110101);
hive> SELECT * FROM weblogs;
1  /mystuff  20110101
1  /toys     20110101

hive> ! cat log2.txt
2  /cars   bob
2  /stuff  terry
hive> ALTER TABLE weblogs ADD COLUMNS (user_id string);
hive> LOAD DATA LOCAL INPATH 'log2.txt' int weblogs partition(20110102);
hive> SELECT * from weblogs
1  /mystuff  20110101  NULL
1  /toys     20110101  NULL
2  /cars     20110102  bob
2  /stuff    20110102  terry

分享到：

HIVE 处理日志，自定义inputformat 完整 ... | HIVE Indexex 索引

2013-01-22 21:15
浏览 550
评论(0)
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive-json-schema最新源代码: hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema最新源代码hive-json-schema...

hive数据存储模式: ### Hive数据存储模式详解 #### 一、Hive的数据存储 Hive作为一款基于Hadoop的数据仓库工具，其核心功能之一就是提供了一种高效的管理大数据的方式。Hive的数据分为两大类：**表数据**和**元数据**。 - **表数据*...

Hive的数据存储模式: Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式Hive的数据存储模式

Hive优化案例、Hive数据处理模式、Hive常见问题与优化、Hive实践: 1. Hive数据仓库设计：Hive数据仓库设计是非常重要的，需要考虑数据的规模、查询频率、存储空间等因素。 2. Hive性能优化：Hive性能优化是非常重要的，需要考虑查询语句、数据存储格式、数据处理模式等因素。 3. ...

Hive安装指南，Hive 嵌入模式安装指南: Hive安装指南，Hive 嵌入模式安装指南 Hive 是一个基于 Hadoop 的数据仓库工具，提供了类似 SQL 的查询语言 HiveQL，能够快速地查询和分析大规模数据。Hive 安装指南将指导您完成 Hive 的安装和配置。知识点 1: ...

hive实验报告.docx: - 虽然实验报告中没有详细列出遇到的问题和解决方案，但在实际使用中，Hive的调优可能涉及到优化查询计划、调整Metastore性能、设置合适的执行引擎（MapReduce或Tez或Spark）、合理设计表分区等。通过这次实验，...

HIVE安装及详解: "HIVE安装及详解" HIVE是一种基于Hadoop的数据仓库工具，主要用于处理和分析大规模数据。下面是关于HIVE的安装及详解。 HIVE基本概念 HIVE是什么？HIVE是一种数据仓库工具，主要用于处理和分析大规模数据。它将...

hive客户端安装_hive客户端安装_hive_: 在大数据处理领域，Hive是一个非常重要的工具，它提供了一个基于Hadoop的数据仓库基础设施，用于数据查询、分析和管理大规模数据集。本教程将详细讲解如何在Linux环境下安装Hive客户端，以便进行数据操作和分析。 ...

HIVE从入门到精通.pdf: #### 八、Hive Schema - **Schema的作用**：定义表结构，包括列名、数据类型等信息。 - **查看Schema**：使用DESCRIBE命令查看表的Schema信息。 #### 九、Hive Join - **Join操作**：支持多种类型的JOIN操作，如...

基于Hadoop＋Hive的数据查询优化设计与实现: "基于Hadoop＋Hive的数据查询优化设计与实现" 本文旨在介绍基于Hadoop和Hive的数据查询优化设计与实现，旨在解决大数据处理的需求。该文涵盖了Hadoop和Hive的工作原理、系统设计与实现、数据查询优化等方面的知识点...

Hive离线分析项目.zip: 2. **Hive表设计**：理解如何根据业务需求设计分区表，以及如何选择合适的分区列（如日期）以优化查询性能。 3. **HQL语言**：学习如何编写HQL语句进行数据查询、聚合、过滤和排序等操作。 4. **数据加载**：掌握...

设计开发 Hive 编程指南完整版: 《设计开发 Hive 编程指南完整版》是一份详尽的教程，旨在帮助开发者深入理解和高效使用 Apache Hive 进行大数据处理。Hive 是一个基于 Hadoop 的数据仓库工具，可将结构化的数据文件映射为一张数据库表，并提供 ...

hive metastore java api使用: hive metastore hive metastore是hive的元数据管理服务，实际应用中很多第三方框架需要访问metastore服务，如spark,impala等。...import org.apache.hadoop.hive.metastore.api.FieldSchema; import org.apache.ha

hive远程连接详细配置: Hive 远程连接详细配置 Hive 远程连接是指 Hive 客户端与 Hive 服务器的连接，以便在分布式环境中实现数据仓库的管理和分析。在这个过程中，Hive 客户端与 Hive 服务器之间的连接是通过 Thrift 协议实现的。在这个...

hive 重要jira 设计文档: Hive的设计文档，尤其是JIRA相关的文档，记录了Hive在发展历程中的重大特性和改进，对于理解Hive的工作原理、优化查询性能以及追踪其最新进展具有重要意义。下面我们将深入探讨这些关键知识点。首先，我们要了解...

hive相关jar包: 在Hive on Spark模式下，还需要包含Spark的相关jar包。此外，如果涉及到数据集成，可能还需要与Hive连接的其他数据源（如Kafka、HBase等）的驱动jar包。总之，"hive相关jar包"是实现与Hive数据仓库交互的基础，...

Hive数据仓库之垃圾分类数据分析系统: （2）hive数据仓库分层设计，包含ODS、DWD、ADS层（3）sqoop数据迁移，完成HIve与MySQL数据库中的数据交互（4）Echarts搭建动态可视化大屏（5）SpringBoot搭建可视化后台系统，完成前端与后台的数据传递与交互。 ...

Hive 对 Protobuf 序列化文件读取.zip: 为了在Hive中读取Protobuf序列化的文件，我们需要使用自定义的Protobuf SerDe，如本压缩包中的`hive-protobuf-serde-master`项目所示，这是一个专门为Hive设计的 Protobuf SerDe 实现。使用Hive与Protobuf集成的...

Hive数据导入HBase的方法.docx: 首先，需要创建一个 Hive 表，关联到 HBase 表，并指定 Hive schema 到 HBase schema 的映射关系。例如： CREATE TABLE hive_hbase_table(key int, name String, age String) STORED BY 'org.apache.hadoop.hive....

Hive-Vectorized-Query-Execution-Design.pdf: 向量化执行设计文档《Hive-Vectorized-Query-Execution-Design.pdf》对此进行了详细的阐述。向量化执行的关键特点包括： 1. 批量处理：将数据行批量处理，即每次操作获取1024行数据，而不是一次只获取单行，这极...

Global site tag (gtag.js) - Google Analytics