【Hive十四】Hive读写Parquet格式的数据 - bit1129的博客 - ITeye博客

`

bit1129

浏览: 1078338 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jchubby：关于第一个reduceByKey对应的cache，shuffl ...
【Spark三十七】Spark Cache机制
bo_hai：看了你的文章，updateStateByKey 这个方式的使用 ...
【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
bo_hai：棒极啦，解决了我的问题。
【Spark七十二】Spark的日志配置
tivan：你好，这个代码生成主要在，那个地方使用。
【Spark105】Spark SQL动态代码生成一
zxsz4085：看楼主这么厉害的样子，请问楼主如何知道类库的版本呢？比如g++ ...
【Thrift一】Thrift编译安装

【Hive十四】Hive读写Parquet格式的数据

博客分类：

Parquet
Hive

阅读更多

1. 原始数据

hive> select * from word; 
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype

2. 创建保存为parquet格式的数据表

hive> CREATE TABLE parquet_table(age INT, name STRING)STORED AS PARQUET;

3. 数据表的描述

hive> describe parquet_table; 
hive> describe parquet_table;                                          
OK
id                  	int                 	                    
name                	string              	                    
Time taken: 0.099 seconds, Fetched: 2 row(s)

4. 插入数据

hive> INSERT OVERWRITE TABLE parquet_table SELECT * FROM word;

5. 查询

hive> select * from parquet_table;
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype

6. HDFS上文件的内容（parquet二进制格式)

7.参考

https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-HiveQLSyntax

查看图片附件

分享到：

【Spark九十二】Spark SQL操作Parquet格 ... | 【Hive十三】Hive读写Avro格式的数据

2015-04-14 18:02
浏览 28419
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

java 读写Parquet格式的数据的示例代码: "Java 读写 Parquet 格式的数据的示例代码" Java 读写 Parquet 格式的数据是一种常见的数据交换格式，特别是在大数据处理和数据分析领域。Parquet 是一种列式存储格式，可以高效存储和查询大量数据。下面我们将介绍...

1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现（一）: 本文通过亿级数据量在Hive和Impala中对比了text、orc和parquet这三种不同的文件格式，以分析它们的性能表现。首先，让我们深入了解每种文件格式的特点： 1. **Parquet**： - 优点：Parquet采用了高效的压缩和...

hive所有jar文件: 这些库可能包括Hive与HBase交互所需的连接器、Hadoop相关的库、以及其他可能的依赖，如Avro、Parquet、Thrift等，这些都是大数据处理中的常见格式和通信协议。安装这些库后，Hive就能识别和处理HBase的数据，使得...

parquet-format-2.1.0-cdh5.5.0.tar.gz: 例如，他们可以研究源码来了解Parquet的内部工作原理，或者查阅文档学习如何在应用程序中读写Parquet文件。在大数据分析中，Parquet常与其他工具结合使用，如Impala和Hive，它们可以直接处理Parquet文件，进行SQL...

cloudera-hive-cdh6.3.2源码包: 源码中，Hive 通过 `fs` 包中的 `FileSystem` API 与 HDFS 进行交互，实现了数据的读写操作。 10. **Hive 的容错和性能优化** Hive 通过重试机制、查询优化（如 Cost-Based Optimizer, CBO）以及资源调度（如 YARN...

parquet-mr,阿帕奇拼花.zip: 它提供了读写Parquet文件的Java API，使得开发人员能够在MapReduce作业中无缝地处理Parquet数据。Parquet-MR的核心组件包括ParquetInputFormat和ParquetOutputFormat，它们分别用于读取和写入Parquet文件。 ...

hive原理1介绍: - **HCatalog**：作为Hive的一部分，HCatalog提供了一种统一的方式来管理Hadoop上的表和存储资源，使得其他工具如Pig和MapReduce可以更方便地读写数据。 #### 示例：内部表创建与使用创建内部表的简单示例： ```...

spark操作hive表源码: 这里，我们选择了Parquet格式（也可以是Hive支持的其他格式如ORC），并以追加模式写入名为`new_table`的Hive表。 Spark操作Hive表的底层实现涉及到多个组件的协同工作。SparkSQL会通过HiveMetastore获取表的元数据...

spark2.3.1-with-hive: 3. **Hive 表格式支持**：Spark 支持 Hive 的多种存储格式，如 ORC、Parquet 和 TextFile，这使得 Spark 可以读写 Hive 已经存在的数据，同时也意味着 Hive 的优化存储格式可以在 Spark 中使用，提高数据读取效率。...

hive-1.1.0-cdh5.7.0.tar: 5. **Hive的存储**：Hive数据可以存储在HDFS或其他Hadoop兼容的文件系统中，支持多种文件格式，如TextFile、RCFile、Parquet和ORC，其中Parquet和ORC是列式存储格式，更适合数据分析。 6. **连接器（JDBC/ODBC）**...

hive 主要技术: 文本文件格式的缺点是它没有压缩，读写效率低，而SequenceFile虽然压缩数据，但只能进行简单的压缩，无法针对特定数据类型的特性进行优化。因此，Hive需要支持更高效的数据存储格式。文章中提到了对现有文件格式的...

hive 简明教程: - 使用ORC和Parquet等列式存储格式来提高读写效率。 Hive高级知识部分主要讲解了Hive文件格式、压缩、复杂类型、Hive解释器、编译器、优化器和执行器等高级特性。Hive支持多种文件格式，包括文本文件、Parquet和ORC...

21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件: ParquetFile是跨平台的，被多个数据处理框架如Apache Spark、Hive等广泛支持。与ORCFile相比，ParquetFile可能在某些场景下提供更好的兼容性和性能。 5. **MapReduce读写操作** 在MapReduce中，读写这些文件格式...

Hive编程指南-2013.12.pdf: 2. 物理存储格式选择：如TextFile、RCFile、Parquet等，不同格式在压缩、读写速度上有差异。 3. 使用Hive的EXPLAIN命令预览查询计划，识别并调整可能的性能瓶颈。 4. 利用WHERE子句过滤大量数据，避免全表扫描。 5. ...

java使用Parquet: - Apache Parquet库提供了Java API，使得开发者可以方便地在Java应用中读写Parquet文件。 - `parquet-avro`模块：如果数据源自Avro，可以使用AvroParquetReader和AvroParquetWriter实现读写。 - `parquet-jackson...

Apache Flink-1.9与Hive的兼容性.pdf: 6. **数据类型和格式**：Flink支持多种数据类型和文件格式，包括Hive支持的ORC、Parquet等列式存储格式，这使得数据在Flink和Hive之间可以无缝迁移。 7. **批流一体**：Flink 1.9引入了批流一体的概念，可以处理...

hive性能调优: Parquet格式也是一种高效的文件格式，特别适用于表示复杂的嵌套数据类型，并能通过列存储来提高IO效率和减少应用延迟。它同样支持多种语言和计算框架，特别适用于Hive和Impala共享数据的场景。 2. 合理选择文件压缩...

Hive学习笔记: 数据格式可以是TextFile、SequenceFile、RCFile、Parquet等，选择不同的格式会影响读写速度和压缩效率。 6. **Hive基本操作** - **创建表**：Hive提供了CREATE TABLE语句来创建表，可以指定字段名、字段类型和表...

parquet-tools-0.1.0-bin.tar.gz: Parquet-tools-0.1.0-bin.tar.gz 是一个包含Apache Parquet工具的压缩包，主要用于处理和操作使用Parquet格式存储的数据。Parquet是一种列式存储格式，被广泛应用于大数据处理领域，如Hadoop、Spark等框架。它设计的...

Global site tag (gtag.js) - Google Analytics