`
bit1129
  • 浏览: 1069528 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Hive十四】Hive读写Parquet格式的数据

 
阅读更多

 1. 原始数据

hive> select * from word; 
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype 

 

 

 2. 创建保存为parquet格式的数据表

 

hive> CREATE TABLE parquet_table(age INT, name STRING)STORED AS PARQUET;

 

 

3. 数据表的描述

 

hive> describe parquet_table; 
hive> describe parquet_table;                                          
OK
id                  	int                 	                    
name                	string              	                    
Time taken: 0.099 seconds, Fetched: 2 row(s) 

 

 

4. 插入数据

 

hive> INSERT OVERWRITE TABLE parquet_table SELECT * FROM word;

 

 

5. 查询

hive> select * from parquet_table;
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype 

 

6. HDFS上文件的内容(parquet二进制格式)



 

7.参考

https://cwiki.apache.org/confluence/display/Hive/Parquet#Parquet-HiveQLSyntax

 

 

  • 大小: 18.8 KB
分享到:
评论

相关推荐

    java 读写Parquet格式的数据的示例代码

    "Java 读写 Parquet 格式的数据的示例代码" Java 读写 Parquet 格式的数据是一种常见的数据交换格式,特别是在大数据处理和数据分析领域。Parquet 是一种列式存储格式,可以高效存储和查询大量数据。下面我们将介绍...

    1、通过亿级数据量在hive和impala中查询比较text、orc和parquet性能表现(一)

    本文通过亿级数据量在Hive和Impala中对比了text、orc和parquet这三种不同的文件格式,以分析它们的性能表现。 首先,让我们深入了解每种文件格式的特点: 1. **Parquet**: - 优点:Parquet采用了高效的压缩和...

    hive所有jar文件

    这些库可能包括Hive与HBase交互所需的连接器、Hadoop相关的库、以及其他可能的依赖,如Avro、Parquet、Thrift等,这些都是大数据处理中的常见格式和通信协议。安装这些库后,Hive就能识别和处理HBase的数据,使得...

    parquet-format-2.1.0-cdh5.5.0.tar.gz

    例如,他们可以研究源码来了解Parquet的内部工作原理,或者查阅文档学习如何在应用程序中读写Parquet文件。 在大数据分析中,Parquet常与其他工具结合使用,如Impala和Hive,它们可以直接处理Parquet文件,进行SQL...

    cloudera-hive-cdh6.3.2源码包

    源码中,Hive 通过 `fs` 包中的 `FileSystem` API 与 HDFS 进行交互,实现了数据的读写操作。 10. **Hive 的容错和性能优化** Hive 通过重试机制、查询优化(如 Cost-Based Optimizer, CBO)以及资源调度(如 YARN...

    parquet-mr,阿帕奇拼花.zip

    它提供了读写Parquet文件的Java API,使得开发人员能够在MapReduce作业中无缝地处理Parquet数据。Parquet-MR的核心组件包括ParquetInputFormat和ParquetOutputFormat,它们分别用于读取和写入Parquet文件。 ...

    hive原理1介绍

    - **HCatalog**:作为Hive的一部分,HCatalog提供了一种统一的方式来管理Hadoop上的表和存储资源,使得其他工具如Pig和MapReduce可以更方便地读写数据。 #### 示例:内部表创建与使用 创建内部表的简单示例: ```...

    spark操作hive表源码

    这里,我们选择了Parquet格式(也可以是Hive支持的其他格式如ORC),并以追加模式写入名为`new_table`的Hive表。 Spark操作Hive表的底层实现涉及到多个组件的协同工作。SparkSQL会通过HiveMetastore获取表的元数据...

    spark2.3.1-with-hive

    3. **Hive 表格式支持**:Spark 支持 Hive 的多种存储格式,如 ORC、Parquet 和 TextFile,这使得 Spark 可以读写 Hive 已经存在的数据,同时也意味着 Hive 的优化存储格式可以在 Spark 中使用,提高数据读取效率。...

    hive-1.1.0-cdh5.7.0.tar

    5. **Hive的存储**:Hive数据可以存储在HDFS或其他Hadoop兼容的文件系统中,支持多种文件格式,如TextFile、RCFile、Parquet和ORC,其中Parquet和ORC是列式存储格式,更适合数据分析。 6. **连接器(JDBC/ODBC)**...

    hive 简明教程

    - 使用ORC和Parquet等列式存储格式来提高读写效率。 Hive高级知识部分主要讲解了Hive文件格式、压缩、复杂类型、Hive解释器、编译器、优化器和执行器等高级特性。Hive支持多种文件格式,包括文本文件、Parquet和ORC...

    21、MapReduce读写SequenceFile、MapFile、ORCFile和ParquetFile文件

    ParquetFile是跨平台的,被多个数据处理框架如Apache Spark、Hive等广泛支持。与ORCFile相比,ParquetFile可能在某些场景下提供更好的兼容性和性能。 5. **MapReduce读写操作** 在MapReduce中,读写这些文件格式...

    Hive编程指南-2013.12.pdf

    2. 物理存储格式选择:如TextFile、RCFile、Parquet等,不同格式在压缩、读写速度上有差异。 3. 使用Hive的EXPLAIN命令预览查询计划,识别并调整可能的性能瓶颈。 4. 利用WHERE子句过滤大量数据,避免全表扫描。 5. ...

    java使用Parquet

    - Apache Parquet库提供了Java API,使得开发者可以方便地在Java应用中读写Parquet文件。 - `parquet-avro`模块:如果数据源自Avro,可以使用AvroParquetReader和AvroParquetWriter实现读写。 - `parquet-jackson...

    Apache Flink-1.9与Hive的兼容性.pdf

    6. **数据类型和格式**:Flink支持多种数据类型和文件格式,包括Hive支持的ORC、Parquet等列式存储格式,这使得数据在Flink和Hive之间可以无缝迁移。 7. **批流一体**:Flink 1.9引入了批流一体的概念,可以处理...

    hive性能调优

    Parquet格式也是一种高效的文件格式,特别适用于表示复杂的嵌套数据类型,并能通过列存储来提高IO效率和减少应用延迟。它同样支持多种语言和计算框架,特别适用于Hive和Impala共享数据的场景。 2. 合理选择文件压缩...

    Hive学习笔记

    数据格式可以是TextFile、SequenceFile、RCFile、Parquet等,选择不同的格式会影响读写速度和压缩效率。 6. **Hive基本操作** - **创建表**:Hive提供了CREATE TABLE语句来创建表,可以指定字段名、字段类型和表...

    parquet-tools-0.1.0-bin.tar.gz

    Parquet-tools-0.1.0-bin.tar.gz 是一个包含Apache Parquet工具的压缩包,主要用于处理和操作使用Parquet格式存储的数据。Parquet是一种列式存储格式,被广泛应用于大数据处理领域,如Hadoop、Spark等框架。它设计的...

Global site tag (gtag.js) - Google Analytics