`
bit1129
  • 浏览: 1067621 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

【Hive十三】Hive读写Avro格式的数据

 
阅读更多

 1. 原始数据

hive> select * from word; 
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype 

 

 

 2. 创建avro格式的数据表

 

hive> CREATE TABLE avro_table(age INT, name STRING)STORED AS AVRO;

 

 

3. 数据表的描述

 

hive> describe avro_table; 
OK
age                 	int                 	from deserializer   
name                	string              	from deserializer   
Time taken: 0.154 seconds, Fetched: 2 row(s)

 

 

 

4. 插入数据

 

hive> INSERT OVERWRITE TABLE avro_table SELECT * FROM word;

 

 

5. 查询

hive> select * from avro_table;
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype 

 

6. HDFS上文件的内容(avro二进制格式)

Objavro.schema?{"type":"record","name":"avro_table","namespace":"default","fields":[{"name":"age","type":["null","int"],"doc":"\u0000","default":null},{"name":"name","type":["null","string"],"default":null}]} 9?$-侭蹈艉{3!
T
MSN  QQ  ?Gtalk  ?Skype   9?$-侭蹈艉{3!

 

 

7.参考

https://cwiki.apache.org/confluence/display/Hive/AvroSerDe

 

 

分享到:
评论

相关推荐

    hive所有jar文件

    这些库可能包括Hive与HBase交互所需的连接器、Hadoop相关的库、以及其他可能的依赖,如Avro、Parquet、Thrift等,这些都是大数据处理中的常见格式和通信协议。安装这些库后,Hive就能识别和处理HBase的数据,使得...

    apache avro 简介

    Avro提供了多种命令行工具,如`avro-tools.jar`,可以用于转换数据格式、验证schema、编译Java代码等。例如,`avro-tools tojson`命令可以将Avro文件转换为JSON,方便查看和调试。 ### Avro与源码 对于开发者来说,...

    DbVisualizer最新版本连接hive所需全部jar包

    2. **hive-jdbc.jar**:Hive JDBC驱动程序,使得像DbVisualizer这样的第三方工具可以通过JDBC接口连接到Hive服务器。 3. **hadoop-client.jar**:包含了Hadoop客户端的所有依赖,允许Hive与Hadoop集群通信。 4. **...

    avro-doc-1.7.7

    在Avro中,数据的结构由一个JSON格式的Schema定义。Schema描述了数据的字段名称、类型和顺序。Avro支持动态Schema,这意味着在序列化和反序列化时,可以使用不同的或更新的Schema。 3. **序列化与反序列化** Avro...

    avro-js-1.9.2.tgz

    Avro提供了一种紧凑、高效的二进制数据格式,使得数据在分布式环境中能够快速交换。在JavaScript环境中,Avro-js-1.9.2.tgz是一个用于处理Avro数据的JavaScript库,适用于Node.js和浏览器环境。 Avro的核心概念包括...

    avro-cpp-1.9.2.tar.gz

    该压缩包包含的是Apache Avro C++库的1.9.2版本,这是一个用于处理Avro数据格式的库,它提供了API供开发者在C++程序中读写Avro数据。Avro数据模型基于JSON,但比JSON更高效,因为它支持二进制编码,这使得Avro在传输...

    大数据技术原理及应用[整理].pdf

    它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。Avro系统依赖于模式(Schema),Avro数据的读和写是在模式之下完成的。 大数据...

    avro-1.9.2.tar.gz

    1. **数据交换**: Avro的二进制格式和Schema驱动设计使得它成为跨语言数据交换的理想选择,比如Java、Python、C++等之间的通信。 2. **Hadoop兼容性**: 由于Hadoop的生态支持Avro,因此它常被用作HDFS上的数据存储...

    大数据技术原理及应用.doc

    2. **Avro**:Avro是Hadoop生态系统中的数据序列化系统,它定义了一种高效、可压缩的二进制数据格式,并支持文件集和远程过程调用(RPC)。Avro的数据操作基于模式(Schema),这种模式驱动的方式使得数据的读写更为...

    大数据技术原理及应用 (2).docx

    - Avro是一种数据序列化系统,它提供了一种高效且可压缩的二进制数据格式,用于数据存储和传输。Avro依赖于模式(Schema),确保数据的读写一致性,优化了序列化效率和数据大小,广泛应用于Hadoop生态系统中,如...

    大数据处理常用技术有哪些.pdf

    9. **Apache Avro**:Avro 是数据序列化系统,用于大量数据交换,支持高效的数据传输,并且能够替代 Hadoop 的原始 IPC 机制。 10. **Apache Ambari**:Ambari 是一个用于 Hadoop 集群部署、管理和监控的 Web 工具...

    大数据技术原理及应用 (2).pdf

    Avro是数据序列化系统,支持丰富的数据结构类型和高效的二进制数据格式。Avro文件依赖于模式,允许数据在不同编程语言之间进行互操作,同时减少了序列化和反序列化的复杂性,节省存储空间和网络带宽。它在Hadoop...

    大数据处理常用技术有哪些.docx

    14. **Apache Chukwa**:Chukwa 用于监控大型分布式系统的数据收集,将数据转化为适合 Hadoop 处理的格式。 15. **Apache Hama**:Hama 基于 BSP(Bulk Synchronous Parallel)模型,用于处理大规模的数学问题,如...

    大数据技术原理及应用.pdf

    2. **Avro**:Avro是Hadoop生态中的数据序列化系统,提供了丰富的数据结构和高效的二进制数据格式,同时支持动态语言集成和RPC。Avro依赖于模式,使得数据的读写过程更加规范,降低了数据处理的开销,优化了序列化...

    完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 06 Hadoop大家族 共32页.pptx

    【Hive】是一个数据仓库工具,允许用户通过类SQL语言HiveQL对Hadoop中的数据进行结构化查询。Hive提供了多种接口,如Shell、JDBC/ODBC、Thrift和Web,便于数据处理和分析。学员需要了解如何将Hadoop下的原始数据转换...

    基于Hadoop分布式文件系统的分析与研究.pdf

    Avro,是一个数据序列化系统,提供数据快速读写的能力;以及Oozie,一个工作流调度系统,用于管理Hadoop作业。 云计算是与Hadoop紧密相关的领域,云计算提供了按需的资源分配,使得Hadoop能够运行在虚拟化的计算...

    Hadoop研究周记.pdf

    8. **Avro**:Avro是Hadoop生态中的数据序列化系统,提供了一种紧凑、高效的二进制数据格式,支持动态语言和静态语言的互操作。 【Avro和JSON】 Avro是基于JSON模式的数据序列化系统,但比JSON更加优化,用于存储...

Global site tag (gtag.js) - Google Analytics