【Hive十三】Hive读写Avro格式的数据 - bit1129的博客 - ITeye博客

`

bit1129

浏览: 1076487 次
性别:
来自: 北京

最近访客更多访客>>

xiaoyaohen24

yuxin8000

abc951654

zhongqi2513

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

jchubby：关于第一个reduceByKey对应的cache，shuffl ...
【Spark三十七】Spark Cache机制
bo_hai：看了你的文章，updateStateByKey 这个方式的使用 ...
【Spark八十八】Spark Streaming累加器操作（updateStateByKey)
bo_hai：棒极啦，解决了我的问题。
【Spark七十二】Spark的日志配置
tivan：你好，这个代码生成主要在，那个地方使用。
【Spark105】Spark SQL动态代码生成一
zxsz4085：看楼主这么厉害的样子，请问楼主如何知道类库的版本呢？比如g++ ...
【Thrift一】Thrift编译安装

【Hive十三】Hive读写Avro格式的数据

博客分类：

Avro
Hive

阅读更多

1. 原始数据

hive> select * from word; 
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype

2. 创建avro格式的数据表

hive> CREATE TABLE avro_table(age INT, name STRING)STORED AS AVRO;

3. 数据表的描述

hive> describe avro_table; 
OK
age                 	int                 	from deserializer   
name                	string              	from deserializer   
Time taken: 0.154 seconds, Fetched: 2 row(s)

4. 插入数据

hive> INSERT OVERWRITE TABLE avro_table SELECT * FROM word;

5. 查询

hive> select * from avro_table;
OK
1	MSN  
10	QQ  
100	Gtalk  
1000	Skype

6. HDFS上文件的内容（avro二进制格式)

Objavro.schema?{"type":"record","name":"avro_table","namespace":"default","fields":[{"name":"age","type":["null","int"],"doc":"\u0000","default":null},{"name":"name","type":["null","string"],"default":null}]} 9?$-侭蹈艉{3!
T
MSN  QQ  ?Gtalk  ?Skype   9?$-侭蹈艉{3!

7.参考

https://cwiki.apache.org/confluence/display/Hive/AvroSerDe

分享到：

【Hive十四】Hive读写Parquet格式的数据 | 【Kafka十四】关于auto.offset.reset[Q/A]

2015-04-14 17:25
浏览 4133
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

hive所有jar文件: 这些库可能包括Hive与HBase交互所需的连接器、Hadoop相关的库、以及其他可能的依赖，如Avro、Parquet、Thrift等，这些都是大数据处理中的常见格式和通信协议。安装这些库后，Hive就能识别和处理HBase的数据，使得...

apache avro 简介: Avro提供了多种命令行工具，如`avro-tools.jar`，可以用于转换数据格式、验证schema、编译Java代码等。例如，`avro-tools tojson`命令可以将Avro文件转换为JSON，方便查看和调试。 ### Avro与源码对于开发者来说，...

DbVisualizer最新版本连接hive所需全部jar包: 2. **hive-jdbc.jar**：Hive JDBC驱动程序，使得像DbVisualizer这样的第三方工具可以通过JDBC接口连接到Hive服务器。 3. **hadoop-client.jar**：包含了Hadoop客户端的所有依赖，允许Hive与Hadoop集群通信。 4. **...

avro-doc-1.7.7: 在Avro中，数据的结构由一个JSON格式的Schema定义。Schema描述了数据的字段名称、类型和顺序。Avro支持动态Schema，这意味着在序列化和反序列化时，可以使用不同的或更新的Schema。 3. **序列化与反序列化** Avro...

avro-js-1.9.2.tgz: Avro提供了一种紧凑、高效的二进制数据格式，使得数据在分布式环境中能够快速交换。在JavaScript环境中，Avro-js-1.9.2.tgz是一个用于处理Avro数据的JavaScript库，适用于Node.js和浏览器环境。 Avro的核心概念包括...

avro-cpp-1.9.2.tar.gz: 该压缩包包含的是Apache Avro C++库的1.9.2版本，这是一个用于处理Avro数据格式的库，它提供了API供开发者在C++程序中读写Avro数据。Avro数据模型基于JSON，但比JSON更高效，因为它支持二进制编码，这使得Avro在传输...

大数据技术原理及应用[整理].pdf: 它提供了丰富的数据结构类型、快速可压缩的二进制数据格式、存储持久性数据的文件集、远程调用RPC的功能和简单的动态语言集成功能。Avro系统依赖于模式（Schema），Avro数据的读和写是在模式之下完成的。大数据...

avro-1.9.2.tar.gz: 1. **数据交换**: Avro的二进制格式和Schema驱动设计使得它成为跨语言数据交换的理想选择，比如Java、Python、C++等之间的通信。 2. **Hadoop兼容性**: 由于Hadoop的生态支持Avro，因此它常被用作HDFS上的数据存储...

大数据技术原理及应用.doc: 2. **Avro**：Avro是Hadoop生态系统中的数据序列化系统，它定义了一种高效、可压缩的二进制数据格式，并支持文件集和远程过程调用（RPC）。Avro的数据操作基于模式（Schema），这种模式驱动的方式使得数据的读写更为...

大数据技术原理及应用 (2).docx: - Avro是一种数据序列化系统，它提供了一种高效且可压缩的二进制数据格式，用于数据存储和传输。Avro依赖于模式（Schema），确保数据的读写一致性，优化了序列化效率和数据大小，广泛应用于Hadoop生态系统中，如...

大数据处理常用技术有哪些.pdf: 9. **Apache Avro**：Avro 是数据序列化系统，用于大量数据交换，支持高效的数据传输，并且能够替代 Hadoop 的原始 IPC 机制。 10. **Apache Ambari**：Ambari 是一个用于 Hadoop 集群部署、管理和监控的 Web 工具...

大数据技术原理及应用 (2).pdf: Avro是数据序列化系统，支持丰富的数据结构类型和高效的二进制数据格式。Avro文件依赖于模式，允许数据在不同编程语言之间进行互操作，同时减少了序列化和反序列化的复杂性，节省存储空间和网络带宽。它在Hadoop...

大数据处理常用技术有哪些.docx: 14. **Apache Chukwa**：Chukwa 用于监控大型分布式系统的数据收集，将数据转化为适合 Hadoop 处理的格式。 15. **Apache Hama**：Hama 基于 BSP（Bulk Synchronous Parallel）模型，用于处理大规模的数学问题，如...

大数据技术原理及应用.pdf: 2. **Avro**：Avro是Hadoop生态中的数据序列化系统，提供了丰富的数据结构和高效的二进制数据格式，同时支持动态语言集成和RPC。Avro依赖于模式，使得数据的读写过程更加规范，降低了数据处理的开销，优化了序列化...

完整版大数据云计算课程 Hadoop数据分析平台系列课程 Hadoop 06 Hadoop大家族共32页.pptx: 【Hive】是一个数据仓库工具，允许用户通过类SQL语言HiveQL对Hadoop中的数据进行结构化查询。Hive提供了多种接口，如Shell、JDBC/ODBC、Thrift和Web，便于数据处理和分析。学员需要了解如何将Hadoop下的原始数据转换...

基于Hadoop分布式文件系统的分析与研究.pdf: Avro，是一个数据序列化系统，提供数据快速读写的能力；以及Oozie，一个工作流调度系统，用于管理Hadoop作业。云计算是与Hadoop紧密相关的领域，云计算提供了按需的资源分配，使得Hadoop能够运行在虚拟化的计算...

Hadoop研究周记.pdf: 8. **Avro**：Avro是Hadoop生态中的数据序列化系统，提供了一种紧凑、高效的二进制数据格式，支持动态语言和静态语言的互操作。【Avro和JSON】 Avro是基于JSON模式的数据序列化系统，但比JSON更加优化，用于存储...

Global site tag (gtag.js) - Google Analytics