`

(读书笔记)Hive一点一滴系列之数据类型和文件格式

 
阅读更多

一、基本数据类型

类型         长度

tinyint        1b

smalint       2b

int              4b

bigint         8b

Boolean     布尔

float           单精度浮点数

double       双精度浮点数

string         字符序列

timestamp  整数,浮点数和字符串 (UTC)

binary        字节数组

 

注意:hive不支持“字符数组”。优化考虑因为定长的记录更容易进行建立索引,数据扫描。 

hive 根据不同字段间的分隔符来对其进行判断。

 

类型转换:s是一个字符串类型,其值为数值 cast(s as int)。

二、集合数据类型

数据类型   描述   示例

struct  类似对象 struct(’小明‘,’小红‘)

map    一组键值对 map(’key‘,’value‘,’key1‘,’value1‘)

array  数组是一组相同类型和名称的变量的集合 array(’小明‘,’小红‘)

三、文本文件数据编码

分隔符  描述

\n   换行符

^A 分隔列

^B 分隔array或struct

^C 分隔MAP

 

create table tablename(
       first int,
       second int,
       third array<string>,
       fouth map<string,string>,
       five struct<one:string,two:string>
)
row format delimited
fields terminated by '\001'
collection items terminate by '\002'
map keys terminated by '\003'
lines terminated by '\n'
stored as textfile;

 

字符\001是八进制A

字符\002是八进制B

字符\003是八进制C

定义一个表数据用逗号进行分隔的表

 

create table test
(
first int,
second int,
third int
)
row format delimited
fields terminated by ',';

 四、读时模式

 

如果加载数据少于对应的模式时,那么默认null进行处理。

 

 

 

 

 

 

 

 

分享到:
评论

相关推荐

    Hive复杂数据类型使用介绍

    Hive作为一个大数据分析工具,提供了多种数据类型,其中包括了复杂数据类型如Array、Map和Struct。这些复杂数据类型可以满足各种复杂的数据存储需求。 一、Array类型 Array类型是Hive中的一种复杂数据类型,用于...

    大数据hive笔记.zip

    Hive是Apache软件基金会下的一个开源项目,它提供了一种基于Hadoop的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL(HQL,Hive Query Language)查询功能,使得用户能够通过SQL语句对海量数据...

    C++解析windows注册表hive文件

    每个键可以有多个子键和值,每个值又包含数据类型和数据本身。解析Hive文件时,我们要处理这些结构并转换为可读的形式。 在C++中,解析Hive文件通常涉及以下几个步骤: 1. **文件读取**:使用C++标准库中的`...

    Hive 学习笔记1

    Hive 学习笔记Hive

    Hive内部表合并小文件Java程序

    在大数据处理领域,Hive作为一个基于Hadoop的数据仓库工具,被广泛用于存储和查询大规模数据集。然而,Hive在处理大量小文件时可能会遇到性能问题,因为HDFS(Hadoop分布式文件系统)对小文件的管理效率较低。为了...

    Hive实战项目数据文件和Zeppelin源文件

    数据文件可能以CSV、JSON或其他格式存储,Hive可以通过加载这些文件来建立表。在使用Hive时,我们需要理解如何正确地定义表结构,如字段名、数据类型以及分区策略。 "Zeppelin源文件"可能包含了预定义的笔记本来...

    HIVE文件读写

    Hive文件读写是Hive核心功能之一,使得数据分析师和数据科学家能够方便地对存储在HDFS(Hadoop分布式文件系统)中的大量数据进行操作。在本篇中,我们将深入探讨如何在Linux环境下使用Hive进行文件读写,并了解BCD...

    Hive数据文件以及CLI操作命令

    本资料包包含了两个关键文件:2013_12.csv 和 Hive指令样例.txt,分别用于理解Hive中的数据文件格式和基本操作命令。 2013_12.csv 文件是一个CSV(Comma Separated Values)文件,这是一种常见的数据交换格式,以...

    IT十八掌_Hive阶段学习笔记(课堂笔记与优化总结)

    IT十八掌第三期配套课堂笔记 1、Hive工作原理、类型...2、Hive架构及其文件格式 3、Hive操作及Hive复合类型 4、Hive的JOIN详解 5、Hive优化策略 6、Hive内置操作符与函数 7、Hive用户自定义函数接口 8、Hive的权限控制

    Hive操作笔记(呕心沥血制作)

    Hive 将非结构化或半结构化的数据文件映射成数据库表,通过 HiveQL(类似于 SQL)接口进行数据操作。它主要设计用于离线批处理,而不是实时查询。Hive 依赖于 Hadoop 生态系统,包括 MapReduce 或 Spark 来执行查询...

    Hive数据仓库之垃圾分类数据分析系统

    主要功能和技术说明如下: (1)Flume数据采集,HDFS数据储存 (2)hive数据仓库分层设计,包含ODS、DWD、ADS层 (3)sqoop数据迁移,完成HIve与MySQL数据库中的数据交互 (4)Echarts搭建动态可视化大屏 (5)...

    hive2.1.1中orc格式读取报数组越界错误解决方法

    这两个jar包分别是Hive执行引擎和ORC文件格式处理的实现,更新它们可能是为了修复特定版本中的已知问题或提供更好的兼容性。 CDH(Cloudera Distribution Including Apache Hadoop)是Cloudera公司提供的Hadoop发行...

    大数据 hive 实战数据

    在大数据处理领域,Hive是一个极其重要的工具,它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分:`video`数据和`user`数据,这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...

    Hive几种数据导入方式

    这种方式结合了表创建和数据插入两个步骤,提高了效率。 ### 总结 通过以上四种方式,我们可以根据不同场景灵活选择最合适的方法来完成数据导入任务。需要注意的是,在进行数据导入时,确保数据格式与表结构相匹配...

    Hive学习笔记

    Hive 是一种基于 Hadoop 的数据仓库工具,它允许用户使用 SQL 类似的查询语言(HiveQL)来处理和分析存储在 Hadoop 分布式文件系统(HDFS)中的大规模数据集。以下是对Hive的一些关键知识点的详细解释: 1. **数据...

    hive笔记.md的

    hive笔记.md的

    hive测试题(包含万级测试数据文件)

    标题 "hive测试题(包含万级测试数据文件)" 指的是一个与Hive相关的练习或测试集,其中可能包含了用于大数据分析的万级条目数据。这些数据可能被设计成模拟真实世界的业务场景,帮助学习者或者从业者检验和提升在Hive...

    《Hive数据仓库案例教程》教学大纲.pdf

    Hive作为一个基于Hadoop的数据仓库工具,它的主要功能是将结构化的数据文件映射为数据库表,并提供SQL-like查询功能,方便用户对大规模数据进行批处理分析。 课程内容分为十一个章节,涵盖了从基础理论到实际操作的...

Global site tag (gtag.js) - Google Analytics