（读书笔记）Hive一点一滴系列之数据类型和文件格式 - Mr HOT - ITeye博客

`

hrj0130

浏览: 23764 次
性别:
来自: 北京

最近访客更多访客>>

joke01

puyanwu

drc1991

Hadley

博主相关

博客

微博

相册

收藏

留言

关于我

文章分类

社区版块

存档分类

最新评论

hrj0130：
birt一点一滴系列文章

（读书笔记）Hive一点一滴系列之数据类型和文件格式

博客分类：

hive
BI
HADOOP

阅读更多

一、基本数据类型

类型长度

tinyint 1b

smalint 2b

int 4b

bigint 8b

Boolean 布尔

float 单精度浮点数

double 双精度浮点数

string 字符序列

timestamp 整数，浮点数和字符串（UTC）

binary 字节数组

注意：hive不支持“字符数组”。优化考虑因为定长的记录更容易进行建立索引，数据扫描。

hive 根据不同字段间的分隔符来对其进行判断。

类型转换：s是一个字符串类型，其值为数值 cast（s as int）。

二、集合数据类型

数据类型描述示例

struct 类似对象 struct（’小明‘，’小红‘）

map 一组键值对 map（’key‘，’value‘，’key1‘，’value1‘）

array 数组是一组相同类型和名称的变量的集合 array（’小明‘，’小红‘）

三、文本文件数据编码

分隔符描述

\n 换行符

^A 分隔列

^B 分隔array或struct

^C 分隔MAP

create table tablename(
       first int,
       second int,
       third array<string>,
       fouth map<string,string>,
       five struct<one:string,two:string>
)
row format delimited
fields terminated by '\001'
collection items terminate by '\002'
map keys terminated by '\003'
lines terminated by '\n'
stored as textfile;

字符\001是八进制A

字符\002是八进制B

字符\003是八进制C

定义一个表数据用逗号进行分隔的表

create table test
(
first int,
second int,
third int
)
row format delimited
fields terminated by ',';

四、读时模式

如果加载数据少于对应的模式时，那么默认null进行处理。

分享到：

MapReduce初级案例详细 | Hive一点一滴系列之Eclipse调用hive执行操 ...

2015-06-04 19:00
浏览 827
评论(0)
分类:开源软件
查看更多

评论

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

Hive复杂数据类型使用介绍: Hive作为一个大数据分析工具，提供了多种数据类型，其中包括了复杂数据类型如Array、Map和Struct。这些复杂数据类型可以满足各种复杂的数据存储需求。一、Array类型 Array类型是Hive中的一种复杂数据类型，用于...

大数据hive笔记.zip: Hive是Apache软件基金会下的一个开源项目，它提供了一种基于Hadoop的数据仓库工具，可以将结构化的数据文件映射为一张数据库表，并提供SQL（HQL，Hive Query Language）查询功能，使得用户能够通过SQL语句对海量数据...

C++解析windows注册表hive文件: 每个键可以有多个子键和值，每个值又包含数据类型和数据本身。解析Hive文件时，我们要处理这些结构并转换为可读的形式。在C++中，解析Hive文件通常涉及以下几个步骤： 1. **文件读取**：使用C++标准库中的`...

Hive 学习笔记1: Hive 学习笔记Hive

Hive内部表合并小文件Java程序: 在大数据处理领域，Hive作为一个基于Hadoop的数据仓库工具，被广泛用于存储和查询大规模数据集。然而，Hive在处理大量小文件时可能会遇到性能问题，因为HDFS（Hadoop分布式文件系统）对小文件的管理效率较低。为了...

hive中定义的复杂数据类型导入到es中问题总结.doc: Hive 主要用于对存储在 Hadoop 文件系统 (HDFS) 中的大规模数据集进行数据汇总、查询和分析；而 ES 则是一种分布式的、基于文档的搜索和分析引擎，常用于日志聚合、实时数据分析等场景。由于两者各有优势，实际应用...

Hive实战项目数据文件和Zeppelin源文件: 数据文件可能以CSV、JSON或其他格式存储，Hive可以通过加载这些文件来建立表。在使用Hive时，我们需要理解如何正确地定义表结构，如字段名、数据类型以及分区策略。 "Zeppelin源文件"可能包含了预定义的笔记本来...

HIVE文件读写: Hive文件读写是Hive核心功能之一，使得数据分析师和数据科学家能够方便地对存储在HDFS（Hadoop分布式文件系统）中的大量数据进行操作。在本篇中，我们将深入探讨如何在Linux环境下使用Hive进行文件读写，并了解BCD...

hive构造测试数据方法: 例如，在饿了么内部，如果创建Hive表时不指定文件格式，则默认使用RCFILE格式存储。示例：创建一个使用TEXTFILE格式存储的非分区表。 ```sql CREATE TABLE `temp.amelia_customers_upload_test1` ( `phone` ...

hive 配置文件: Hive是Apache Hadoop生态系统中的一个数据仓库工具，它允许用户使用SQL方言（HQL）进行数据查询、处理和分析。在Hive的运行中，配置文件起着至关重要的作用，它们定义了Hive的行为、连接到的数据存储以及性能相关的...

Hive数据文件以及CLI操作命令: 本资料包包含了两个关键文件：2013_12.csv 和 Hive指令样例.txt，分别用于理解Hive中的数据文件格式和基本操作命令。 2013_12.csv 文件是一个CSV（Comma Separated Values）文件，这是一种常见的数据交换格式，以...

hive2.1.1中orc格式读取报数组越界错误解决方法: 这两个jar包分别是Hive执行引擎和ORC文件格式处理的实现，更新它们可能是为了修复特定版本中的已知问题或提供更好的兼容性。 CDH（Cloudera Distribution Including Apache Hadoop）是Cloudera公司提供的Hadoop发行...

IT十八掌_Hive阶段学习笔记(课堂笔记与优化总结): IT十八掌第三期配套课堂笔记 1、Hive工作原理、类型...2、Hive架构及其文件格式 3、Hive操作及Hive复合类型 4、Hive的JOIN详解 5、Hive优化策略 6、Hive内置操作符与函数 7、Hive用户自定义函数接口 8、Hive的权限控制

大数据 hive 实战数据: 在大数据处理领域，Hive是一个极其重要的工具，它被广泛应用于大数据分析和数据仓库操作。本实战数据集主要涉及两个核心部分：`video`数据和`user`数据，这些都是构建大数据分析模型的基础元素。让我们深入探讨一下...

Hive操作笔记（呕心沥血制作）: Hive 将非结构化或半结构化的数据文件映射成数据库表，通过 HiveQL（类似于 SQL）接口进行数据操作。它主要设计用于离线批处理，而不是实时查询。Hive 依赖于 Hadoop 生态系统，包括 MapReduce 或 Spark 来执行查询...

Hive数据仓库之垃圾分类数据分析系统: 主要功能和技术说明如下：（1）Flume数据采集，HDFS数据储存（2）hive数据仓库分层设计，包含ODS、DWD、ADS层（3）sqoop数据迁移，完成HIve与MySQL数据库中的数据交互（4）Echarts搭建动态可视化大屏（5）...

Hive几种数据导入方式: 这种方式结合了表创建和数据插入两个步骤，提高了效率。 ### 总结通过以上四种方式，我们可以根据不同场景灵活选择最合适的方法来完成数据导入任务。需要注意的是，在进行数据导入时，确保数据格式与表结构相匹配...

Hive学习笔记: Hive 是一种基于 Hadoop 的数据仓库工具，它允许用户使用 SQL 类似的查询语言（HiveQL）来处理和分析存储在 Hadoop 分布式文件系统（HDFS）中的大规模数据集。以下是对Hive的一些关键知识点的详细解释： 1. **数据...

hive笔记.md的: hive笔记.md的

Global site tag (gtag.js) - Google Analytics