Hive是为提供简单的数据操作而设计的下一代分布式数据仓库。它提供了简单的类似SQL的语法的HiveQL语言进行数据查询。同 时,HiveQL语言能力不足时,它也能允许使用传统的map/reduce进行复杂数据分析。
Hive是搭建在Hadoop平台之上的。Hive并不是一个真正的数据库,它的元数据需要存储在其他数据库中(例如mysql)。。Hadoop平台提 供了HDFS分布式存储系统和map/reduce分布式计算系统,而Hive在这两个系统之上,使得用户只需使用熟悉SQL语言就能进行分布式计算,而 map/reduce编程往往是相当复杂的。Hive在少量数据运算或是短时间内的重复查询上,是不能和Oracle那样的数据库相比的。它的查询量通常 相当大,一个大的job运行几个小时算是正常的。
数据类型 。HiveQL只支持以下几种基本数据类型TINYINT, SMALLINT, INT, BIGINT, DOUBLE, STRING。
支持的复杂数据类型有Structs, Maps, Arrays。
创建表。 Hive不同于其他数据库,它只有一个默认数据库"default" ,所有的table都保持在里面。
CREATE TABLE user(id BIGINT, name STRING);
可以指定将表创建到外部hdfs文件系统中。
CREATE EXTERNAL TABLE foo(id INT)
STORED AS TEXTFILE LOCALTION '/user/foo/foo_data';
将数据文件导入到Hive表中。
LOAD DATA [LOCAL] INPATH '/data/userdata' [OVERWRITE] INTO TABLE user;
使用LOCAL选项将使用本地文件系统 ,否则将使用hdfs文件系统。使用OVERWRITE选项将删除原来table中的数据,否则将新数据添加到文件末尾。
Load data导入数据将仅仅将文件拷贝到hive管理的目录下,并用table的元数据去解释这个文件。所以必须保证数据文件的结构必须和table的结构一 致,否则可以load data成功但是数据解释不正确。特别注意fields分隔符和lines分隔符要和Table一致。我使用自定义分隔符导入数据,一直没有成功。不管我 怎么指定,Hive总是使用默认的分隔符来解释我的文件(默认使用 001(ctrl-A)分隔列,012(\n)分隔行 )。问题未解决。
查询语句。 这里列出一些和标准SQL不同的地方。
不能使用select count(*);需要指定count的列下标,select count(1) 。
不能使用CREATE TABLE newtable SELECT * FROM user;必须事先Create table,再用INSERT向其中写入数据。
排序关键字是SORT BY。
LIMIT关键字只能跟一个数字,即从第一条记录开始选出若干条。
INSERT语句变换很大,不能直接插入一条记录。插入的数据必须用SELECT子查询获取或者从某个文件导入。我还没细看。
> SELECT * FROM user LIMIT 10;
> INSERT OVERWRITE TABLE foo SELECT DESTIN(id) FROM user;
> SELECT M.id FROM user M JOIN foo S ON M.id = S.id;
> SELECT id FROM user GROUP BY id;
分享到:
相关推荐
【Hive学习笔记】 Hive是大数据处理领域中的一个重要组件,它是基于Hadoop的数据仓库架构,主要用于处理和分析海量的非结构化或半结构化数据。Hive的主要优点在于其提供了SQL-like的语言(HQL)使得对大数据的操作...
Hive广泛应用于日志分析、广告定向、用户行为分析、大数据报表生成等领域。它的优点在于简化了大数据分析的复杂性,使得非专业程序员也能进行数据探索。 综上所述,这份“大数据技术学习笔记之Hive”将带你深入了解...
它允许用户使用SQL(称为HQL,Hive Query Language)查询分布式存储的数据,为大数据分析提供了一个简便的接口。以下是对Hive基础知识的详细阐述: 1. **Hive架构**: Hive的核心组件包括:Hive Metastore、Driver...
1. **数据加载**:将数据文件导入HDFS(Hadoop分布式文件系统),然后使用Hive的CREATE TABLE AS SELECT语句或LOAD DATA命令将数据加载到Hive表中。 2. **数据探索**:在Zeppelin中创建新的笔记本来运行HQL查询,...
【大数据相关搭建笔记.zip】这个压缩包集合了多个关于大数据平台搭建的重要文档,涉及的关键技术包括Hadoop(含Hive、HBase以及HA)、Spark、Sqoop、Flume以及Ambari。这些组件是大数据处理生态系统中的核心部分,...
广义的Hadoop生态圈还包括Flume(日志数据采集)、Sqoop(关系型数据库数据导入)、Hive(SQL查询支持)、HBase(大数据数据库)等辅助工具。 课程内容分为九个部分,涵盖了大数据的概述、Hadoop的历史、组成、完全...
- 在离线分析中,Flume 可以作为数据预处理步骤,将原始日志数据导入 Hadoop HDFS,供 MapReduce 或 Hive 进行后续分析。 结合配套视频资源(https://space.bilibili.com/320773563/channel/detail?cid=173209),...
广义的Hadoop生态系统则包含了更多辅助工具,如Flume用于日志数据采集,Sqoop用于关系型数据库数据导入导出,Hive提供SQL接口处理Hadoop上的数据,Hbase是面向大数据的分布式数据库,适用于实时查询。 【Hadoop课程...
- **日志处理示例**: 介绍了如何使用Hadoop进行日志文件分析,这通常涉及到对日志文件进行过滤、排序和汇总统计。 #### 四、Hadoop杂志——《Hadoop开发者》 - **网址**: [百度文库中的《Hadoop开发者》系列]...
【大数据入门笔记系列】第一节,我们来探讨大数据的常用组件,这是理解大数据技术栈的关键。首先,大数据并不仅仅是“大的数据集”,而是指那些在传统软件工具无法有效处理的海量、高速度、多样性数据的集合。它涉及...
- **Scala相关总结**:介绍Scala中的元组、隐式转换、函数式编程、样例类、柯里化、闭包以及Option的使用,Scala是大数据处理中重要的编程语言之一。 以上便是“超全大数据面试宝典-大数据面试有这套就够了.pdf”...
6. **Sqoop**:Sqoop是一个用于在Hadoop和传统关系型数据库之间传输数据的工具,支持批量导入导出,使得数据迁移更为便捷。 7. **Flume**:Flume是一个分布式、可靠且可用于有效收集、聚合和移动大量日志数据的系统...
3. **Hive**: 为Hadoop设计的数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供SQL查询功能,适合大数据的离线分析。 4. **Hbase**: 基于Hadoop的NoSQL数据库,使用key-value存储模型,适合处理大...