我最近研究了hive的相关技术,有点心得,这里和大家分享下。
首先我们要知道hive到底是做什么的。下面这几段文字很好的描述了hive的特性:
1.hive是基于Hadoop的一个数据仓库工具,可以将结构化的数据文件映射为一张数据库表,并提供完整的sql查询功能,可以将sql语 句转换为MapReduce任务进行运行。其优点是学习成本低,可以通过类SQL语句快速实现简单的MapReduce统计,不必开发专门的 MapReduce应用,十分适合数据仓库的统计分析。
2.Hive是建立在 Hadoop 上的数据仓库基础构架。它提供了一系列的工具,可以用来进行数据提取转化加载(ETL),这是一种可以存储、查询和分析存储在 Hadoop 中的大规模数据的机制。Hive 定义了简单的类 SQL 查询语言,称为 HQL,它允许熟悉 SQL 的用户查询数据。同时,这个语言也允许熟悉 MapReduce 开发者的开发自定义的 mapper 和 reducer 来处理内建的 mapper 和 reducer 无法完成的复杂的分析工作。
要理解hive,必须先理解hadoop和mapreduce,如果有不熟悉的童鞋,可以百度一下。
使用hive的命令行接口,感觉很像操作关系数据库,但是hive和关系数据库还是有很大的不同,下面我就比较下hive与关系数据库的区别,具体如下:
- hive和关系数据库存储文件的系统不同,hive使用的是hadoop的HDFS(hadoop的分布式文件系统),关系数据库则是服务器本地的文件系统;
- hive使用的计算模型是mapreduce,而关系数据库则是自己设计的计算模型;
- 关系数据库都是为实时查询的业务进行设计的,而hive则是为海量数据做数据挖掘设计的,实时性很差;实时性的区别导致hive的应用场景和关系数据库有很大的不同;
- Hive很容易扩展自己的存储能力和计算能力,这个是继承hadoop的,而关系数据库在这个方面要比数据库差很多。
以上都是从宏观的角度比较hive和关系数据库的区别,hive和关系数据库的异同还有很多,我在文章的后面会一一描述。
下面我来讲讲hive的技术架构,大家先看下面的架构图:
由上图可知,hadoop和mapreduce是hive架构的根基。Hive架构包括如下组件:CLI(command line interface)、JDBC/ODBC、Thrift Server、WEB GUI、metastore和Driver(Complier、Optimizer和Executor),这些组件我可以分为两大类:服务端组件和客户端 组件。
首先讲讲服务端组件:
Driver组件:该组件包括Complier、Optimizer和Executor,它的作用是将我们写的HiveQL(类SQL)语句进行解析、编译优化,生成执行计划,然后调用底层的mapreduce计算框架。
Metastore组件:元数据服务组件,这个组件存储hive的元数据,hive的元数据存储在关系数据 库里,hive支持的关系数据库有derby、mysql。元数据对于hive十分重要,因此hive支持把metastore服务独立出来,安装到远程 的服务器集群里,从而解耦hive服务和metastore服务,保证hive运行的健壮性,这个方面的知识,我会在后面的metastore小节里做详 细的讲解。
Thrift服务:thrift是facebook开发的一个软件框架,它用来进行可扩展且跨语言的服务的开发,hive集成了该服务,能让不同的编程语言调用hive的接口。
客户端组件:
CLI:command line interface,命令行接口。
Thrift客户端:上面的架构图里没有写上Thrift客户端,但是hive架构的许多客户端接口是建立在thrift客户端之上,包括JDBC和ODBC接口。
WEBGUI:hive客户端提供了一种通过网页的方式访问hive所提供的服务。这个接口对应hive的hwi组件(hive web interface),使用前要启动hwi服务。
下面我着重讲讲metastore组件,具体如下:
Hive的metastore组件是hive元数据集中存放地。Metastore组件包括两个部分:metastore服务和后台数据的存 储。后台数据存储的介质就是关系数据库,例如hive默认的嵌入式磁盘数据库derby,还有mysql数据库。Metastore服务是建立在后台数据 存储介质之上,并且可以和hive服务进行交互的服务组件,默认情况下,metastore服务和hive服务是安装在一起的,运行在同一个进程当中。我 也可以把metastore服务从hive服务里剥离出来,metastore独立安装在一个集群里,hive远程调用metastore服务,这样我们 可以把元数据这一层放到防火墙之后,客户端访问hive服务,就可以连接到元数据这一层,从而提供了更好的管理性和安全保障。使用远程的 metastore服务,可以让metastore服务和hive服务运行在不同的进程里,这样也保证了hive的稳定性,提升了hive服务的效率。
Hive的执行流程如下图所示:
图描述的很清晰了,我这里就不在累述了。
下面我给大家展示一个简单的例子,看看hive是怎么操作的。
首先我们创建一个普通的文本文件,里面只有一行数据,该行也只存储一个字符串,命令如下:
echo ‘sharpxiajun’ > /home/hadoop/test.txt |
然后我们建一张hive的表:
hive –e “create table test (value string );
|
接下来加载数据:
Load data local inpath ‘home/hadoop/test.txt’ overwrite into table test
|
最后我们查询下表:
hive –e ‘ select * from test’;
|
大家看到了吧,hive十分简单,很好入门,操作和sql很像,下面我就要深入分析下hive与关系数据库的区别,这部分可能有些人看的不是 很明白,但是很有必要提前提出,以后我的文章里将进一步讲述hive,那时不太明白的童鞋在看看这部分,很多问题就会清晰很多,具体如下:
- 关系数据库里,表的加载模式是在数据加载时候强制确定的(表的加载模式是指数据库存储数据的文件格式),如果加载数据时候发现加载的数据不符合模 式,关系数据库则会拒绝加载数据,这个就叫“写时模式”,写时模式会在数据加载时候对数据模式进行检查校验的操作。Hive在加载数据时候和关系数据库不 同,hive在加载数据时候不会对数据进行检查,也不会更改被加载的数据文件,而检查数据格式的操作是在查询操作时候执行,这种模式叫“读时模式”。在实 际应用中,写时模式在加载数据时候会对列进行索引,对数据进行压缩,因此加载数据的速度很慢,但是当数据加载好了,我们去查询数据的时候,速度很快。但是 当我们的数据是非结构化,存储模式也是未知时候,关系数据操作这种场景就麻烦多了,这时候hive就会发挥它的优势。
- 关系数据库一个重要的特点是可以对某一行或某些行的数据进行更新、删除操作,hive不支持对某个具体行的操作,hive对数据的操作只支持覆盖 原数据和追加数据。Hive也不支持事务和索引。更新、事务和索引都是关系数据库的特征,这些hive都不支持,也不打算支持,原因是hive的设计是海 量数据进行处理,全数据的扫描时常态,针对某些具体数据进行操作的效率是很差的,对于更新操作,hive是通过查询将原表的数据进行转化最后存储在新表 里,这和传统数据库的更新操作有很大不同。
- Hive也可以在hadoop做实时查询上做一份自己的贡献,那就是和hbase集成,hbase可以进行快速查询,但是hbase不支持类SQL的语句,那么此时hive可以给hbase提供sql语法解析的外壳,可以用类sql语句操作hbase数据库。
今天的hive就写到这里,关于hive我打算一共写三篇文章,这是第一篇,下一篇主要讲hive支持的数据模型,例如:数据库 (database)、表(table)、分区(partition)和桶(bucket),还有hive文件存储的格式,还有hive支持的数据类型。 第三篇文章就会讲到hiveQL的使用、以及结合mapreduce查询优化的技术和自定义函数,以及我们现在在公司项目里运用hive的实例。
马云在退休的时候说互联网现在进入了大数据时代,大数据是现在互联网的趋势,而hadoop就是大数据时代里的核心技术,但是hadoop和 mapreduce操作专业型太强,所以facebook在这些的基础上开发了hive框架,毕竟世界上会sql的人比会java的人多的多,hive是 可以说是学习hadoop相关技术的一个突破口,哪些自立于投身hadoop技术开发的童鞋们,可以先从hive开始哦。
相关推荐
在大数据时代,数据安全和隐私保护变得至关重要。这包括数据加密、访问控制和隐私合规性等方面,如GDPR(欧洲通用数据保护条例)。 十、未来趋势 随着5G、AI和IoT的发展,大数据将继续演变,如实时流处理、边缘计算...
这本书全面解析了大数据技术的全貌,旨在帮助读者理解和掌握大数据的精髓,提升在信息时代的数据处理能力。 大数据技术的核心概念主要包括四V特征:大量性(Volume)、高速性(Velocity)、多样性(Variety)和价值...
Hive 大数据查询技术 Hive 是一个基于 Hadoop 的数据仓库平台,通过 Hive,可以方便地进行数据提取转化加载...Hive 是一个功能强大且灵活的大数据查询技术,具有良好的可扩展性和容错机制,能够满足大数据时代的需求。
"大数据时代征稿启事 (3)" 提醒我们关注这个领域的最新动态,可能是一次面向专业人士或者爱好者征文的活动,旨在汇聚思想,分享研究成果,探讨大数据在实践中的应用及其未来趋势。以下是关于大数据的一些核心知识点...
大数据时代,Hive作为一款基于Hadoop的数据仓库工具,因其强大的数据处理能力和便捷的SQL查询语法,深受广大数据分析师和开发者的喜爱。本篇文章将深入探讨大数据编程中的Hive安装过程,结合“林子雨实验”这一实例...
通过阅读《阿里研究中心:大数据时代》这份报告,我们可以了解大数据的核心概念、关键技术、实际应用,以及它如何塑造我们的数字化世界。对于IT专业人士来说,这是一份不可多得的参考资料,有助于深化对大数据的理解...
随着大数据时代的到来,Apache Hive的事务操作设计变得越来越重要。本文将对Apache Hive的事务操作设计进行详细的介绍,并探讨其未来的发展方向。 一、历史背景 在早期的Apache Hive中,并没有事务操作的概念,...
在大数据领域,安全是至关重要的一个环节,尤其是在处理海量数据时。Kerberos技术就是一种广泛应用于企业级网络环境中的安全认证协议,它为...在大数据时代,数据安全不仅仅是技术问题,也是企业合规和信任的关键因素。
"基于Hadoop、Spark、FLUME、HIVE等大数据组件搭建的一个分布式集群环境下的电影推荐及日志分析平台"是一个旨在利用这些技术来解决实际业务问题的综合系统。这个平台主要用于电影推荐和日志分析,它展示了大数据技术...
【完整课程列表】 大数据云计算技术 Hadoop集群监控与Hive高可用-暴风影音技术团队...大数据云计算技术 云计算介绍-划时代的技术(共83页).pptx 大数据云计算技术 云计算与数据挖掘 云计算与数据分析(共114页).pptx
大数据时代需要新型数据挖掘技术、云计算技术和分布式处理技术等来处理大数据。 7、云计算技术:云计算技术是基于MapReduce计算模式的云计算技术,为大数据处理提供了解决办法。云计算技术能够将数据分发给网络上的...
福建师范大学的大数据导论课程...这些课程内容旨在为学生提供全面的大数据理解,包括理论知识和实践技能,以适应大数据时代的需求。通过学习,学生将能够分析、处理和解释大数据,为业务决策和科学研究提供有力支持。
在大数据时代,计算机信息处理技术已经成为了支撑各行各业发展的重要基石。这一领域的发展日新月异,不断推动着社会进步和科技创新。"大数据时代计算机信息处理技术探讨 (1)"的主题,无疑是对当前信息技术发展的深入...
**大数据技术:Hadoop 框架详细介绍** ...总之,Hadoop框架通过分布式计算和存储,为企业和组织提供了处理海量数据的能力,极大地推动了大数据时代的科技进步。随着技术的发展,Hadoop将继续在大数据领域发挥重要作用。
本文将深入探讨YDB在大数据时代的应用、特点以及其对大数据处理的贡献。 首先,我们要理解大数据的核心特征:大量性、高速性、多样性和价值密度低。面对这些挑战,传统的数据库系统往往力不从心,而YDB则通过其独特...
在当前的数字化时代,大数据已经成为了信息技术领域的一个关键概念,对于企业和个人来说,理解和掌握大数据技术至关重要。"大数据2204班晋飘.zip"这个压缩包文件很可能包含了一些关于大数据学习资料,可能是课程讲义...
大数据存储与处理技术是随着数字时代数据量呈爆炸式增长而不断发展的技术领域。在气象数据处理这一特定领域,大数据技术的应用尤其重要,因为气象数据不仅体量庞大,且更新频率高,需要实时或近实时地进行分析以对...
本文旨在探讨在大数据时代背景下,电子政务建设所面临的挑战以及如何有效利用大数据技术提升政府服务能力。 #### 二、大数据时代电子政务面临挑战与高层需求 ##### 1.1 大数据时代电子政务面临挑战 在大数据时代...