Hive引擎对比-MR、Tez、Spark

gaozzsoft

浏览: 432443 次
性别:
来自: 北京

最近访客更多访客>>

cdliudb

u012682683

webeasymail

makeshow

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

Hive
大数据
OpenSource开源

Hive引擎简介

Hive引擎包括：默认MR、Tez、Spark

不更换引擎hive默认的是MR。

Hive on Spark：Hive既作为存储元数据又负责SQL的解析优化，语法是HQL语法，执行引擎变成了Spark，Spark负责采用RDD执行。

Spark on Hive : Hive只作为存储元数据，Spark负责SQL解析优化，语法是Spark SQL语法，Spark负责采用RDD执行。

MapReduce

MapReduce是一种编程模型，用于大规模数据集（大于1TB）的并行运算。

Tez

Tez是Apache开源的支持DAG作业的计算框架，它直接源于MapReduce框架，核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等，这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业

Spark

Spark是UC Berkeley AMP lab所开源的类Hadoop MapReduce的通用的并行计算框架，Spark基于map reduce算法实现的分布式计算，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是Job中间输出和结果可以保存在内存中，从而不再需要读写HDFS，因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的map reduce的算法。

Tez和Mapreduce区别

核心思想：MapReduce将一个算法抽象成Map和Reduce两个阶段进行处理；Tez将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等依赖DAG：Mapreduce没有DAG一说，Tez将map和reduce阶段拆分成多个阶段，分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业落地磁盘：MapReduce会有多次落地磁盘；Tez可以将多个有依赖的作业转换为一个作业，这样只需写一次HDFS，且中间节点较少。

Tez和Spark区别

使用场景：spark更像是一个通用的计算引擎，提供内存计算，实时流处理，机器学习等多种计算方式，适合迭代计算；tez作为一个框架工具，特定为hive和pig提供批量计算运行模式：spark属于内存计算，支持多种运行模式，可以跑在standalone，yarn上；而tez只能跑在yarn上；虽然spark与yarn兼容，但是spark不适合和其他yarn应用跑在一起资源利用：tez能够及时的释放资源，重用container，节省调度时间，对内存的资源要求率不高；而spark如果存在迭代计算时，container一直占用资源；

mr引擎在hive 2中将被弃用。官方推荐使用tez或spark等引擎。

选择

tez：使用有向无环图。内存式计算。

spark：可以同时作为批式和流式的处理引擎，减少学习成本。

-----------------------------------------------------------

Hive on Spark配置

在Hive所在节点部署Spark

在hive中创建spark配置文件

vim /opt/module/hive/conf/spark-defaults.conf

向HDFS上传Spark纯净版jar包

vim /opt/module/hive/conf/hive-site.xml

添加如下内容

<name>spark.yarn.jars</name>

<value>hdfs://hadoop102:8020/spark-jars/*</value>

</property>

<name>hive.execution.engine</name>

<value>spark</value>

</property>

-----------------------------------------------------

tez：

在hive sql中使用了union 或 join操作

tez会将任务切分,每个小任务，同一个HDFS分区目录下会创建一个文件文件夹，这就会造成一个非常严重的问题，假如这张表的下文，使用这张表没有用tez，而是使用spark或者mr，这两种引擎是不会遍历子文件夹下的内容的。查出来的数据为0。而我们很难约束，其他人使用同一种引擎，

所以tez在使用中抛弃。我们最中选择了spark引擎。

-----------------------------------------

MapReduce：是一种离线计算框架，将一个算法抽象成Map和Reduce两个阶段进行处理，每个阶段都是用键值对（key/value）作为输入和输出，非常适合数据密集型计算。Map/Reduce通过把对数据集的大规模操作分发给网络上的每个节点实现可靠性；每个节点会周期性地返回它所完成的工作和最新的状态。如果一个节点在设定的时间内没有进行心跳上报，主节点（可以理解为主服务器）就会认为这个节点down掉了，此时就会把分配给这个节点的数据发到别的节点上运算，这样可以保证系统的高可用性和稳定性。因此它是一个很好的计算框架。

TEZ：是基于Hadoop YARN之上的DAG（有向无环图，Directed Acyclic Graph）计算框架。核心思想是将Map和Reduce两个操作进一步拆分，即Map被拆分成Input、Processor、Sort、Merge和Output， Reduce被拆分成Input、Shuffle、Sort、Merge、Processor和Output等。这样，这些分解后的元操作可以任意灵活组合，产生新的操作，这些操作经过一些控制程序组装后，可形成一个大的DAG作业，从而可以减少Map/Reduce之间的文件存储，同时合理组合其子过程，也可以减少任务的运行时间。

Spark：Hive on Spark总体的设计思路是，尽可能重用Hive逻辑层面的功能；从生成物理计划开始，提供一整套针对Spark的实现，比如 SparkCompiler、SparkTask等，这样Hive的查询就可以作为Spark的任务来执行了

三者比较个人意见：

计算，会对磁盘进行多次的读写操作，这样启动多轮job的代价略有些大，不仅占用资源，更耗费大量的时间

TEZ

计算，就会生成一个简洁的DAG作业，算子跑完不退出，下轮继续使用上一轮的算子，这样大大减少磁盘IO操作，从而计算速度更快。 TEZ比MR至少快5倍（约值，反正是快，不必较真0.0）

Spark

计算，DAG生成，Stage划分，比MR快10倍（约值，反正是快，不必较真0.0）与TEZ相比我选择Spark，一来快，二来奇葩问题比较少

三种引擎如何切换引擎？

1)、配置mapreduce计算引擎

set hive.execution.engine=mr;

2)、配置tez计算引擎

set hive.execution.engine=tez;

3)、配置spark计算引擎

set hive.execution.engine=spark;

hive on spark配置集群模式

set hive.execution.engine=spark;

set spark.master=yarn-cluster;

set mapreduce.job.queuename=xxx;

分享到：

非结构化数据采集ETL必备-10种工具推荐 | 我的CSDN博客开通了

2023-06-13 18:45
浏览 1139
评论(0)
分类:开源软件
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论