leibnitz

浏览: 289637 次
性别:
来自: 广州

最近访客更多访客>>

eternal1025

bneliao

adapterofcoms

caipeijun666

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

spark-hive on spark

博客分类：

spark

总体设计

Hive on Spark总体的设计思路是，尽可能重用Hive逻辑层面的功能；从生成物理计划开始，提供一整套针对Spark的实现，比如SparkCompiler、SparkTask等，这样Hive的查询就可以作为Spark的任务来执行了。以下是几点主要的设计原则。

尽可能减少对Hive原有代码的修改。这是和之前的Shark设计思路最大的不同。Shark对Hive的改动太大以至于无法被Hive社区接受，Hive on Spark尽可能少改动Hive的代码，从而不影响Hive目前对MapReduce和Tez的支持。同时，Hive on Spark保证对现有的MapReduce和Tez模式在功能和性能方面不会有任何影响。
对于选择Spark的用户，应使其能够自动的获取Hive现有的和未来新增的功能。
尽可能降低维护成本，保持对Spark依赖的松耦合。

使用Hive原语

这里主要是指使用Hive的操作符对数据进行处理。Spark为RDD提供了一系列的转换（Transformation），其中有些转换也是面向SQL的，如groupByKey、join等。但如果使用这些转换（就如Shark所做的那样），就意味着我们要重新实现一些Hive已有的功能；而且当Hive增加新的功能时，我们需要相应地修改Hive on Spark模式。有鉴于此，我们选择将Hive的操作符包装为Function，然后应用到RDD上。这样，我们只需要依赖较少的几种RDD的转换，而主要的计算逻辑仍由Hive提供。

ref:

Intel李锐：Hive on Spark解析

http://www.aboutyun.com/thread-12334-1-1.html

分享到：

spark-storage/memory used in spark | spark-RDD vs DataFrame vs DataSet

2016-12-06 15:04
浏览 494
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark-hive on spark

Intel李锐：Hive on Spark解析

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

spark-hive on spark

Intel李锐：Hive on Spark解析

评论

发表评论

相关推荐

spark-broadcast in spark

spark-storage/memory used in spark

spark-RDD vs DataFrame vs DataSet

[spark-src-core] 8. trivial bug in spark standalone executor assignment

[spark-src-core] 7.1 application in spark-PageRank

[spark-src-core] 6. checkpoint in spark

[spark-src-core] 5.big data techniques in spark

[spark-src-core] 4.2 communications b/t certain kernal components

[spark-src-core] 3.3 run spark in standalone(cluster) mode

[spark-src-core] 3.2.run spark in standalone(client) mode

[spark-src-core] 3.run spark in cluster(local) mode

[spark-src-core] 2.5 core concepts in Spark

[spark-src-core] 2.4 communications b/t certain kernal components

[spark-src-core] 2.3 shuffle in spark

[spark-src-core] 2.2 job submitted flow for local mode-part II

[spark-src-core] 2.2 job submitted flow for local mode-part I

[spark-src-core] 2.1 relationships b/t misc spark shells

[spark-src] 1-overview

[spark-src]-source reading

spark stream-Spark Streaming：大规模流式数据处理的新贵

最近访客更多访客>>