hive编译部分的源码结构 -

samuschen

浏览: 407545 次
性别:
来自: 北京

最近访客更多访客>>

dy.f

u012363178

谁谁谁

wangyy

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive编译部分的源码结构

博客分类：

hive

数据结构 Hadoop Mapreduce SQL XML

很少在博客里写翻译的东西, 这次例外. 原文在这儿 . 译文掺杂了些自己的表述。

解析器(Parser)

解析器由antlr生成, 文法定义在Hive.g文件中。它的功能是将查询字符串翻译成抽象语法树(Abstract Syntax Tree, 简称AST).

语法分析器(Semantic Analyzer)

语法分析器将AST转换成内部查询形式,此形式为查询块(Query Block), 而不是一棵操作符树(Opertator Tree). 它还验证查询语句中的列名, 符号"*" 等. 同时这一环节还进行类型检查, 隐式类型转换. 如果被查询的表是带分区(Partition)的表,则所有关于该表的表达式都将被收集起来,以备裁剪不必要的分区时使用；如果查询语句包含采样 (Sampling)操作，也会收集这些表达式.

逻辑计划生成器(Logic Plan Generator)

逻辑计划生成器将内部查询形式(即上文提到过的查询块)转换成逻辑计划。逻辑计划是一棵操作符树。其中部分操作符是关系代数操作符,例如 filter, join操作符。还有部分操作符是hive特有的操作符,它们将被翻译为mapreduce作业, 例如, reduceSink操作符。它出现在map与reduce的分界处。
此环节还包含优化器。优化器修改查询计划以提高查询的效率。例如: 把一系列join操作合并到一个join中; group by操作的map端聚合; 将group by分为两步，以防数据倾斜，造成某个reducer负担过重，成为瓶颈。
每个操作符，都包含一个描述符(descriptor)。描述符是可序列化的对象。

查询计划生成器(Query Plan Generator)

即数据库理论中的物理查询计划生成器。它将逻辑计划转换成一系列的map-reduce任务(见ql/exec/MapRedTask类)。具体操作是递归访问操作符树，将它们分成一系列序列化的map-reduce任务, 然后将任务提交给hadoop分布式系统。 reduceSink是map与reduce的分界线，它的描述符包含归约键(reduction keys), 归约键是mapper的输出键, 即也是reduce的输入键。如果查询中包含采样/分区, 则也会有相应的计划。计划被序列化到一个plan.[0-9]+文件里, 它是一个xml格式的文件。

Distinct的改造

SemanticAnalyzer.genGroupByPlanReduceSink() 方法根据GroupBy与distinct function信息组合成了redcueKeys,再将它放入reduceSinkDesc对象中(reduceSinkDesc.keyCols). 这个keyCols的类型是ArrayList<exprNodeDesc>,即表达式数组,其实它应该为一个 ArrayList<ArrayList<exprNodeDesc>> 或者HashMap<String, ArrayList<exprNodeDesc>>以支持多种key输出

reduceSinkDesc被ExecDriver序列化提交到hive.scratchdir目录下的plan.[0-9]+文件. hive.scratchdir一般在hive-site.xml中定义,是hive在hdfs上的一个存放临时文件的目录. ExecMapper与ExecReduce在configure的时候, 会读取这些plan.[0-9]+文件, 反序列化mapRedWork对象, 初始化各Operator等.

将ReduceSinkOperator.keyEval改成ExprNodeEvaluator[][]的二维数组以支持多个key输出

Map会以MapOperator为操作符树的根结点, Reduce一般以GroupByOperator为操作符树的根结点

分享到：

hadoop参数配置（mapreduce数据流） | hive执行作业时reduce任务个数设置为多少合 ...

2011-01-13 16:47
浏览 2627
评论(1)
分类:企业架构
查看更多

1 楼秦时明月黑 2013-09-21

深入浅出，楼主很有功底

发表评论

您还没有登录,请您登录后再发表评论

最近访客更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive编译部分的源码结构

解析器(Parser)

语法分析器(Semantic Analyzer)

逻辑计划生成器(Logic Plan Generator)

查询计划生成器(Query Plan Generator)

Distinct的改造

评论

发表评论

相关推荐

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive编译部分的源码结构

解析器(Parser)

语法分析器(Semantic Analyzer)

逻辑计划生成器(Logic Plan Generator)

查询计划生成器(Query Plan Generator)

Distinct的改造

评论

发表评论

相关推荐

hive serde

hive compile-1

hive 用mysql存储元信息

hive执行作业时reduce任务个数设置为多少合适？

hive 源码结构分析（编译器）

hive中关于partition的操作

hive mapjoin

Hive QL

hive数据模型

SequenceFile的压缩和分片

hive的一些资料整理

hive的存储格式

TPC-H on Hive

hive show table显示不出表的问题

hive运行实例

源码编译hive

hive报Invalid maximum heap size: -Xmx4096m错误解决方法

Hive Installation and Configuration

最近访客更多访客>>