Hive的底层执行流程

本篇内容主要讲解“Hive的底层执行流程”，感兴趣的朋友不妨来看看。本文介绍的方法操作简单快捷，实用性强。下面就让小编来带大家学习“Hive的底层执行流程”吧!我们以下面这个SQL为例整个编译过程分为六个阶段：
1.Antlr定义SQL的语法规则，完成SQL词法，语法解析，将SQL
转化为抽象语法树AST Tree
HiveLexerX，HiveParser分别是Antlr对SQL编译后自动生成的词法解析和语法解析类，在这两个类中进行复杂的解析。
例子中的AST tree为2.遍历AST Tree，抽象出查询的基本组成单元QueryBlock
AST Tree 仍然非常复杂，不够结构化，不方便直接翻译为 MapReduce 程序， AST
Tree 转化为 QueryBlock(QB)就是将 SQL 进一部抽象和结构化。
AST Tree 生成 QueryBlock 的过程是一个递归的过程，先序遍历 AST Tree ，遇到不
同的Token 节点(理解为特殊标记)，保存到相应的属性中，主要包含以下几个过程3.遍历QueryBlock，翻译为执行操作树OperatorTree
Hive 最终生成的 MapReduce 任务， Map 阶段和 Reduce 阶段均由 Operator Tree
组成。逻辑操作符，就是在 Map 阶段或者 Reduce 阶段完成单一特定的操作。
基本的操作符包括
TableScanOperator、SelectOperator、FilterOperator、JoinOperator、GroupByOperator、ReduceSinkOperator
QueryBlock 生成 Operator Tree 就是遍历上一个过程中生成的 QB 和 QBParseInfo
对象的保存
语法的属性，包含如下几个步骤：由于 Join/GroupBy/OrderBy 均需要在 Reduce 阶段完成，所以在生成相应操作的Operator 之前都会先生成一个 ReduceSinkOperator ，将字段组合并序列化为 Reduce Key/value,Partition Key
SQL例子翻译成OperatorTree4.Logical Optimizer进行OperatorTree变换，合并不必要的
使用ReduceSinkOperator，减少shuffle数据量。大部分逻辑层优化器通过变换 OperatorTree ，合并操作符，达到减少 MapReduce Job ，减少 shuffle 数据量的目的。
5.遍历OperatorTree，翻译为Task tree
OperatorTree 转化为 Task tree的过程分为下面几个阶段对输出表生成 MoveTask从 OperatorTree 的其中一个根节点向下深度优先遍历ReduceSinkOperator 标示 Map/Reduce 的界限，多个 Job 间的界限遍历其他根节点，遇过碰到 JoinOperator 合并 MapReduceTask生成 StatTask 更新元数据剪断 Map 与 Reduce 间的 Operator 的关系6.PhysicalOptimizer 对Task tree优化，生成最终的执行计划7、执行以上就是HiveSQL的底层执行流程我们在开发中，可以使用下面这个语句来打印SQL语句的相关运行信息注:我的版本是hive-1.1.0-cdh6.7.0，所以只可用三个可选属性，如果您版本比较高的话，可以去官网查阅对应属性
下面我对三种可选属性进行简单介绍EXTENDED：打印SQL解析成AST&Operator Tree最全面的信息AUTHORIZATION :打印SQL运行相关权限DEPENDENCY:打印SQL输入香港云主机表的相关信息到此，相信大家对“Hive的底层执行流程”有了更深的了解，不妨来实际操作一番吧！这里是开发云网站，更多相关内容可以进入相关频道进行查询，关注我们，继续学习！

相关推荐: C++怎么实现直方图中最大的矩形

这篇文章主要介绍“C++怎么实现直方图中最大的矩形”，在日常操作中，相信很多人在C++怎么实现直方图中最大的矩形问题上存在疑惑，小编查阅了各式资料，整理出简单好用的操作方法，希望对大家解答”C++怎么实现直方图中最大的矩形”的疑惑有所帮助！接下来，请跟着小编一…

免责声明：本站发布的图片视频文字，以转载和分享为主，文章观点不代表本站立场，本站不承担相关法律责任；如果涉及侵权请联系邮箱：360163164@qq.com举报，并提供相关证据，经查实将立刻删除涉嫌侵权内容。