hive原理(未完。。) -

Yinny

浏览: 298469 次
性别:
来自: 杭州

最近访客更多访客>>

lzdjavaeye

wang_eye

claram

xushaomin1122

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

hive原理(未完。。)

博客分类：

框架学习
hadoop

hive

hive就是一个将hiveql(其实是sql的子集或者说一点点的超集)语句转化为一系列可以在Hadoop集群上运行的MR的工具，通常在客户端执行 hive 命令（淘宝有ide，所以不用安装hive啦

）然后输入 SQL 语句后， hive 将 SQL 语句生成多个 MR 的 job ，然后将这些 job 提交给 hadoop 进行执行，完成后，再把结果放入到 hdfs 或者本地的临时文件中。
如下图

以下图片摘自淘宝周忱《hive原理》的技术文档

解释器、编译器、优化器完成 HQL 查询语句从词法分析、语法分析、编译、优化以及查询计划的生成。生成的查询计划存储在 HDFS 中，并在随后有 MapReduce 调用执行。
Hive 的数据存储在 HDFS 中，大部分的查询由 MapReduce 完成（包含 * 的查询，比如 select * from tbl 不会生成 MapRedcue 任务）。

一条sql语句的结构：
一条sql主要包括，insert子句，select子句，from子句，groupby子句，以及其他的条件子句，如limit，orderby等，还有join和union等操作符。其中的from子句，一般可以直接跟一个表，多个表（笛卡尔积等同于join），或者一个子查询，或者由join或union连接的两个表，或者两个子查询。包含子查询则意味着sql语句自身会包含这一些递归的操作。

hive对一条sql执行的过程：
一条sql语句（以查询sql为例）的目的最终是将一个表或者若干个表中的所有行数据，一条一条的进行处理，最终生成一组目标记录。为了实现这样的目的，首先将处理过程分解为若干个算子，将初始的表数据记录依次通过这些算子来计算，最终得出结果。
例如：select a from tbl where b>1 order by c，对于这条sql，首先需要一个ts（table scan）算子，从表中读出数据，然后读出的数据经过一个fil（filter）算子，过滤那些不满足条件b>1的数据，最后经过一个fetch算子，将正确的数据返回。对于任意复杂的sql语句都可以生成这样的算子树进行处理。
hive的原理还是比较复杂，一点点学习中，一口吃不成胖子

。。。

查看图片附件

分享到：

learning hive by wiki | 搜索切换dump之MapReduce讲解

2013-01-06 22:46
浏览 2020
评论(1)
分类:企业架构
查看更多

1 楼秦时明月黑 2014-09-01

你是做大数据开发还是java研发

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

大数据实战第一部分（未完待续）: 在大数据实战第一部分中，我们将探索大数据处理的关键概念和技术，这些技术在当今信息化社会中扮演着至关重要的角色。...通过这个未完待续的大数据实战项目，你将深入理解大数据处理的全貌，并获得宝贵的实践经验。

污水处理厂3D渲染工艺图及其数字化应用: 内容概要：本文详细介绍了污水处理厂的3D渲染高清工艺图，展示了从预处理到生化处理等多个工艺段的设备细节。不仅提供了视觉上的逼真效果，还深入探讨了背后的数字技术支持，如Python代码用于管理设备参数、Houdini的粒子系统模拟鸟类飞行以及Three.js实现实时交互展示。此外，文中通过实际案例（如老张的需求）展现了这些技术的实际应用场景。适合人群：从事污水处理工程设计、投标工作的工程师和技术人员，对3D渲染和数字化工具有兴趣的相关从业者。使用场景及目标：①为投标文件提供高质量的视觉材料；②利用代码实现设备参数的动态调整，满足不同工况下的展示需求；③通过Web端进行实时互动展示，增强项目沟通效果。其他说明：随着技术的发展，传统工程行业也开始融入更多数字化元素，如虚拟现实(VR)巡检等新兴手段的应用前景广阔。

毕业论文-周边优惠卡券5.9.2小程序+前端-整站商业源码.zip: 毕业论文-周边优惠卡券5.9.2小程序+前端-整站商业源码.zip

毕业论文-芸众圈子社区V1.7.8 开源版-整站商业源码.zip: 毕业论文-芸众圈子社区V1.7.8 开源版-整站商业源码.zip

毕业设计-erphpdown9.82美化版-整站商业源码.zip: 毕业设计-erphpdown9.82美化版-整站商业源码.zip

毕业设计-java安卓原生影视APP源码-整站商业源码.zip: 毕业设计-java安卓原生影视APP源码-整站商业源码.zip

风光储交直流微电网孤岛Vf控制技术研究与应用: 内容概要：本文详细介绍了风光储交直流微电网模型及其孤岛Vf（电压和频率）控制策略。首先阐述了风光储交直流微电网作为新型分布式能源系统的重要性和组成要素，包括风力发电、光伏发电、储能系统和交直流负荷。接着讨论了孤岛模式下微电网的Vf控制策略，强调了检测孤岛状态并及时切换到Vf控制模式的重要性。文中还具体分析了如何设定合理的电压和频率参考值，协调各能源系统的运行，以确保微电网在孤岛模式下的稳定供电。最后指出，完善微电网模型和有效实施孤岛Vf控制策略对促进可再生能源发展和能源结构调整有重大意义。适用人群：从事新能源研究、微电网设计与运维的技术人员，以及关注可再生能源发展的科研工作者。使用场景及目标：适用于希望深入了解风光储交直流微电网及其孤岛控制机制的专业人士，旨在提升微电网的稳定性和可靠性，推动智能电网建设。其他说明：本文不仅提供了理论分析，还涉及实际应用场景和技术细节，有助于读者全面掌握相关技术和最新进展。

实训商业源码-美容美发营销版小程序 V1.8.4-论文模板.zip: 实训商业源码-美容美发营销版小程序 V1.8.4-论文模板.zip

风光储并网协同运行模型及其双闭环控制策略MATLAB仿真: 内容概要：本文详细介绍了风光储并网协同运行模型及其双闭环控制策略，并探讨了单极调制技术在Matlab Simulink中的应用。首先阐述了风光储并网的重要性，指出风能和太阳能虽然具有无限的能源潜力和环保优势，但也存在间歇性和不稳定性的问题。接着介绍了一个整合风力发电、光伏发电和储能系统的协同运行模型，强调每个组件的精密协调与控制，以确保并网的效率和稳定性。然后解释了双闭环控制策略的作用机制，即内环对电流或电压进行快速响应控制，外环调节系统的能量平衡和输出，从而确保风电和光电的稳定输出及储能系统的合理充放电。此外，还讨论了单极调制技术的应用，它有助于优化能源转换和传输，减少能量损失，提高整体效率。最后，展示了如何使用Matlab Simulink进行仿真测试，以验证这些技术和方法的有效性。适合人群：从事新能源领域的研究人员和技术人员，尤其是那些关注风能、太阳能和储能系统集成的人士。使用场景及目标：适用于希望深入了解风光储并网系统的设计、控制和仿真的专业人士。目标是在实际项目中应用这些理论和技术，构建高效的风光储并网系统。其他说明：随着技术的发展，风光储并网系统有望在未来提供更多绿色能源，解决传统能源带来的环境问题。

毕业论文-摇周边营销V2.8.0-整站商业源码.zip: 毕业论文-摇周边营销V2.8.0-整站商业源码.zip

2025年度小学手绘风格开学季班会模板.pptx: 2025年度小学手绘风格开学季班会模板

单相三电平NPC逆变器：载波层叠下SVPWM与SPWM调制技术的应用与对比: 内容概要：本文详细介绍了单相三电平NPC逆变器的工作原理和技术特点，重点探讨了载波层叠技术以及两种主要的调制方法——SVPWM（空间矢量脉宽调制）和SPWM（正弦脉宽调制）。文中解释了这两种调制方式的基本概念、实现机制及其各自的优点和局限性，并提供了部分伪代码示例帮助理解。此外，还讨论了不同应用场景下如何选择最合适的调制策略以满足特定的需求。适合人群：从事电力电子研究的技术人员、高校相关专业师生及对逆变器技术感兴趣的工程爱好者。使用场景及目标：为理解和设计单相三电平NPC逆变器提供理论依据和技术指导，特别是在需要优化输出电压质量、降低谐波失真的情况下。其他说明：文章不仅从理论上阐述了各种技术手段的作用机理，同时也给出了简单的代码片段辅助读者更好地掌握实际操作流程。

无刷直流电机BLDC无位置传感器控制及MATLAB Simulink仿真研究: 内容概要：本文详细探讨了无刷直流电机（BLDC）在无位置传感器控制下的启动特性和突加负载响应。文章首先介绍了启动阶段的大电流高转矩特性，展示了启动过程中电流尖峰现象及其原因。接着讨论了反电势观测器的设计与实现，特别是滑模观测器的应用，用于估算转子位置。此外，还深入讲解了速度环PI控制器的参数设置，确保系统在突加负载时能够快速恢复并保持稳定运行。最后提到了相位补偿的重要性以及其实现方法。适合人群：对无刷直流电机控制系统感兴趣的工程师和技术人员，尤其是那些希望深入了解无位置传感器控制技术和MATLAB Simulink仿真的专业人士。使用场景及目标：适用于需要优化BLDC电机性能的研究项目或工业应用，旨在提高系统的可靠性和效率，特别是在启动和负载变化的情况下。其他说明：文中提供了具体的MATLAB代码片段，帮助读者更好地理解和实现相关算法。同时提醒了一些常见的陷阱和注意事项，有助于避免实际操作中的错误。

毕业论文-在线考试系统源码学生教师用-整站商业源码.zip: 毕业论文-在线考试系统源码学生教师用-整站商业源码.zip

轨道车辆转向架3D建模与构架强度仿真分析——CRH380B、CW-200及209HS型转向架关键技术解析: 内容概要：本文介绍了CRH380B、CW-200及209HS型轨道车辆客车转向架的关键技术和3D建模方法。主要内容涵盖转向架的装配体3D图及其关键零部件如轮轴系统、构架、制动闸片、空气弹簧和减震器的介绍。文中还展示了利用SolidWorks软件进行转向架3D建模的具体步骤，包括轮轴系统的草图绘制和构架的拉伸特征创建。此外，文章强调了构架结构强度仿真分析的重要性，并指出部分模型为简化版本，旨在帮助读者快速理解和掌握转向架的基本结构和原理。适合人群：对轨道交通工程感兴趣的技术爱好者、学生以及从事相关领域的工程师。使用场景及目标：适用于希望深入了解轨道车辆转向架设计和仿真的技术人员，目标是提高他们对转向架的理解并为其后续的设计优化提供理论支持。其他说明：文中提供的代码片段仅为示例，实际建模过程中需要考虑更多细节和参数配置。同时，简化后的3D图有助于初学者快速入门，但并不适合作为精确制造的依据。

毕业设计-婚庆摄影wordpress企业主题-整站商业源码.zip: 毕业设计-婚庆摄影wordpress企业主题-整站商业源码.zip

实训商业源码-聚合客服 22.7.0 PC端插件 4.9.0-论文模板.zip: 实训商业源码-聚合客服 22.7.0 PC端插件 4.9.0-论文模板.zip

三相并网逆变器PQ控制与SVPWM技术：750V直流侧电压下的波形优化与参数开发: 内容概要：本文详细介绍了三相并网逆变器采用PQ控制和SVPWM技术进行波形优化和参数开发的过程。文中探讨了PQ控制对有功功率和无功功率的精确管理，以及SVPWM在优化开关序列、减少谐波分量方面的优势。针对750V直流侧电压、220V交流侧电压和20kHz开关频率的具体参数，作者通过仿真和实验设计，成功实现了10e3kW有功功率的控制，并确保了良好的波形质量。此外，文章还讨论了两电平和三电平拓扑的选择及其应用场景，强调了三电平拓扑在高电压和大功率应用中的优越性。适合人群：从事电力电子、逆变器设计和控制策略研究的专业人士和技术爱好者。使用场景及目标：适用于需要深入了解三相并网逆变器控制技术和调制方法的研发人员，帮助他们掌握PQ控制和SVPWM算法的实际应用技巧，提升逆变器性能和效率。其他说明：文章还展望了未来的研究方向，如引入更先进的控制策略和调制技术，以及逆变器在可再生能源并网和微电网中的应用前景。

毕业设计-多商家营销活动平台2.0.0 小程序前端+后端-整站商业源码.zip: 毕业设计-多商家营销活动平台2.0.0 小程序前端+后端-整站商业源码.zip

毕业设计-表白墙网站源码带后台管理-整站商业源码.zip: 毕业设计-表白墙网站源码带后台管理-整站商业源码.zip

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论

hive原理(未完。。)

评论

发表评论

相关推荐

jetty启动以及嵌入式启动

iBATIS 对 SQL 语句的解析过程

hive的join操作

记录下执行MapReduce的过程

搜索切换dump之MapReduce讲解

开启mapReduce

WEBX学习总结

Webx之表单验证

最近访客更多访客>>