转自:深入学习《Programing Hive》:Tuning
HiveQL是一种声明式语言,最终会被编译为MapReduce job提交到Hadoop执行。大多情况下,用户并不需要知道Hive是如何运作——只关注手头的业务处理问题就行了。虽然Hive引擎会在在 HiveQL语句编译过程中最许多的复杂的工作——查询解析、规划、优化和执行等复杂过程,但是用户大部分时间都可以无视这些过程。
然而,随着Hive的使用,用户会变得越来越有经验,这时候再深入了解和学习Hive理论后的底层实现细节,用户写的HiveQL语句会更高效,特别是在改写HiveQL时做过更多的性能调优之后。
本节我们会学习一些性能调优的手段。
优化Jion连接
Streamtable
在做在对多个表Jion连接操作时,将小表放在Jion的左边,大表放在Jion的右边,在执行这样的Jion连接时小表中的数据会被缓存到内存当中,这样可以有效减少发生内存溢出错误的几率:
hive> SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) WHERE c.val >= b.val AND a.val = 'test' AND b.val = 20130520
对于上面的HiveQL示例,会先执行ON条件筛选,再连接,然会才会执行WHERE过滤条件,ON后的筛选条件主要是针对从表,对 主表不起作用,因为是外关联,主表数据都会输出,对于主表的筛选条件应该放在where后面,如果觉得主表不需要关联的数据太多,可以使用子查询,先过滤 主表中无用数据:
Hive> SELECT a.val,b.val FROM a JION ( SELECT c.val FROM c WHERE c.key = 'test' > ) b ON(a.key = b.key1) > WHERE b.val = 20130520;
由于join操作是在where操作之前执行,所以当你在执行join时,where条件并不能起到减少join数据的作用,如:
hive> SELECT a.val, b.val FROM a LEFT OUTER JOIN b ON (a.key=b.key) >WHERE a.ds='2009-07-07' AND b.ds='2009-07-07'
可以改为:
hive> SELECT a.val, b.val FROM a LEFT OUTER JOIN b > ON (a.key=b.key AND b.ds='2009-07-07' AND a.ds='2009-07-07')
在JION操作的每一个MapReduce程序中,Hive都会把出现在JION语句中相对靠后的表的数据stream化,相对靠前的变的数据缓存在内存中,这种情况下最好将大表放在JION的右边
(表中数据a < b < c):
hive> SELECT a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1);
当然您也可以不将大表放在JION的右边,这是就需要指定使用/*+ STREAMTABLE(..) */:
hive> SELECT /*+ STREAMTABLE(b) */ a.val, b.val, c.val FROM a JOIN b > ON (a.key = b.key1) JOIN c ON (c.key = b.key1)
另外如果所有参与join的表中其参与join的key都相同,则会将所有的join合并到一个mapred程序中。
Mapjion
Mapjion是是另外一种特殊JION连接操作,它强调在Map端做JION操作:
hive> SELECT /*+ MAPJION(a,b) */ a.val, b.val, c.val FROM a JOIN b ON (a.key = b.key1) JOIN c ON (c.key = b.key1) WHERE c.val >= b.val AND a.val = 'test' AND b.val = 20130520
默认情况下Hive是不会在MapJION操作的,用户需要使用/* + MAPJION(tablelist) */关键字来告知Hive编译器来做Map端的连接。 MAPJION会把小表全部读入内存中,在map阶段直接拿另外一个表的数据和内存中表数据做匹配,由于在map是进行了join操作,省去了reduce运行的效率也会高很多。
Mapjion是一种避免避免数据倾斜的手段,比如对a表和b表做jion连接操作,其中a中只有很少的上千行或百十行数据,而b中却又上千万或上亿行的数据,而且B表中数据倾斜特别严重,这时候制定对a表示用Mapjion,这样就不会由于数据倾斜导致某个reduce上落数据太多而失败。
不同的JION连接操作是不支持不等于操作的(如a.x < b.y 或者 a.x like b.y等),Hive语法解析会直接抛出错误。Mapjoin还有一个很大的好处是能够进行不等连接的join操作,如果将不等条件写在WHERE中,那么MapReduce过程中会进行笛卡尔积,运行效率特低,若使Mapjoin操作,在Mapper处理过程中就可以完成了不等值的join操作,效率会高很多:
hive> select /*+ MAPJION(a) */ a.a ,a.b from a join b where a.a>b.a;
Mapjoin 的限制是无法执行全连接(FULL JION)和右外连接(RIGHT OUTER JOIN)。
并行执行(Parallel Execution)
Hive引擎会将一个HiveQL查询语句分解成几个执行阶段(stages)(可以通过EXPLAIN HiveQL看出),默认情况下,Hive会一次执行一个阶段(stage),有时候一个包含多个执行阶段(stages)的HiveQL的stages 之间并没有前后执行的依赖顺序,这种情况下将这些stages并行执行是一个很好的选择,可以带来更好的性能。
将hive.exec.parallel参数设置为true就会激活并行执行的功能,如果一个HiveQL作业可以并行的执行其多个stages,这就会提升集群的利用率:
<property> <name>hive.exec.parallel</name> <value>true</value> <description>Whether to execute jobs in parallel</description> </property>
本地模式(Local Mode)
在处理大的数据集时,Hadoop作业可以从hadoop的全扩展可以带来很大的优势,然而有时候要处理的数据集会很小,在这种场景中,对小数据集的查询 激活本机模式是一个不错的选择,这可以相当程度上的避免一些不必要的性能开销。可以在$HIVE_HOME/conf/hive.site.xml中将hive.exec.mode.local.auto参数设置为true由Hive对HiveQL作业自动设置执行模式:
<property> <name>hive.exec.mode.local.auto</name> <value>true</value> <description> Let hive determine whether to run in local mode automatically </description> </property>
JVM重用(JVM Reuse)
JVM重用是Hadoop的一个性能调整的参数,它也会对Hive产生非常大的影响,特别是在很那避免处理大量小文件的场景中,每一个task执行方式景 都很短,要知道默认新情况下每处理一个task都要启动一个JVM进程,JVM进程是一个重量级的进程,这就需要大量的资源的开销,这种情况下使用JVM 重用可以大量减少这些不必要的JVM的初始化和销毁的开销,大大缩短总的执行时间。
这个参数可以再$HADOOP_HOME/conf/mapred-site.xml中设置:
<property> <name>mapred.job.reuse.jvm.num.tasks</name> <value>10</value> <description> How many tasks to run per jvm.if set to -1,there is no limit. </description> </property>
JVM重用必须是针对一个MapReduce作业的同一种task任务的,同一个作业的不同类的task是不能重用JVM的。mapred.job.reuse.jvm.num.tasks为-1表明不限制JVM重用的次数。
推测式执行(Speculative Execution)
推测式执行时Hadoop的一个重要的功能,其目的是大大加快hadoop作业的整体执行时间。推测式执行的细节这里不再赘述。这个功能需要设置mapred-site.xml中的两个参数来激活这一功能:
<property> <name>mapred.map.tasks.speculative.execution</name> <value>true</value> <description>If true,the multiple instances of some map tasks may be executed in parallel. </description> </property> <property> <name>mapred.reduce.tasks.speculative.execution</name> <value>true</value> <description>If true,the multiple instances of some reduce tasks may be executed in parallel. </description> </property>
Hive提供了一个参数来控制reduce端的并行执行:
<property> <name>hive.mapred.reduce.tasks.speculative.execution</name> <value>true</value> <description> Whether speculative execution for reducers should be turned on. </description> </property>
索引(Indexes)
索引可以加快GROUP BY查询语句的执行速度。
Hive从0.80开始,提供了一个Bitmap位图索引,它主要适用于在一个给定的列中只有几个值的场景。详情见HiveQL索引。
严格模式(Strict Mode)
Hive中的严格模式可以防止用户发出(可以有问题)的查询无意中造成不良的影响。
将hive.mapred.mode设置成strict可以禁止三种类型的查询:
1)、在一个分区表上,如果没有在WHERE条件中指明具体的分区,那么这是不允许的,换句话说,不允许在分区表上全表扫描。这种限制的原因是分区表通常会持非常大的数据集并且可能数据增长迅速,对这样的一个大表做全表扫描会消耗大量资源,结果示例如下:
hive> SELECT DISTINCT(planner_id) FROM fracture_ins WHERE planner_id = 5; FAILED: Error in semantic analysis: No Partition Predicate Found For Alias "francture_ins" Table "francture_ins"
必要再WHERE过滤条件中具体指明分区才可以执行成功的查询:
hive> SELECT DISTINCT(planner_id) FROM fracture_ins > WHERE planner_id = 5 AND hit_date=20121212;
2)、第二种是禁止执行有ORDER BY的排序要求但没有LIMIT语句的HiveQL查询。因为ORDER BY全局查询会导致有一个单一的reducer对所有的查询结果排序,如果对大数据集做排序,这将导致不可预期的执行时间:
hive> SELECT * FROM fracture_ins WHERE hit_date>2012 ORDER BY planner_id; FAILED: Error in semantic analysis: line 1:56 In strict mode, limit must be specified if ORDER BY is present planner_id
应该给上面的HiveQL语句加上LIMIT限制:
hive> SELECT * FROM fracture_ins WHERE hit_date>2012 ORDER BY planner_id LITMIT 1000;
3)、第三种是禁止产生笛卡尔集。在JION接连查询中没有ON连接key而通过WHERE条件语句会产生笛卡尔集:
hive> SELECT * FROM fracture_act JION fracture_ads > WHERE fracture_act.planner_id = fracture_ads.planner_id; FAILED: Error semantic analysis: In strict mode,cartesian product is not allowed.If you really want to perform the operation, +set hive.mapred.mode=nonstrict+
将之改为JION...ON语句:
hive> SELECT * FROM fracture_act JION fracture_ads > ON(fracture_act.planner_id = fracture_ads.planner_id);
相关推荐
python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。
基于Java中的Swing类开发的图形化飞机游戏练习包,为初学者和进阶学习者提供了实践Java GUI编程的绝佳机会。通过本资源,开发者可以利用Java语言和Swing库构建一个用户交互式的2D游戏,深入理解图形用户界面(GUI)编程和事件处理机制。该游戏的核心包括玩家飞机的控制、敌机的生成与移动、子弹发射与碰撞检测以及游戏胜负判定等逻辑。玩家通过鼠标移动控制己方飞机,实现平滑的移动和连续的子弹发射;而敌方飞机则按照一定算法无规律出现,随着游戏进程难度逐渐增加。游戏中还引入了特殊NPC,增加了额外的挑战和乐趣。为了提高游戏体验,游戏还包含了开始背景、结束背景以及背景音乐等元素。当玩家击毁敌机时,会有相应的得分计算和展示;若被敌机击中,则游戏结束并显示最终得分。此外,游戏还提供了查看历史前十记录、帮助和退出等选项,方便玩家进行游戏设置和了解游戏玩法。本资源适用于计算机科学与技术、软件工程、信息管理及相关专业的课程设计、毕业设计等环节,为学生提供实践操作的机会,帮助他们巩固Java编程知识,提高动手能力和发散思维。同时,也为希望学习不同技术领域的学习者提供了一个优秀的入门项目。
SQLite:SQLite数据库创建与管理
Spring Security 默认是账号和密码登录,现在是对 Spring Security 进行扩展,来实现短信验证码方式登录。 SpringBoot 集成 Spring Security短信验证码登录【完整源码+数据库】
本资源是一个Java小游戏项目,由我和我的朋友在去年共同开发。这个项目不仅包含了完整的游戏代码,还有详细的设计文档和UML图,适合作为学习和参考的素材。游戏的界面设计简洁明了,玩法有趣且富有挑战性,能够让玩家在游戏中体验到乐趣。在readme文件中,你可以找到游戏的具体界面展示,让你对游戏的外观有一个直观的了解。而design.pdf中则包含了游戏的UML图,详细展示了游戏的设计结构和各个模块之间的关系,对于理解游戏的整体架构非常有帮助。这个Java小游戏项目是一个非常好的学习资源,无论是对于初学者还是有一定经验的开发者来说,都可以通过这个项目来提升自己的编程技能和游戏设计能力。通过阅读代码和设计文档,你可以了解到如何构建一个功能完整的游戏,并且可以根据自己的需要进行修改和扩展。总之,这个Java小游戏项目是一个值得学习和探索的资源,希望对你有所帮助!
python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。
python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。
本资源是一个基于Java实现的黄金矿工小游戏项目,旨在帮助初学者通过实践巩固Java编程知识。游戏包含多个功能模块,如窗口绘制、图片绘制、红线摇摆及抓取判定等,并采用双缓存技术解决画面闪动问题。此外,还实现了金块和石块的随机生成与抓取机制、积分设置、关卡设置以及商店购物等功能。本项目适合刚入门或有一定基础的Java学习者,通过完成这个项目,可以提升面向对象编程的理解和应用能力,同时增强对Java基础知识的掌握。
本压缩包资源说明,你现在往下拉可以看到压缩包内容目录 我是批量上传的基于SpringBoot+Vue的项目,所以描述都一样;有源码有数据库脚本,系统都是测试过可运行的,看文件名即可区分项目~ |Java|SpringBoot|Vue|前后端分离| 开发语言:Java 框架:SpringBoot,Vue JDK版本:JDK1.8 数据库:MySQL 5.7+(推荐5.7,8.0也可以) 数据库工具:Navicat 开发软件: idea/eclipse(推荐idea) Maven包:Maven3.3.9+ 系统环境:Windows/Mac
网络直播带货查询系统 SSM毕业设计 附带论文 启动教程:https://www.bilibili.com/video/BV1GK1iYyE2B
python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。
python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。
Teradata:TeradataSQL语言入门.docx
winlibs-x86-64-win32-seh-gcc-14.2.0-llvm-19.1.3-mingw-w64.zip
python whl离线安装包 pip安装失败可以尝试使用whl离线安装包安装 第一步 下载whl文件,注意需要与python版本配套 python版本号、32位64位、arm或amd64均有区别 第二步 使用pip install XXXXX.whl 命令安装,如果whl路径不在cmd窗口当前目录下,需要带上路径 WHL文件是以Wheel格式保存的Python安装包, Wheel是Python发行版的标准内置包格式。 在本质上是一个压缩包,WHL文件中包含了Python安装的py文件和元数据,以及经过编译的pyd文件, 这样就使得它可以在不具备编译环境的条件下,安装适合自己python版本的库文件。 如果要查看WHL文件的内容,可以把.whl后缀名改成.zip,使用解压软件(如WinRAR、WinZIP)解压打开即可查看。 为什么会用到whl文件来安装python库文件呢? 在python的使用过程中,我们免不了要经常通过pip来安装自己所需要的包, 大部分的包基本都能正常安装,但是总会遇到有那么一些包因为各种各样的问题导致安装不了的。 这时我们就可以通过尝试去Python安装包大全中(whl包下载)下载whl包来安装解决问题。
管理员用户: 1.管理员详情: 1.1查看个人信息; 1.2添加新的管理员;管理员的详细信息2.学生详情: 2.1 添加学生;学号,密码(与学号一样),姓名,性别,班级,联系电话,身份证号 2.2 查询所有学生;要有一个筛选的地方可以筛选学号,姓名,性别,班级,评论,(筛选的地方后面做一个查询的按钮); 下面做一个查询的页面,展示学号,姓名,性别,班级,密码,身份证号,成绩,后添加一个按钮(操作,可以删除该条学生记录,可以修改学生信息); 3.课程功能; 3.1 添加课程; 3.2 查询课程; 4.老师功能; 4.1添加老师; 4.2查询所有老师; 老师用户; 1.个人信息;2.打分功能; 做一个筛选(根据班级筛选,根据成绩排序)可以看到选了自己的课的学生信息, 3.任课信息; 3.学生功能; 1.查看个人信息 2.选课,展示跟自己专业相关课程的所有信息,最后做一个操作按钮 选课,也可以取消选课; 3.查看选课信息及成绩, 可以看到课程所有信息,和任课老师的姓名,电话, 以及打的平时成绩,考试成绩,最终成绩。。
程序开始运行后要求用户输入密码,密码正确时字符串显示控件显示 “欢迎进入”, 否则显示字符串“密码错误”,同时退出程序。
本资源提供了使用java实现的简单飞机大战游戏,是一款经典的2D射击游戏。玩家在游戏中控制一架飞机,通过键盘操作移动和发射子弹,击落敌机获得积分。当达到一定积分时,会出现Boss,增加游戏难度。游戏还包含碰撞检测、得分系统以及游戏状态管理等功能。该资源旨在帮助学习者掌握Java编程的各个方面,包括面向对象设计、图形界面编程等。通过这个项目,学习者可以深入理解如何使用Java语言实现一个具备基本功能的小游戏,并学会如何处理游戏中的交互、碰撞检测和动画效果等技术细节。本资源适合Java编程初学者及对游戏开发感兴趣的开发者学习和参考,是提升编程技能和项目经验的绝佳实践材料。
本资源是一款基于Java多线程开发的小游戏,旨在通过实战项目帮助学习者深入理解多线程编程的概念和应用。游戏中涉及多个并发任务,如角色移动、碰撞检测和动画更新等,每个任务都由独立的线程处理,以实现更流畅的游戏体验。游戏设计简洁但不失趣味性,包括一个主窗体、游戏面板以及控制面板。玩家可以通过控制面板选择角色并开始游戏,角色将在游戏面板中进行奔跑或其他活动。游戏过程中,各线程协同工作,确保游戏的实时响应和高效运行。此外,该资源还提供了详细的代码注释和文档说明,方便学习者理解每一部分的功能和实现方式。通过本项目的学习,不仅可以掌握Java多线程编程的基本技能,还能提升对游戏开发流程的理解。本资源完全基于学习和研究目的,请勿用于商业用途。
【作品名称】:17年国赛,基于 python 实现的图像识别(彩图找黑点和绿点,单纯找黑点,优先绿点后黑点) 【适用人群】:适用于希望学习不同技术领域的小白或进阶学习者。可作为毕设项目、课程设计、大作业、工程实训或初期项目立项。 【项目介绍】: 17年国赛,基于 python 实现的图像识别(彩图找黑点和绿点,单纯找黑点,优先绿点后黑点) 17年国赛,基于 python 实现的图像识别(彩图找黑点和绿点,单纯找黑点,优先绿点后黑点) 17年国赛,基于 python 实现的图像识别(彩图找黑点和绿点,单纯找黑点,优先绿点后黑点) 检测黑点与绿点 色块检测 【资源声明】:本资源作为“参考资料”而不是“定制需求”,代码只能作为参考,不能完全复制照搬。需要有一定的基础看懂代码,自行调试代码并解决报错,能自行添加功能修改代码。