`
tangzongyun
  • 浏览: 188177 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类
最新评论

如何成为建数据库索引的高手?

阅读更多

Copy别人的文章

 

今天来聊聊数据库里的索引,你知道的,网上这样的文章一抓一大把的, 基本都是从索引的原理说起,讲到索引的分类, 物理组织和存储形式,如何找到对应的记录,如何构建复杂的索引等等 ,如果我再写一篇这样的就没意思了,而且这些未必真的是大家(尤其是开发同学)关心的。所以我今天打算以一个不同的角度来讲下索引,而且针对B+tree索引,希望大家看了会有所帮助。

 

对于一个SQL,开发同学最关心的啥? 我觉得并不是这个SQL在数据库里面是如何执行的,而是这条SQL是否能尽快的返回结果,前面我们在讲连接池的时候提到过,在SQL的生命周期里,每一个环节都有足够的优化空间,但是我们有没有想过,SQL优化的本质是啥?终极目标又是啥?其实优化本质上就是减少SQL对资源的消耗和依赖,正如数据库优化的终极大招是Do nothing in database一样,SQL优化的终极目的也是Consume no resource。

 

资源有两个特性:首先资源是有限的,大家都抢着用就会有瓶颈的,所以SQL的瓶颈可能是由资源紧张产生的。其次资源是有代价的,并且代价各异,比如内存的时延100ns, SSD100us,SAS盘10ms,网络更高,那么访问CPU l1/l2/l3 cache的代价就比访问内存的要低,访问内存资源的代价要比访问硬盘资源的代价低,所以SQL的瓶颈也可能是访问了代价比较高的资源导致的。现代计算机体系下,机器上粗粒度的资源就那么几种,无非就是CPU,内存,硬盘,和网络。那么我们来看下SQL需要消耗哪些资源:比较、排序、SQL解析、函数或逻辑运算需要用到CPU;缓存数据访问,临时数据存放需要用到内存;冷数据读取,大数据量的排序和关联,数据写入落盘,需要访问硬盘;SQL请求交互,结果集返回需要网络资源。那么我们在数据库里面对SQL的优化思路,自然是减少SQL的解析,减少复杂的运算,减少数据处理的规模,减少对物理IO的依赖,减少服务器和客户端的网络交互, 那么如果解释清楚了索引如何能够帮助做到这几点,这篇文章的目的就达到了。

 

不过先不忙着解释这些,先让大家成为建索引的高手再说,哈哈,你没看错,成为索引高手就这么简单,三招速成,再多我也不会了,练完三招后上面这个问题也自然解释清楚了,好, 让我们拿下面的查询SQL来开始练招吧。

 

SELECT CNO, FNAME

FROM CUST

WHERE LNAME = :LNAME AND CITY = :CITY

ORDER BY FNAME

 

第一招就是构建一星索引,根据where后面等值的条件,或者范围的条件来构建索引,即index(LNAME,CITY) 。教科书上一般都说索引是为了能以最快的速度定位到想要的数据,即用空间来换时间,这当然没错,但是你有没有想过,快速定位了你想要的数据后,也就过滤掉了不必要的数据,所以一星索引的核心就是利用索引来尽可能的过滤不必要的数据,减少数据处理的规模,对于RDBMS来说是极为关键的,比如说CUST表有1000000行,CITY的过滤度是10%,LNAME的过滤度是0.1%,那么如果没有索引,你不得不把表里所有的一百万行数据都读出来,做处理,但是如果有了这个一星索引,需要处理的数据被极大的缩小了,只需要根据索引找到符合条件的索引叶子节点的范围,读取0.1%*10%*1000000=100rows就可以了,哪怕我们乐观的假定产生的都是逻辑IO, 而不是物理IO,单次的差别就已经很明显了,更别说是执行频率很高的时候了,我们线上很多烂SQL对DB造成了影响,一看机器逻辑读都好几百万了,基本上就可以定位是SQL索引缺失,或者不合理造成的。当理解了这个时候,你就一定不会产生一个误区,在硬件越好越好,时延越来越低的今天,是不是索引还有存在的必要。

 

第二招就是构建二星索引, 针对上面的case, 我们构建索引如下index(LNAME,CITY,FNAME),基本的想法就是利用索引的有序性,把消除ordby或者group by等需要排序的操作,因为大家都知道排序是非常消耗CPU资源的,大量的排序操作会把user cpu搞得很高,即使CPU吃得消,如果数据量比较大,需要排序的数据放不下内存的sort buffer,只能悲剧的和外存换进换出,性能下降的就不是一点两点了,这时候利用索引避免排序的优势就明显的体现出来了。

 

想必第三招你没学就已经会了,没错,第三招就是构建三星索引,即index(LNAME,CITY,FNAME,CNO), 跟之前的二星索引的差别在于, 在索引中额外添加了要查询的列CNO,这就是所谓的索引覆盖,即在索引的叶子节点就能够读到查询SQL所需要的所有信息,而不需要回原表去查询了,在目前内存如此充足的情况下,很多时候,除了root节点和branch结构,甚至整个索引都是可以被放入内存的,这样能大概率的避免,至少是减少物理IO。

 

也许你会说,这招式都是最理想的状态,现实的SQL千变万化,有各种奇葩的条件,有很多动态的SQL,有多表关联的SQL,肯定不能拿上面说的三脚猫的招数硬往上套, 没错,实际情况下确实要考虑这样那样的因素,我们也没办法构建所有的索引都是三星的,我们只能根据实际情况, 构建最佳的索引,而非理想的索引,但是万变不离其宗,理解了这三招的原理,就能够见招拆招了,无招胜有招了。比如各种奇葩的条件,那我们选择那些过滤性最好的, 比如动态的SQL,我们就抓住主干的那些SQL,比如两表关联(MySQL), 因为那就nest loop一种,那就用小表驱动大表,在关联字段各自尽可能的构建最优索引。 

 

我们前面也提到了,索引其实是一种权衡,是一种拿空间来换时间的艺术,所以极左或者极右都是不恰当的,创建过多的索引所带来的空间损耗 ,和对DML所产生的负担,在某些极端场景下,都不能被忽视, 对于DML性能损耗的优化,除了只创建必要的索引外,有些NOSQL实现了二级索引,但是索引是采用异步方式维护,不在一个事务里,这是通过牺牲强一致性来提高性能, 但是RDBMS还做不到,另外在innodb上,我们会推荐使用业务无关的自增字段来作为主键,提高顺序插入性能的同时,还能避免过多的索引分裂。对于空间成本上的优化,同样可以有些技巧,还是拿Innodb举例,我们推荐使用数字型主键,而不推荐使用大字段作为主键的重要原因在于,大字段主键会极大的增大二级索引所占用的空间,因为二级索引叶子节点包含指向的主键,另外在Oracle上,我们会定期rebuild index来节省索引所占用的空间。

 

同时B+tree索引,作为一种面向磁盘&SSD的数据结构,相对来说,查询和写入性能也是相对比较平衡的,读写的时间复杂度都在O(log2n),写入上因为采用的是update-in-place的方式 ,每次写入的时候需要先通过随机查找来找到要写入的位置,性能会不是那么好,当然你也可以选择类似lsm_tree这样的实现(包括OB自己实现的Btree),通过牺牲一定程度的读性能,来提高写的性能。未来会不会出现一种能更完美的数据结构,能够同时更高效的支持读取和写入,是一件比较值得期待的事情。

 

说了这么多, 总结一下,我认为那么在不考虑业务层面优化的前提假设下,索引是最有效的药方,其他的优化方式与之相比都只能是看成偏方了,而且B-tree作为普遍采用的数据结构,基本上是通用于多种关系型数据库的,记得我从Oracle转MySQL的时候,索引的运用基本上能平滑过渡,所以希望大家都能了解到这些索引知识, 对平时的工作中写出更好更合理的SQL会很有帮助。

 

分享到:
评论

相关推荐

    从零开始带你成为jvm实战高手.txt

    据我所知,目前行业里大部分的Java工程师对MySQL的了解和掌握程度,大致就停留在这么一个阶段:对MySQL可以建库建表建索引,然后就是执行增删改查去更新和查询里面的数据!所以我们看下面的图,很多Java工程师眼中的...

    Discuz! 3.1.2 商业版

    可以轻松承受比其他类似产品更多的贴子数量和在线人数,成为目前最高效快速的论坛产品之一.在实现同样功能的前提下,Discuz! 力争占用数据库资源最小,页面处理时间最短.在一台配置良好的 P4 级 UNIX 主机上, 100 万贴...

    购物商城系统源代码--036

    数据结构更经过精心的设计,从字段到表的分配、索引的构建、都经过缜密的考虑、相同数据量的购物系统,时代商城购物系统占用的数据库容量和其他类似产品相比要小,程序内核中查询遵循 ANSI SQL 规范。 模板体系 ...

    电动汽车充电站选址定容优化:基于MATLAB建模求解与成本最小化策略,电动汽车充电站选址定容优化:基于MATLAB的最优规划模型及初学者指南,电动汽车充电站的最优选址定容MATLAB程序 以规划期内充

    电动汽车充电站选址定容优化:基于MATLAB建模求解与成本最小化策略,电动汽车充电站选址定容优化:基于MATLAB的最优规划模型及初学者指南,电动汽车充电站的最优选址定容MATLAB程序 以规划期内充电站的总成本 (包括投资、运行和维护成本)和网损费用之和最小为目标,考虑了相关的约束条件,构造了电动汽车充电站最优规划的数学模型。 从34个位置中,选取7个充电站地址,进行选址优化 关键词:电动汽车;充电站;选址和定容 程序注释清晰,适合初学者学习 ,电动汽车; 充电站选址定容; MATLAB程序; 规划模型; 成本优化; 网损费用; 初学者学习; 程序注释清晰,基于MATLAB的电动汽车充电站选址定容优化程序:成本最小化与约束条件下的选址策略

    基于源荷双重不确定性的虚拟电厂日前鲁棒经济调度优化模型基于MATLAB+CPLEX仿真平台求解,基于源荷双重不确定性的虚拟电厂日前鲁棒优化经济调度策略,MATLAB代码:计及源-荷双重不确定性的电厂日

    基于源荷双重不确定性的虚拟电厂日前鲁棒经济调度优化模型基于MATLAB+CPLEX仿真平台求解,基于源荷双重不确定性的虚拟电厂日前鲁棒优化经济调度策略,MATLAB代码:计及源-荷双重不确定性的电厂日前鲁棒优化调度 关键词:电厂 微网调度 鲁棒调度 源荷不确定性 日前经济调度 参考文档:《含电动汽车和风电机组的发电厂竞价策略_杨甲甲》参考其鲁棒模型的化简求解部分,即附录中的鲁棒问题化简求解的全过程; 《Virtual power plant mid-term dispatch optimization》参考燃气轮机、储能部分模型 仿真平台:MATLAB+CPLEX 主要内容:代码主要做的是一个电厂或者微网单元的日前鲁棒经济调度的模型,考虑了光伏出力和负荷功率的双重不确定性,采用鲁棒优化法处理不确定性变量,构建了电厂鲁棒优化调度模型。 具体来看,不确定性考虑的是目标函数以及约束条件中均含有不确定变量,设置鲁棒系数可以调节多重不确定结果,化简的过程也很清晰,程序实现效果良好,一行一注释。 ,关键词:虚拟电厂; 鲁棒优化调度; 源荷不确定性; 日前经济调度; 微网调度; 光伏出力

    基于遗传算法的储能优化配置研究:成本模型分析与最优运行计划求解(含风光机组),基于遗传算法的储能优化配置:成本模型分析与最优运行计划求解(含风光机组),MATLAB代码:基于遗传算法的储能优化配置(可

    基于遗传算法的储能优化配置研究:成本模型分析与最优运行计划求解(含风光机组),基于遗传算法的储能优化配置:成本模型分析与最优运行计划求解(含风光机组),MATLAB代码:基于遗传算法的储能优化配置(可加入风光机组) 关键词:储能优化配置 遗传算法 储能充放电优化 参考文档:无明显参考文档,仅有几篇文献可以适当参考 仿真平台:MATLAB 平台采用遗传算法实现求解 优势:代码注释详实,适合参考学习,非目前烂大街的版本,程序非常精品,请仔细辨识 主要内容:建立了储能的成本模型,包含运行维护成本以及容量配置成本,然后以该成本函数最小为目标函数,经过遗传算法求解出其最优运行计划,并通过其运行计划最终确定储能容量配置的大小,求解采用的是遗传算法,求解效果极佳,具体可以看图 ,关键词:MATLAB代码;遗传算法;储能优化配置;储能充放电优化;成本模型;运行维护成本;容量配置成本;最优运行计划;求解效果。,基于遗传算法的储能优化配置MATLAB代码:精细优化与成本最小化研究

    设计模式- 观察者模式 Observer Pattern详解

    如本文所描述,设计模式经典实现、三种其他实现方式以及六个方向的问题优化的详细代码

    高性能DSP28335驱动的移相全桥同步整流技术:高效电源输出与轻量级结构设计,基于DSP28335的高效同步整流电源系统:移相全桥驱动,低损耗输出近94%效率,铝基板+平面变压器设计挑战与低成本方案

    高性能DSP28335驱动的移相全桥同步整流技术:高效电源输出与轻量级结构设计,基于DSP28335的高效同步整流电源系统:移相全桥驱动,低损耗输出近94%效率,铝基板+平面变压器设计挑战与低成本方案探索,自研DSP28335+移相全桥+纯程序实现同步整流。 目前在DSP固有损耗2W的情况下,输出120W效率接近94%。 就是铝基板+平面变压器玩起来太贵,不好做小批量,335现在也很贵。 基于035的低成本版本近期开始设计~~~ 数字电源demo,输入18-32V,输出12V15A,伍尔特电感+平面变压器+板上平面变压器辅助电源,隔离半桥驱动+隔离采样,用于技术交流和样机平台搭建。 采用上下叠板架构,上板为4层DSP控制板,下板为单层功率铝基板,散热极佳。 ,自研DSP28335; 移相全桥; 纯程序同步整流; 效率接近94%; 低成本版本设计; 数字电源demo; 上下叠板架构; DSP控制板; 散热。,自研DSP28335控制下的同步整流技术优化:效率接近94%的电源解决方案

    PPT模板 -星际郎中:守护星际生命.pptx

    PPT模板 -星际郎中:守护星际生命.pptx

    19考试真题最近的t41.txt

    19考试真题最近的t41.txt

    Xilinx ug476-7Series-Transceivers

    Xilinx公司推出的7系列FPGA中的GTX/GTH收发器是用于高速串行通信的收发器模块,能够实现数据的高速串行传输。本资料为Xilinx提供的用户手册ug476_7Series_Transceivers

    GearTrain 提供了灵活的推理框架, 支持视频、图片推理方式 基于 GearTrain 用户可像齿轮一样自由组合各种Pipeline,实现各种推理任务

    GearTrain 提供了灵活的推理框架, 支持视频、图片推理方式。基于 GearTrain 用户可像齿轮一样自由组合各种Pipeline,实现各种推理任务

    一个测试的网页布局,作为备份

    一个测试的网页布局,作为备份

    基于SSM+redis的awd对抗系统 .zip(毕设&课设&实训&大作业&竞赛&项目)

    项目工程资源经过严格测试运行并且功能上ok,可实现复现复刻,拿到资料包后可实现复现出一样的项目,本人系统开发经验充足(全栈全领域),有任何使用问题欢迎随时与我联系,我会抽时间努力为您解惑,提供帮助 【资源内容】:包含源码+工程文件+说明等。答辩评审平均分达到96分,放心下载使用!可实现复现;设计报告也可借鉴此项目;该资源内项目代码都经过测试运行,功能ok 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 【提供帮助】:有任何使用上的问题欢迎随时与我联系,抽时间努力解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 下载后请首先打开说明文件(如有);整理时不同项目所包含资源内容不同;项目工程可实现复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用,资源为网络商品(电子资料类)基于网络商品和电子资料商品的性质和特征不支持退款,质量优质,放心下载使用

    内蒙古自治区公共数据资源登记管理暂行办法.docx

    内蒙古自治区公共数据资源登记管理暂行办法.docx

    MATLAB下基于遗传算法的有序充放电优化策略:实现电动汽车充电费用最低与负荷峰谷平衡,基于遗传算法的电动汽车有序充放电优化策略:精英自适应混合算法实现负荷均衡与费用最小化,MATLAB代码:基于遗传

    MATLAB下基于遗传算法的有序充放电优化策略:实现电动汽车充电费用最低与负荷峰谷平衡,基于遗传算法的电动汽车有序充放电优化策略:精英自适应混合算法实现负荷均衡与费用最小化,MATLAB代码:基于遗传算法的电动汽车有序充放电优化 关键词:遗传算法 电动汽车 有序充电 优化调度 参考文档:《精英自适应混合遗传算法及其实现_江建》算法部分;电动汽车建模部分相关文档太多,自行搜索参考即可; 仿真平台:MATLAB 主要内容:代码主要做的是利用遗传算法对电动汽车有序充电进行优化;优化目标包括充电费用最低,充电时间达到要求(电动汽车充到足够的电)考虑电动汽车充电对电网负荷的影响,使负荷峰谷差最小。 分别利用传统、精英和变异遗传算法进行对比算法优劣,比较迭代结果,优化变量为起始充电时刻 ,关键词:MATLAB代码; 遗传算法; 电动汽车; 有序充电; 优化调度; 充电费用; 充电时间; 电网负荷; 精英自适应混合遗传算法; 迭代结果; 优化变量。,基于遗传算法的电动汽车有序充放电优化调度策略研究

    基于OpenCV的车牌识别系统的设计与实现.zip(毕设&课设&实训&大作业&竞赛&项目)

    项目工程资源经过严格测试运行并且功能上ok,可实现复现复刻,拿到资料包后可实现复现出一样的项目,本人系统开发经验充足(全栈全领域),有任何使用问题欢迎随时与我联系,我会抽时间努力为您解惑,提供帮助 【资源内容】:包含源码+工程文件+说明等。答辩评审平均分达到96分,放心下载使用!可实现复现;设计报告也可借鉴此项目;该资源内项目代码都经过测试运行,功能ok 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 【提供帮助】:有任何使用上的问题欢迎随时与我联系,抽时间努力解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 下载后请首先打开说明文件(如有);整理时不同项目所包含资源内容不同;项目工程可实现复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用,资源为网络商品(电子资料类)基于网络商品和电子资料商品的性质和特征不支持退款

    STM32开发:IIR带阻滤波器设计与实现,含巴特沃斯和切比雪夫滤波器MATLAB程序,STM32开发中IIR带阻滤波器的实现与巴特沃斯滤波器设计详解:附MATLAB程序,STM32开发 IIR带阻滤

    STM32开发:IIR带阻滤波器设计与实现,含巴特沃斯和切比雪夫滤波器MATLAB程序,STM32开发中IIR带阻滤波器的实现与巴特沃斯滤波器设计详解:附MATLAB程序,STM32开发 IIR带阻滤波器 STM32实现IIR无限冲击响应带阻滤波器设计,巴特沃斯滤波器,代码工整,自编代码,注释详细,赠送巴特沃斯和切比雪夫IIR带阻滤波器MATLAB程序 ,STM32开发; IIR带阻滤波器; 无限冲击响应; 巴特沃斯滤波器; 自编代码; 注释详细; MATLAB程序,STM32中IIR带阻滤波器设计与实现

    电商系统(包含手机端,前端,后端).zip(毕设&课设&实训&大作业&竞赛&项目)

    项目工程资源经过严格测试运行并且功能上ok,可实现复现复刻,拿到资料包后可实现复现出一样的项目,本人系统开发经验充足(全栈全领域),有任何使用问题欢迎随时与我联系,我会抽时间努力为您解惑,提供帮助 【资源内容】:包含源码+工程文件+说明等。答辩评审平均分达到96分,放心下载使用!可实现复现;设计报告也可借鉴此项目;该资源内项目代码都经过测试运行,功能ok 【项目价值】:可用在相关项目设计中,皆可应用在项目、毕业设计、课程设计、期末/期中/大作业、工程实训、大创等学科竞赛比赛、初期项目立项、学习/练手等方面,可借鉴此优质项目实现复刻,设计报告也可借鉴此项目,也可基于此项目来扩展开发出更多功能 【提供帮助】:有任何使用上的问题欢迎随时与我联系,抽时间努力解答解惑,提供帮助 【附带帮助】:若还需要相关开发工具、学习资料等,我会提供帮助,提供资料,鼓励学习进步 下载后请首先打开说明文件(如有);整理时不同项目所包含资源内容不同;项目工程可实现复现复刻,如果基础还行,也可在此程序基础上进行修改,以实现其它功能。供开源学习/技术交流/学习参考,勿用于商业用途。质量优质,放心下载使用,资源为网络商品(电子资料类)基于网络商品和电子资料商品的性质和特征不支持退款,质量优质,放心下载使用

Global site tag (gtag.js) - Google Analytics