问题
一个用户问题,数据从ECS迁移到RDS,相同的语句,查询性能下降了几十倍。而实际上RDS这个实例在内存上的配置与原来ECS上的实例相当。
本文简单说明这个case的原因及建议。
用户反馈性能变慢的语句为 (修改了真实表名和列名)
select count(1) from HR hr join H h on h.hid = hr.hid
join A e on e.aid = h.eid
join A t on t.aid = e.pid
join A c on c.aid = t.pid
join A p on p.aid = c.pid
left join U u on u.uid = hr.uId
left join E emp on emp.eid = hr.oid
where ( hr.s in (1,2,3,4) and hr.cn = 0 );
背景
MySQL执行语句过程中涉及到两大流程:优化器和执行器。其中优化器最主要的任务,是选择索引和在多表连接时选择连接顺序。在这个case中,join顺序的选择影响了执行性能。
确定join执行顺序就需要估算所有join操作的代价。默认配置下MySQL会估算所有可能的组合。
MySQL Tips: MySQL里限制一个查询的join表数目上限为61.
对于一个有61个表参与的join操作,理论上需要61!(阶乘)次的评估。当然这是最坏情况下,实际上减枝算法会让这个数字看起来稍微好一点,但是仍然很恐怖。
在多表join的场景下,为了避免优化器占用太多时间,MySQL提供了一个参数 optimizer_search_depth 来控制递归深度。
这个参数对算法的控制可以简单描述为:对于所有的排列,只取前当前join顺序的前optimizer_search_depth个表估算代价。举例来说,20张表的,假设optimizer_search_depth为4,那么评估次数为20*19*18*17,虽然也很大(因此我们特别不建议这么多表的join),比20!好多了。
于是optimizer_search_depth的选择就成了问题。
MySQL Tips: MySQL中optimizer_search_depth默认值为62.也就是说默认为全排列计算。
这样能够保证得到最优的执行计划,只是在有些场景下,决定执行计划的时间会远大于执行时间本身。
量化分析
在ECS上,是用户自己维护的MySQL,没有设置optimizer_search_depth,因此为默认的62.
在RDS上,我们的配置是4。
分析到这里大家能猜到原因是RDS配置的4导致没有得到最优的执行计划。
下图是optimizer_search_depth=4时的explain结果(隐藏了业务相关的表名、字段名)
下图是optimizer_search_depth=62是的场景,当然这个case的join表是8个,因此62和8在这里是等效的。
从图1可以看到,由于optimizer_search_depth=4,优化器认为自己选择了最优的join顺序(22039*1*1*1),优于(41360*1*1*1),而实际上后者才是全局最优。
有趣的是,在这个case里面如果多看一层,就能得到最有解,因为第一个join顺序的第五个表评估rows为82720。
这意味着,在这个case里面,设置为5与设置为62能得到相同的执行计划,当然设置为5时的优化器执行代价更小。这其实也就是提供optimizer_search_depth的本意:减少优化器执行时间,而且概率上还存在局部最优就是全局最优解的情况。
关于实践
可配置的参数提供灵活性的同时,也提出一个头疼的问题:应该设置为多少才合适。
实际上当用户执行一个多表join的时候,对这个语句的整体RT的期望值就不会高。因此可以先定义一个预期,比如优化器决策join顺序的时间不能超过500ms。
用户规格与cpu相关,因此这个只能是建议值。
用户实践
实际上更重要的是对于用户来说:
1) 当出现实例迁移后,多表join执行结果差异较大的时候,要考虑调整这个值。该参数是允许线程单独设置,因此对于应用层来说,每个连接应该都能得到一个较优的值。
2) 反过来,当设置为默认的optimizer_search_depth=62时,我们我们如何评估我们这个设置是否过大?
MySQL Tips:MySQL profiling 可以用于查看各执行环节的消耗时间。
如下是笔者构造的一个60个表join查询的查询,使用profiling查看执行环节消耗的过程。
set profiling=1;
set optimizer_search_depth=4;
explain select .......
show profile for query 2;
结果如图
继续执行
set optimizer_search_depth=40;
explain select .......
show profile for query 4;
图中标红部分显示了两次优化器的执行时间差异。
小结
1)根据机器配置估算一个可接受的时间,用于优化器选择join顺序。
2)用profiling确定是否设置了过大的optimizer_search_depth。
3)业务上优化,尽量不要使用超过10张表的多表join。
4)PS:不要相信银弹。MySQL文档说设置为0则表示能够自动选择
optimizer_search_depth的合理值,实际上代码上策略就是,如果join表数N<=7,则optimizer_search_depth=N+1,否则选N.
相关推荐
在进行SQL到Access SQL的转换过程中,一个重要的知识点是了解如何将SQL中的`CASE WHEN THEN`结构转换为Access中的等效表达式。在SQL中,`CASE WHEN THEN`是一种常用的条件表达式,用于根据不同的条件返回不同的值。...
一个登录账户可以对应多个数据库用户,但用户和登录账户不必同名。创建数据库用户时,对应的登录账户必须已经存在。 5. **固定服务器角色和数据库角色**:如`dbcreator`这样的固定服务器角色拥有创建数据库的权限,...
由于这两种数据库系统之间存在显著差异,因此在进行迁移时需要特别注意数据类型、对象定义、SQL语法等方面的转换。 ##### 1.2 范围 本文档主要覆盖以下方面: - 数据类型和特殊数据类型的转换。 - 表约束、序列号...
其中,从Oracle迁移到KingbaseESV8(以下简称KESV8)是一个典型场景。本篇文章将详细介绍这一迁移过程中的关键知识点和技术细节。 ##### 1.1 KingbaseES V8R6 产品介绍 **KingbaseES V8R6**是北京人大金仓信息技术...
### pg与oracle语法差异知识点详解 #### 一、空值处理 **PostgreSQL** 和 **Oracle** 在处理空值(`null`)方面存在显著差异: ...了解这些差异有助于开发者在跨数据库迁移项目中更加高效地工作。
总之,将Oracle数据库移植到SQL Server 7.0是一个涉及多个层面的复杂过程,包括系统配置、数据库对象定义、SQL语言转换、数据迁移以及性能优化。开发者需要对两个数据库系统有深入理解,并具备相应的编程和数据库...
1. **数据库版本控制**:应用需要维护一个数据库版本号,每当数据库结构发生改变时,该版本号应递增。 2. **兼容性处理**:在更新过程中,需要确保应用能够平滑地过渡至新版本数据库结构,而不会导致数据丢失或应用...
- EXP命令用于将数据从Oracle数据库导出到一个文件中。 - 支持全库导出、指定表导出等多种模式。 - **IMP导入** - IMP命令用于将之前使用EXP导出的数据文件导入到Oracle数据库中。 - 导入过程中可以指定各种...
Oracle数据库到Microsoft SQL Server的移植涉及到了两个主流RDBMS之间的转换,这需要考虑两者间的语法差异、数据类型兼容性、事务处理机制以及性能优化策略等。 2. 目标读者要求: 这篇文章的目标读者应具备Oracle...
- **版本选择**:为确保移植的成功,需要选择一个最新且稳定的DM数据库版本。同时要确保数据库客户端和服务器端的版本匹配,避免版本不兼容问题。 - **初始化库**:在初始化DM库时,需要设置合适的初始化参数,包括...
在DB2中,可以使用`POSITION`函数来找到一个字符串在另一个字符串中的位置,如:`SELECT POSITION('abc' IN 'abcdef') FROM dual;` ##### 3.8 类似DATEDIF计算两个日期的相差天数 要计算两个日期之间的差值,可以...
从 MySQL 迁移到 KingbaseES 是一个涉及多方面的复杂过程,但通过合理规划和采取正确的迁移策略,可以显著减少移植工作的难度。KingbaseES 通过提供一系列兼容性特性以及详细的迁移指南,帮助开发者顺利完成这一转换...
Oracle 10g是Oracle公司推出的数据库管理系统的一个重要版本,主要关注高性能、高可用性和安全性。这个官方文档集合包含了丰富的信息,对学习和掌握Oracle 10g的各个方面都极其有益。以下是根据提供的信息,对Oracle...
- 这一阶段涉及到SQL Server的安装、设置和配置,包括服务器角色的分配,确保在sysadmin组中的成员资格,以便拥有足够的权限进行数据库管理和迁移。 3. **定义数据库对象**: - 移植过程中,需要将Oracle的表、...
SQL Server 2005是微软公司推出的一款企业级的关系型数据库管理系统(RDBMS),它在数据存储、处理和管理方面提供了广泛的功能,适用于各种规模的企业应用。本教程将对SQL Server 2005的关键特性进行深入讲解,帮助...
**存储过程**是一种在数据库服务器上预先编译好的SQL程序块,它能够接受输入参数,并返回一个或多个结果集。使用存储过程可以提高应用程序性能、减少网络流量、增强安全性等。在本例中,我们利用存储过程来动态生成...
SAP HANA作为一款内存数据库产品,它的SQL方言与传统的SQL标准存在一些差异,这对于从其他数据库系统如ORACLE迁移而来的用户来说,可能需要一定的适应和学习。本手册着重于介绍HANA SQL的特性和用法,包括数据类型、...
1. SQL语句书写:文档中展示了一个SQL查询的例子,使用了case语句来对id字段的最后一位进行条件判断,根据数值区间将数据分组,并计算每个区间内的行数。这是SQL基本查询和条件语句的应用。 2. Oracle数据导出与...
10. **数据库升级与迁移**:如何从一个Oracle版本升级到另一个版本,或者将数据库迁移到新的硬件或云平台。 这些知识点构成了Oracle DBA的基本技能集,"上课源码"可能包含了实现这些功能的示例脚本,通过实践这些...
### Oracle SQL 与 MSSQL Server 7.0 迁移中的关键知识点 ...开发者需要深入理解两个数据库系统的差异,才能顺利完成迁移工作。此外,合理利用迁移工具和制定详尽的测试计划对于确保迁移的成功至关重要。