写在前面的话:
——MySQL 的子查询为什么有时候很糟糕——
引子:这样的子查询为什么这么慢?
下面的例子是一个慢查,线上执行时间相当夸张。为什么呢?
SELECT gid,COUNT(id) as count
FROM shop_goods g1
WHERE status =0 and gid IN (
SELECT gid FROM shop_goods g2 WHERE sid IN (1519066,1466114,1466110,1466102,1466071,1453929)
)
GROUP BY gid;
它的执行计划如下,请注意看关键词“DEPENDENT SUBQUERY”:
id select_type table type possible_keys key key_len ref rows Extra
------ ------------------ ------ -------------- -------------------------------------- ------------ ------- ------ ------ -----------
1 PRIMARY g1 index (NULL) idx_gid 5 (NULL) 850672 Using where
2 DEPENDENT SUBQUERY g2 index_subquery id_shop_goods,idx_sid,idx_gid idx_gid 5 func 1 Using where
基础知识:Dependent Subquery意味着什么
官方含义为:
SUBQUERY:子查询中的第一个SELECT;
DEPENDENT SUBQUERY:子查询中的第一个SELECT,取决于外面的查询 。
换句话说,就是 子查询对 g2 的查询方式依赖于外层 g1 的查询。
什么意思呢?它意味着两步:
第一步,MySQL 根据 select gid,count(id) from shop_goods where status=0 group by gid; 得到一个大结果集 t1,其数据量就是上图中的 rows=850672 了。
第二步,上面的大结果集 t1 中的每一条记录,都将与子查询 SQL 组成新的查询语句:select gid from shop_goods where sid in (15...blabla..29) and gid=%t1.gid%。等于说,子查询要执行85万次……即使这两步查询都用到了索引,但不慢才怪。
如此一来,子查询的执行效率居然受制于外层查询的记录数,那还不如拆成两个独立查询顺序执行呢。
优化策略1:
你不想拆成两个独立查询的话,也可以与临时表联表查询,如下所示:
SELECT g1.gid,count(1)
FROM shop_goods g1,(select gid from shop_goods WHERE sid in (1519066,1466114,1466110,1466102,1466071,1453929)) g2
where g1.status=0 and g1.gid=g2.gid
GROUP BY g1.gid;
也能得到同样的结果,且是毫秒级。
它的执行计划为:
id select_type table type possible_keys key key_len ref rows Extra
------ ----------- -------------- ------ ------------------------- ------------- ------- ----------- ------ -------------------------------
1 PRIMARY <derived2> ALL (NULL) (NULL) (NULL) (NULL) 30 Using temporary; Using filesort
1 PRIMARY g1 ref idx_gid idx_gid 5 g2.gid 1 Using where
2 DERIVED shop_goods range id_shop_goods,idx_sid id_shop_goods 5 (NULL) 30 Using where; Using index
DERIVED 的官方含义为:
DERIVED:用于 from 子句里有子查询的情况。MySQL 会递归执行这些子查询,把结果放在临时表里。
DBA观点引用:MySQL 子查询的弱点
hidba 论述道(参考资源3):
mysql 在处理子查询时,会改写子查询。
通常情况下,我们希望由内到外,先完成子查询的结果,然后再用子查询来驱动外查询的表,完成查询。
例如:
select * from test where tid in(select fk_tid from sub_test where gid=10)
通常我们会感性地认为该 sql 的执行顺序是:
sub_test 表中根据 gid 取得 fk_tid(2,3,4,5,6)记录,
然后再到 test 中,带入 tid=2,3,4,5,6,取得查询数据。
但是实际mysql的处理方式为:
select * from test where exists (
select * from sub_test where gid=10 and sub_test.fk_tid=test.tid
)
mysql 将会扫描 test 中所有数据,每条数据都将会传到子查询中与 sub_test 关联,子查询不会先被执行,所以如果 test 表很大的话,那么性能上将会出现问题。
《高性能MySQL》一书的观点引用
《高性能MySQL》的第4.4节“MySQL查询优化器的限制(Limitations of the MySQL Query Optimizer)”之第4.4.1小节“关联子查询(Correlated Subqueries)”也有类似的论述:
MySQL有时优化子查询很糟,特别是在WHERE从句中的IN()子查询。……
比如在sakila数据库sakila.film表中找出所有的film,这些film的actoress包括Penelope Guiness(actor_id = 1)。可以这样写:
mysql> SELECT * FROM sakila.film
-> WHERE film_id IN(
-> SELECT film_id FROM sakila.film_actor WHERE actor_id = 1);
mysql> EXPLAIN SELECT * FROM sakila.film ...;
+----+--------------------+------------+--------+------------------------+
| id | select_type | table | type | possible_keys |
+----+--------------------+------------+--------+------------------------+
| 1 | PRIMARY | film | ALL | NULL |
| 2 | DEPENDENT SUBQUERY | film_actor | eq_ref | PRIMARY,idx_fk_film_id |
+----+--------------------+------------+--------+------------------------+
根据EXPLAIN的输出,MySQL将全表扫描film表,对找到的每行执行子查询,这是很不好的性能。幸运的是,很容易改写为一个join查询:
mysql> SELECT film.* FROM sakila.film
-> INNER JOIN sakila.film_actor USING(film_id)
-> WHERE actor_id = 1;
另外一个方法是通过使用GROUP_CONCAT()执行子查询作为一个单独的查询,手工产生IN()列表。有时候比join还快。(注:你不妨在我们的库上试试看 SELECT goods_id,GROUP_CONCAT(cast(id as char))
FROM bee_shop_goods
WHERE shop_id IN (1519066,1466114,1466110,1466102,1466071,1453929)
GROUP BY goods_id;)
MySQL已经因为这种特定类型的子查询执行计划而被批评。
何时子查询是好的
MySQL并不总是把子查询优化得很糟。有时候还是很优化的。下面是个例子:
mysql> EXPLAIN SELECT film_id, language_id FROM sakila.film
-> WHERE NOT EXISTS(
-> SELECT * FROM sakila.film_actor
-> WHERE film_actor.film_id = film.film_id
-> )G
……(注:具体文字还是请阅读《高性能MySQL》吧)
是的,子查询并不是总是被优化得很糟糕,具体问题具体分析,但别忘了 explain 。
参考资源:
1,2011,wudongxu,mysql子查询(in)的实现;
2,2012,iteye,MySQL子查询很慢的问题;
3,2011,hidba,mysql子查询的弱点 和 生产库中遇到mysql的子查询;
慢查系列:
[慢查优化]建索引时注意字段选择性 & 范围查询注意组合索引的字段顺序
[慢查优化]联表查询注意谁是驱动表 & 你搞不清楚谁join谁更好时请放手让mysql自行判定
赠图几枚:
-over-
相关推荐
### MySQL 子查询与连表查询的效率比较及优化 #### 一、子查询与连表查询概述 在SQL查询语言中,子查询与连表查询是两种非常重要的查询技术,广泛应用于各种复杂的业务场景中。为了更好地理解这两种查询方式的特点...
- **DEPENDENT SUBQUERY**:依赖于外部查询的子查询。 - **DERIVED**:来自FROM子句的子查询。 - **table**:表示查询涉及的表名。 - **type**:表示表的连接类型。连接类型从最优到最差依次为: - **system**...
- **DEPENDENT SUBQUERY**:依赖于外层查询的子查询的第一个SELECT语句。 - **DERIVED**:FROM子句中的子查询。 - **table**:表示查询的表。 - **type**:表的连接类型。 - **system**:表仅有一行记录,一般...
- DEPENDENT SUBQUERY: 依赖外部查询的子查询。 3. **table**: 显示涉及的表名。 4. **type**: 表示MySQL访问表的方式,常见的类型有: - ALL: 全表扫描,效率最低。 - index: 按照索引顺序遍历。 - range: 对...
在MySQL 4.1及更高版本中,`EXPLAIN`的输出增加了`id`和`select_type`这两列,提供了更详细的信息,尤其是对于处理复杂的查询结构如子查询和UNION操作更有帮助。 总的来说,熟练掌握`EXPLAIN`的使用对于优化SQL查询...
- **DEPENDENT SUBQUERY**:依赖于外部查询的子查询中的第一个SELECT语句。 - **DERIVED**:用于FROM子句中的子查询。 - **table**:表示查询所涉及的表。 - **type**:表示表的连接类型,这是最重要的字段之一,...
- **DEPENDENT SUBQUERY**:子查询中的第一条 SELECT 语句,其结果依赖于外部查询。 - **DERIVED**:FROM 子句中的派生表查询。 - **table**:表示查询所涉及的表名。 - **type**:表示表的连接类型,不同的连接...
- **DEPENDENT SUBQUERY**:依赖于外部查询的子查询中的第一个SELECT语句。 - **DERIVED**:用于FROM子句的子查询。 - **table**:表示查询涉及的表名。 - **type**(重要):表示表的连接类型,按性能优劣排序...
### 从Mysql-EXPLAIN探寻数据库查询优化 在数据库管理与优化领域,MySQL的`EXPLAIN`命令是一项非常强大的工具,它可以帮助我们深入了解MySQL如何执行SQL查询,并据此进行优化,提高查询性能。本文将围绕MySQL中的`...
- dependent subquery: 依赖于外部查询的子查询。 - derived: 子查询生成的临时表。 - materialized: 物化子查询,子查询的结果被存储为临时表。 - uncacheable subquery: 不能被缓存,每次都需要重新评估的子...
MySQL查询优化是数据库管理的关键部分,特别是在处理大量数据时,高效的查询可以显著提升系统的性能。EXPLAIN关键字在MySQL中扮演着重要角色,它允许我们理解SQL查询的执行过程,识别潜在的性能瓶颈,并据此进行优化...
- `dependent subquery`:子查询中的第一个子查询,依赖于外部子查询。 - `derived`:FROM子句中的子查询(派生表)。 4. **查询类型**:根据查询效率排序,从快到慢有: - `system`:仅有一行记录的表,查询...
- **DEPENDENT SUBQUERY**:子查询中的第一个 `SELECT` 查询,依赖于外部查询的结果集。 - **DERIVED**:用于 `FROM` 子句中有子查询的情况,MySQL 会递归执行这些子查询,并将结果放置在临时表中。 - **...
- **dependent subquery**:依赖于外层查询的子查询。 - **derived**:派生表查询。 - **table**:列出查询中涉及的表名。 - **type**:连接类型,从最好到最坏依次为: - **system**:表只有一行记录,等同于 ...
主要包括SIMPLE(简单的SELECT查询)、PRIMARY(包含子查询的外部查询)、SUBQUERY(子查询)、DEPENDENT SUBQUERY(依赖外部查询结果的子查询)等。 通过以上详细介绍,我们可以看出索引和执行计划对于提高MySQL...
优化子查询可以从以下几个方面入手: 1. **避免子查询的延迟执行**:如果可能,尝试将子查询转化为JOIN操作,MySQL在处理JOIN时往往有更好的优化策略。 2. **使用临时表**:在大型数据集上,将子查询结果存入临时表...
MySQL中的`EXPLAIN`命令是用于分析SQL查询执行计划的重要工具,它可以帮助数据库管理员和开发者了解MySQL如何处理SQL语句,从而进行性能优化。在深入理解`EXPLAIN`之前,我们先来了解一下数据库优化的基本概念。 ...
### MySQL参数详解与EXPLAIN查询优化 #### 一、引言 MySQL作为一款广泛使用的开源关系型数据库管理系统,在数据管理领域扮演着极其重要的角色。为了更高效地利用MySQL,掌握其内部工作原理以及如何通过调整配置参数...