`
boin
  • 浏览: 34800 次
社区版块
存档分类
最新评论

在MySQL中如何为连接添加索引[转]

阅读更多
我先通过一个简单的例子说明在MySQL中如何为连接添加索引,然后再看一个有挑战性的例子。


简单的3个表的连接


表结构很简单,3个表tblA, tblB, tblC,每个表有3个字段:col1, col2, col3。
在没有索引的情况下连接3个表


   SELECT
      *
   FROM
      tblA,
      tblB,
      tblC
   WHERE
          tblA.col1 = tblB.col1
      AND tblA.col2 = tblC.col1;


explain的结果如下:

   +-------+------+---------------+------+---------+------+------+-------------+
   | table | type | possible_keys | key  | key_len | ref  | rows | Extra       |
   +-------+------+---------------+------+---------+------+------+-------------+
   | tblA  | ALL  | NULL          | NULL |    NULL | NULL | 1000 |             |
   | tblB  | ALL  | NULL          | NULL |    NULL | NULL | 1000 | Using where |
   | tblC  | ALL  | NULL          | NULL |    NULL | NULL | 1000 | Using where |
   +-------+------+---------------+------+---------+------+------+-------------+



最后,在MySQL的手册中(7.2.1):
表以它们在处理查询过程中将被MySQL读入的顺序被列出。MySQL用一遍扫描多次联接(single-sweep multi-join)的方式解决所有联接。这意味着MySQL从第一个表中读一行,然后找到在第二个表中的一个匹配行,然后在第3个表中等等。当所有的表处理完后,它输出选中的列并且返回表清单直到找到一个有更多的匹配行的表。从该表读入下一行并继续处理下一个表。
如手册所说的,MySQL读第一个表(tnlA),然后第二个(tblB),然后第三个(tblC),像explain中输出的一样。先前的表中的值用来查找当前表中的行。在我们的例子中,tblA中的值用来找tblB中的匹配行,然后tblB的值来找tblC的行。当一个完整的扫描结束(在表tblA,tblB,tblC中找到了结果),MySQL不会返回tblA,它到tblB中查看是否有更多的行匹配当前tblA的值。如果有,它拿出这一行,然后再在tblC中找匹配的。记住 MySQL连接的基本原则是很重要的:先前的表中的值用来查找当前表中的行。


按原理建索引

知道了MySQL使用从tblA中得到的值查找tblB中的行,我们需要怎么建索引来帮助MySQL?为此我们要知道它需要什么。考虑连接tblA和 tblB:它们通过“tblA.col1 = tblB.col1”来连接。我们已经有了tblA.col1的值,所以MySQL需要一个tblB.col1的值来完成等值操作。因此如果MySQL需要tblB.col1,我们就在tblB.col1上加索引。加了之后,这是新的explain结果:


+-------+------+---------------+----------+---------+-----------+------+-------------+
| table | type | possible_keys | key      | key_len | ref       | rows | Extra       |
+-------+------+---------------+----------+---------+-----------+------+-------------+
| tblA  | ALL  | NULL          | NULL     |    NULL | NULL      | 1000 |             |
| tblB  | ref  | ndx_col1      | ndx_col1 |       5 | tblA.col1 |    1 | Using where |
| tblC  | ALL  | NULL          | NULL     |    NULL | NULL      | 1000 | Using where |
+-------+------+---------------+----------+---------+-----------+------+-------------+


如上,MySQL现在使用ndx_col1索引来连接tblB到tblA。就是说,当MySQL要找tblB中的行时,使用了ndx_col1索引通过 tblA.col1的值直接得到匹配的行,而不是像以前需要做表扫描。这就是为什么tblB的ref列说“tablA.col1”。tblC现在还是用表扫描,这可以通过同样的方法解决。查看MySQL的需求:从sql中连接两表的语句“tblA.col2 = tblC.col1”可以看出它需要tblC.col1因为我们已经有了tblA.col2。给这一列加上索引之后explain:


+-------+------+---------------+----------+---------+-----------+------+-------------+
| table | type | possible_keys | key      | key_len | ref       | rows | Extra       |
+-------+------+---------------+----------+---------+-----------+------+-------------+
| tblA  | ALL  | NULL          | NULL     |    NULL | NULL      | 1000 |             |
| tblB  | ref  | ndx_col1      | ndx_col1 |       5 | tblA.col1 |    1 | Using where |
| tblC  | ref  | ndx_col1      | ndx_col1 |       5 | tblA.col2 |    1 | Using where |
+-------+------+---------------+----------+---------+-----------+------+-------------+



更复杂的查询


在实际中不会遇到刚才那种sql。所以你可能更想看看这样的:


   SELECT
      COUNT(tblB.a_id) as correct,
      tblA.type,
      tblA.se_type
   FROM
      tblA,
      tblB,
      tblC,
      tblD
   WHERE
          tblA.ex_id = tblC.ex_id
      AND tblC.st_ex_id = tblB.st_ex_id
      AND tblB.q_num = tblA.q_num
      AND tblB.se_num = tblA.se_num
      AND tblD.ex_id = tblA.ex_id
      AND tblD.exp <> tblB.se_num
      AND tblB.ans = tblA.ans
      AND tblA.ex_id = 1001
      AND tblC.r_id = 542
   GROUP BY
      tblA.type,
      tblA.se_type;


乍一看是很复杂的:有4个表,有聚合函数,有9个where条件,还有一个group by。explain的伟大之处在于我们现在可以忽略这些,每次只看两个表,判断每一步MySQL需要什么。这是一个实际的查询,只是字段名有一些改动。explain的结果:


  
+-------+--------+---------------+---------+---------+---------------+-------+----------------------------------------------+
| table | type   | possible_keys | key     | key_len | ref           | rows  | Extra                                        |
+-------+--------+---------------+---------+---------+---------------+-------+----------------------------------------------+
| tblA  | ALL    | NULL          | NULL    |    NULL | NULL          |  1080 | Using where; Using temporary; Using filesort |
| tblB  | ALL    | NULL          | NULL    |    NULL | NULL          | 87189 | Using where                                  |
| tblC  | eq_ref | PRIMARY       | PRIMARY |       4 | tblB.st_ex_id |     1 | Using where                                  |
| tblD  | eq_ref | PRIMARY       | PRIMARY |       4 | tblA.ex_id    |     1 | Using where                                  |
+-------+--------+---------------+---------+---------+---------------+-------+----------------------------------------------+


判断连接影响的主要看结果集。结果集就是查询的结果。对于连接,一个估计结果集大小的方法是把MySQL预测的读取每个表的行数相乘。作为估计,这样做比较偏向于坏的情况,因为where条件通常会减少很多的行数。但这个查询的结果集有9400万行。这就是没有索引连接很危险的原因;几千行乘几千行你就会有一个上百万的结果集了。
那么现在这个查询需要什么?从tblA和tblB开始。在sql中:


AND tblB.q_num = tblA.q_num
AND tblB.se_num = tblA.se_num
AND tblB.ans = tblA.ans


MySQL 至少需要q_num, se_num, ans中的一个。我选择在se_num和q_num上加索引因为在几乎所有其他的查询中我都会需要它们。折中是优化的一部分,多数人没有时间去为每一个查询找最优的索引方案,只能是找到一个对于大多数情况而言最优的方案。在tblB上加索引(se_num, q_num),explain的结果:


  
+-------+--------+---------------+-------------+---------+------------------------+------+----------------------------------------------+
| table | type   | possible_keys | key         | key_len | ref                    | rows | Extra                                        |
+-------+--------+---------------+-------------+---------+------------------------+------+----------------------------------------------+
| tblA  | ALL    | NULL          | NULL        |    NULL | NULL                   | 1080 | Using where; Using temporary; Using filesort |
| tblB  | ref    | ndx_secn_qn   | ndx_secn_qn |       2 | tblA.se_num,tblA.q_num |  641 | Using where                                  |
| tblC  | eq_ref | PRIMARY       | PRIMARY     |       4 | tblB.st_ex_id          |    1 | Using where                                  |
| tblD  | eq_ref | PRIMARY       | PRIMARY     |       4 | tblA.ex_id             |    1 | Using where                                  |
+-------+--------+---------------+-------------+---------+------------------------+------+----------------------------------------------+


现在结果集下降了99.3%变为692280行。但为什么要停在这里?我们可以很容易的解决tblA的表扫描。因为它是第一个表,我们并不需要为连接加索引,这在tblB上已经做过了。一般来说,给第一个表加索引可以把它当成只在这一个表上查询的情况。在这个例子中很幸运,tblA是:"AND tblA.ex_id = 1001"。我们只需要加ex_id索引:


  
+-------+--------+---------------+-------------+---------+------------------------+------+----------------------------------------------+
| table | type   | possible_keys | key         | key_len | ref                    | rows | Extra                                        |
+-------+--------+---------------+-------------+---------+------------------------+------+----------------------------------------------+
| tblA  | ref    | ndx_ex_id     | ndx_ex_id   |       4 | const                  |    1 | Using where; Using temporary; Using filesort |
| tblB  | ref    | ndx_secn_qn   | ndx_secn_qn |       2 | tblA.se_num,tblA.q_num |  641 | Using where                                  |
| tblC  | eq_ref | PRIMARY       | PRIMARY     |       4 | tblB.st_ex_id          |    1 | Using where                                  |
| tblD  | eq_ref | PRIMARY       | PRIMARY     |       4 | tblA.ex_id             |    1 | Using where                                  |
+-------+--------+---------------+-------------+---------+------------------------+------+----------------------------------------------+


现在结果集是641行。相比开始的9400万,可以说了下降了100%。如果继续研究这个查询我们还可以去掉temp table和filesort,但现在查询已经很快了,也已经说明了如何为连接加索引。尽管最初看这个查询很麻烦,但可以看到只要每次独立的看两张表,为 MySQL的需求加索引,整个过程并不困难。


结论

为复杂的连接加索引要认识到两件事:

1. 不管sql多复杂,每次只看explain中的两个表

2. 先前表中的值已经有了,我们的工作就是通过索引帮助MySQL在当前表中使用这些值来找到匹配行
分享到:
评论

相关推荐

    mysql 索引与执行计划

    索引(Index)在MySQL中是一种帮助数据库高效获取数据的数据结构。它类似于现实生活中书籍的目录,能够显著提高数据检索的速度。通过索引,数据库可以更快地定位到所需的数据记录,从而减少查询时间。 例如,在查找...

    MySQL数据库:使用NAVICAT工具创建和管理索引.pptx

    对于已经存在的表,可以使用NAVICAT的“对象”菜单或右键快捷菜单来添加索引。首先,打开目标表,选择“设计表”,在设计视图中,你可以点击“索引/主键”标签,然后点击“新建索引”按钮。在这里,你可以定义索引...

    查看mySQL数据库索引

    - `seq_in_index`: 在多列索引中,该列的位置序号。 - `collation`: 列在索引中的排序方式。 - `cardinality`: 索引中不同值的数量估计。 - `sub_part`: 如果索引列是部分索引,则表示部分长度。 - `packed`: 索引的...

    dolphinscheduler安装包和mysql的jdbc连接jar包

    在这里,`mysql-connector-java-5.1.47-bin.jar`可以被添加到DolphinScheduler的类路径中,以便系统能够连接到MySQL数据库,存储和检索任务调度的相关信息。 在集成DolphinScheduler和MySQL的过程中,你需要完成...

    pgsql数据库转mysql数据库步骤及注意.docx

    可以根据报错的内容,手动地在 MySQL 数据库中进行添加或修改。 Step 5: 使用 MySQL 数据库连接工具打开转后的 MySQL 数据库 使用 MySQL 数据库连接工具打开转后的 MySQL 数据库,例如 SQLyog,可以导出库的 SQL ...

    mysql连接jar包

    当开发者在Java项目中使用MySQL数据库时,必须添加MySQL的JDBC驱动(即MySQL Connector/J)作为项目的依赖。 MySQL Connector/J是MySQL官方提供的Java数据库连接器,它实现了JDBC API,使得Java程序能够与MySQL...

    SAP Data Services如何链接MYSQL

    需要注意的是,在连接 MYSQL 数据库时,需要确保 MYSQL 服务已经启动,并且已经创建了相应的数据库和表结构。同时,需要确保 SAP Data Services 的版本是否支持 MYSQL 数据库的连接。 此外,在连接 MYSQL 数据库时...

    Navicat客户端sqlserver表结构转到mysql数据库中操作文档

    例如,SQL Server的`datetime`在MySQL中可能是`datetime`或`timestamp`,视具体需求而定。 3. **创建MySQL的表结构**: 保存编辑后的DDL脚本,然后打开MySQL的连接。在“对象浏览器”中,找到你希望创建新表的...

    VS连接mysql数据库工具

    安装完成后,我们可以通过以下步骤在VS中建立MySQL连接: 1. **创建新的数据连接**:在VS的“服务器资源管理器”中,右键点击“数据连接”,选择“添加连接”。在弹出的“添加连接”对话框中,选择“MySQL Data ...

    跟益达学Solr5之增量索引MySQL数据库表数据

    5. **处理增量数据**: 当Solr接收到增量数据后,它会将这些数据转化为适合索引的格式,然后添加到索引中。对于更新和删除操作,需要特别处理,确保索引中的数据与数据库保持一致。 6. **监控和优化**: 为了确保系统...

    mysql 索引失效详解

    添加索引的语法为:`ALTER TABLE 表名 ADD 索引类型 索引名称 (列名)`。例如,添加一个名为 `idx_height` 的索引在 `test1` 表的 `height` 列上: ``` ALTER TABLE test1 ADD INDEX idx_height (height); ``` 索引...

    mysql-常见问题,索引优化

    MySQL数据库在日常使用中会遇到各种问题,其中索引优化是提升数据库性能的关键环节。本文将探讨MySQL的一些常见问题,特别是与索引相关的优化策略。 1. 关于MySQL `count(distinct)` 的逻辑bug 在执行`count...

    使用MySQL作为SOLR的索引源

    1. **配置SOLR核心**:在SOLR的`solrconfig.xml`配置文件中,启用DIH,并添加相应的DataConfig标签,指定数据源类型为JDBC(Java Database Connectivity)。 2. **配置数据源连接**:在`data-config.xml`文件中,...

    java实体转mysql建表语句

    在Java开发中,将Java实体类转换为MySQL数据库的建表语句是一项常见的任务,它有助于快速构建数据库模型,尤其在使用ORM(对象关系映射)框架如Hibernate、MyBatis时更为便捷。本篇文章将深入探讨这个过程,并提供...

    用LUCENE连击MYSQL建立索引并搜索的JAVA代码。

    在这个场景中,我们讨论的是如何结合Lucene和MySQL来实现一个Java应用程序,该程序能够从MySQL数据库中提取数据,创建索引,并进行高效的搜索。 首先,我们需要理解Lucene的工作原理。Lucene通过分析文本,将文档...

    MySQL连接工具.zip

    为了方便用户管理和操作MySQL数据库,出现了各种MySQL连接工具,本压缩包提供的“MySQL连接工具”就是这样一款实用的应用。 首先,MySQL连接工具的主要功能包括: 1. **数据库连接**:它允许用户通过输入服务器...

    MYSQL数据库的索引、视图、触发器、游标和存储过程

    - 通过`ALTER TABLE`语句添加索引。 **示例:** ```sql CREATE INDEX index_name ON tbl_name (index_col_name); ``` **查看和删除索引:** - 使用`SHOW INDEX FROM 表名;`查看索引。 - 使用`DROP INDEX 索引名 ON...

    用Sphinx搭建MySQL中文全文搜索

    SphinxSE是Sphinx为MySQL提供的一个存储引擎,它允许我们在MySQL中直接查询Sphinx的索引。安装SphinxSE后,我们可以在MySQL中像操作普通表一样使用Sphinx的全文索引,这极大地方便了数据库查询和管理。 在搭建...

    Python3连接mysql

    1. **安装pymysql模块**:在Python环境中安装pymysql模块是通过Python连接MySQL数据库的第一步。可以通过pip工具进行安装: ```bash pip install pymysql ``` 2. **建立连接**:利用pymysql库提供的`connect()`...

    asp连接mysql字符串

    在本篇文章中,我们将深入探讨如何使用ASP与MySQL数据库通过ODBC 3.51进行连接,特别是关于连接字符串的构建及其各个组成部分的含义。这不仅适用于初学者,也适用于那些希望深入了解这一过程的技术人员。 ### ASP...

Global site tag (gtag.js) - Google Analytics