`
丁林.tb
  • 浏览: 797177 次
  • 性别: Icon_minigender_1
  • 来自: 杭州
社区版块
存档分类
最新评论

MySQL中order by的实现 和 by rand() 和优化

阅读更多

有同学上周问了个问题 “MySQL 里面的order by rand()”是怎么实现的。我们今天来简单说说MySQL里的order by。

 

    几种order by的情况
    乍一看这个问题好像有点复杂,我们从最简单的case开始看起。
    用这个表来说明:(10w行数据)

 

1、  最简单的order ―― order by索引字段

 从explain的结果来看(Extra列),这个语句并不作排序。因为字段a已经是有顺序的。就是按照索引a的顺序依次读pk的值(在这里是隐藏的系统列),一个个从聚簇索引的data中读入。

 

 2、  复杂一点 ―― order by 非索引字段

    这里Extra列显示一个Using filesort。这里的filesort并不是指字面上的“文件排序”,说的就是与上面一种情况相比,在Server层作了排序。至于是否使用文件,取决于排序过程中的内存是否足够,不够则需要临时文件。

 

    并不到此为止,我们细细想一下,server层要怎么作排序呢

    一个简单的想法是把表数据都读到内存,然后排序。读到内存当然可以想怎么整就怎么整。但是这个做法很耗费内存。需要占用与表一样大小的内存。

 

    另外一个做法,只读入字段b和其对应的主键id。可以想象为这两个字段构成的结构体,按照b的值作排序。排序完成后,按字段b的顺序依次取主键id,取得结果返回。

 

    实际上第二种作法就是这个例子中的实际执行过程。存放用于排序的字段值的结构我们称为sort_keys.

至于order by b,c这样的语句,效果与order by b相同,可以简单理解为上面结构体多了一个字段。

 

 3、  字段函数排序

     有了上面的流程,这里就简单了,还是按顺序读入所有的字段b,只是sort_keys中存的是b的长度而已。

 

4、Order by rand()

    按照自然想法, order by rand() 也可以仿照上面描述的做法,对于每一行,将生成的rand()的值放入sort_kyes里即可。但实际上上效果如下:

    Extra字段里面有一个Using temporary, 也就是说用到了临时表。那么Using temporary的时候操作流程是怎样的呢?
    a)   创建一个heap引擎的临时表,字段名为 ”” a b c d, 第一个字段为匿名;
    b)   将表tb中的数据按行读入到临时表中,同时给第一字段填入一个随机实数(0,1);
    c)   按照第一个字段排序,返回
    d)   查询完成删除临时表

    分析一下这个过程,由于把数据从InnoDB表里面读入临时表,则InnoDB表实际上也已经读入内存,在这个过程中,若不考虑内存不够时的写文件策略, 则内存中有两份表的全拷贝;另外多了从内存中将数据一一拷贝到临时表的过程。

 

     这个查询在我的测试环境中耗时2.41s(多次次执行,不计第一次加载数据的时间) 

order by rand()的改进
    我们前面说过,实际上对于这种简单的order by rand() 的情况,也可以等同于按照非索引字段来处理。在sort_array 中存入随机值即可。
     按照这个思路的patch在这里,效果上

 
    执行时间减少为1.89s,性能提升21%, 这个例子单行1k,单行越大提升效果越好。

3
0
分享到:
评论
2 楼 wtwei 2012-07-31  
你好,我想请教一个问题关于FIND_IN_SET的性能问题,我想在项目中存储分级记录的ID(省,市,区)这样在查询的时候就可以一次得到关联的ID,在查询的时候我使用了FIND_IN_SET来匹配某一个省或市或区 的ID,我查过一些资料说FIND_IN_SET比like的性能高,可不知道FIND_IN_SET对10w+数量级的查询会不会有性能问题?希望指教,谢谢
1 楼 babaoqi 2012-07-27  
学习力

相关推荐

    MySQL数据库优化SQL篇PPT课件.pptx

    从执行计划、SELECT语句、IN和EXIST语句、LIMIT语句、RAND函数、Order by、Group by、Distinct和Count等方面对MySQL数据库优化进行了详细的讲解。 一、执行计划 执行计划是MySQL数据库优化的重要步骤。执行计划...

    MYSQL随机抽取查询 MySQL Order By Rand()效率问题

    在MySQL中,直接使用`ORDER BY RAND()`对整个表进行排序,然后通过`LIMIT`获取指定数量的随机行,这种方法在大数据量时极其低效,因为它会进行全表扫描,对于每一行数据都要计算一次随机值,导致性能急剧下降。...

    MySQL Order By Rand()效率分析

    MySQL中的`ORDER BY RAND()`常用于实现数据集的随机排序,但其效率问题一直备受关注。在处理大量数据时,这种用法可能导致显著的性能下降。这是因为`RAND()`函数在`ORDER BY`子句中会被执行多次,对于每一行记录,都...

    mysql 优化.docx

    本文将从EXPLAIN命令、SQL语句优化、索引的使用、排序和限制、union和union all的差异、ORDER BY RAND()的优化、in和exists的区分、分页方式的优化、分段查询等角度来讨论MySQL优化策略。 一、EXPLAIN命令的使用 ...

    mysql优化方案

    在本文中,我们将讨论 MYSQL 优化方案,涵盖 BIOS 设置优化、IO 子系统优化、Schema 设计优化、索引设计优化和无法使用索引的场景等方面的知识点。 BIOS 设置优化 在 BIOS 设置优化中,我们需要选择合适的系统配置...

    MySQL中的RAND()函数使用详解

    当你在查询的ORDER BY子句中使用RAND(),MySQL会随机地对查询结果进行排序。比如,你有一个名为`employee_tbl`的表,想要随机显示员工的信息,可以这样操作: ```sql SELECT * FROM employee_tbl ORDER BY RAND();...

    辛星笔记之MySQL优化篇

    例如,使用`RAND()`函数和`ORDER BY`子句来提取随机行,利用`GROUP BY`的`WITH ROLLUP`子句来执行更复杂的分组聚合操作。`RAND()`函数在MySQL中用于生成一个介于0到1之间的随机浮点数,可以用于选取数据表中的随机...

    Mysql\学习笔记\mysql优化

    MySQL优化是数据库管理中至关重要的一个环节,目的是提高查询速度,减少资源消耗,进而提升整体系统性能。本文主要从数据库设计的三个范式和SQL优化技巧两个方面进行讲解。 首先,我们来了解一下数据库设计的三个...

    MySQL性能优化的21个最佳实践.pdf

    避免使用ORDER BY RAND()这一语句,因为它会显著降低数据库性能。该语句迫使MySQL对每一行都执行RAND()函数,并进行排序,这一过程消耗大量的CPU资源。如果需要随机排序数据,可以考虑其他方法,如在应用层进行排序...

    MySQL rand函数实现随机数的方法

    因为`RAND()`函数在`ORDER BY`子句中会被执行多次,对于大数据集来说,这会极大地增加查询时间。例如,对于15万条记录的表,简单使用`ORDER BY RAND()`可能需要8秒以上。 一种更高效的解决方案是通过预计算一个随机...

    MySQL下的RAND()优化案例分析

    7. 总结:在涉及到RAND()函数时,为了优化查询性能,应当尽量避免在ORDER BY和WHERE子句中直接使用该函数。如果确实需要生成随机数,可以通过预先计算随机数集合,并使用这些值来进行索引查找的方法。此外,确保表...

    mysql中RAND()随便查询记录效率问题和解决办法分享

    举个例子,要从tablename表中随机提取一条记录,大家一般的写法就是:SELECT * FROM tablename ORDER BY RAND() LIMIT 1。 有两个方法可以达成以上效果. 1.新建一个表,里面存着 -5 至 5 之间的数.再利用order by ...

    MySQL数据库的优化与应用

    避免使用如ORDER BY RAND()这样的随机排序,因为这可能导致性能瓶颈。此外,适当使用LIMIT和OFFSET来限制返回结果的数量,可以减轻服务器负担。 进一步,分区表和分片是处理大数据的高级优化技术。分区表将大表按...

Global site tag (gtag.js) - Google Analytics