`
静妙仙人
  • 浏览: 85890 次
  • 性别: Icon_minigender_1
  • 来自: 北京
社区版块
存档分类
最新评论

使用MySQL处理百万级以上数据时,不得不知道的几个常识

阅读更多

    最近一段时间参与的项目要操作百万级数据量的数据,普通SQL查询效率呈直线下降,而且如果where中的查询条件较多时,其查询速度简直无法容忍。之前数据量小的时候,查询语句的好坏不会对执行时间有什么明显的影响,所以忽略了许多细节性的问题。

    经测试对一个包含400多万条记录的表执行一条件查询,其查询时间竟然高达40几秒,相信这么高的查询延时,任何用户都会抓狂。因此如何提高sql语句查询效率,显得十分重要。以下是结合网上流传比较广泛的几个查询语句优化方法:

    首先,数据量大的时候,应尽量避免全表扫描,应考虑在 where order by 涉及的列上建立索引,建索引可以大大加快数据的检索速度。但是,有些情况索引是不会起效的:

1、应尽量避免在 where 子句中使用!=<>操作符,否则将引擎放弃使用索引而进行全表扫描。

2、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:
    
 select id from t where num is null
    
 可以在num上设置默认值0,确保表中num列没有null值,然后这样查询:
    
 select id from t where num=0

3、尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全表扫描,如:
    
 select id from t where num=10 or num=20
    
 可以这样查询:
    
 select id from t where num=10
    
 union all
    
 select id from t where num=20

4、下面的查询也将导致全表扫描:

    select id from t where name like ‘%abc%’

    若要提高效率,可以考虑全文检索。

5in not in 也要慎用,否则会导致全表扫描,如:
    
 select id from t where num in(1,2,3)
    
 对于连续的数值,能用 between 就不要用 in 了:
    
 select id from t where num between 1 and 3

6、如果在 where 子句中使用参数,也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:
    
 select id from t where num=@num
    
 可以改为强制查询使用索引:
    
 select id from t with(index(索引名)) where num=@num

7、应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。如:
    
 select id from t where num/2=100
    
 应改为:
    
 select id from t where num=100*2

8、应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。如:
    
 select id from t where substring(name,1,3)=’abc’–nameabc开头的id
    
 select id from t where datediff(day,createdate,’2005-11-30′)=0–’2005-11-30′生成的id
    
 应改为:
    
 select id from t where name like ‘abc%’
    
 select id from t where createdate>=’2005-11-30′ and createdate<’2005-12-1′

9、不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算,否则系统将可能无法正确使用索引。

10、在使用索引字段作为条件时,如果该索引是复合索引,那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引,否则该索引将不会被使用,并且应尽可能的让字段顺序与索引顺序相一致。

11、不要写一些没有意义的查询,如需要生成一个空表结构:
    
 select col1,col2 into #t from t where 1=0
    
 这类代码不会返回任何结果集,但是会消耗系统资源的,应改成这样:
    
 create table #t(…)

12、很多时候用 exists 代替 in 是一个好的选择:
    
 select num from a where num in(select num from b)
    
 用下面的语句替换:
    
 select num from a where exists(select 1 from b where num=a.num)

 

    建索引需要注意的地方:

1、并不是所有索引对查询都有效,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引,如一表中有字段 sexmalefemale几乎各一半,那么即使在sex上建了索引也对查询效率起不了作用。

2、索引并不是越多越好,索引固然可以提高相应的 select 的效率,但同时也降低了 insert update 的效率,因为 insert update 时有可能会重建索引,所以怎样建索引需要慎重考虑,视具体情况而定。一个表的索引数最好不要超过6个,若太多则应考虑一些不常使用到的列上建的索引是否有必要。

3、应尽可能的避免更新 clustered 索引数据列,因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列,那么需要考虑是否应将该索引建为 clustered 索引。

 

    其他需要注意的地方:

1、尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符,而对于数字型而言只需要比较一次就够了。

2、任何地方都不要使用 select * from t ,用具体的字段列表代替“*”,不要返回用不到的任何字段。

3、尽量使用表变量来代替临时表。如果表变量包含大量数据,请注意索引非常有限(只有主键索引)。

4、避免频繁创建和删除临时表,以减少系统表资源的消耗。

5、临时表并不是不可使用,适当地使用它们可以使某些例程更有效,例如,当需要重复引用大型表或常用表中的某个数据集时。但是,对于一次性事件,最好使用导出表。

6、在新建临时表时,如果一次性插入数据量很大,那么可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果数据量不大,为了缓和系统表的资源,应先create table,然后insert

7、如果使用到了临时表,在存储过程的最后务必将所有的临时表显式删除,先 truncate table ,然后 drop table ,这样可以避免系统表的较长时间锁定。

8、尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该考虑改写。

9、使用基于游标的方法或临时表方法之前,应先寻找基于集的解决方案来解决问题,基于集的方法通常更有效。

10、与临时表一样,游标并不是不可使用。对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法,尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括合计的例程通常要比使用游标执行的速度快。如果开发时间允许,基于游标的方法和基于集的方法都可以尝试一下,看哪一种方法的效果更好。

11、在所有的存储过程和触发器的开始处设置 SET NOCOUNT ON ,在结束时设置 SET NOCOUNT OFF 。无需在执行存储过程和触发器的每个语句后向客户端发送 DONE_IN_PROC 消息。

12、尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。

13、尽量避免大事务操作,提高系统并发能力。

 

参考地址:http://www.cnblogs.com/luxf/archive/2012/02/08/2343345.html

                 http://blog.csdn.net/luyee2010/article/details/8309806

 

5
4
分享到:
评论
2 楼 aa1asdasd 2013-06-26  
楼主主要还是针对于写语句的方面
1 楼 akandfxs 2013-06-26  
百万级就这样?mysql单表几千万数据查询也没这么慢啊。
下面的一些语句优化来看你的查询可能稍微复杂一点。但这不是单表的限制了。

相关推荐

    mysql数据库英文文献.doc

    MySQL数据库的架构与历史紧密相关,因此在理解MySQL时,我们不得不回顾它的起源和发展历程。MySQL的历史可以追溯到1979年,当时Monty Widenius在一家名为TcX的小公司工作,他创建了一个用BASIC语言编写的报表工具,...

    mysql常用函数及概念

    全表扫描是指MySQL在执行查询时,不得不逐行检查表中的所有记录。这种操作非常耗时,尤其是在处理大型表时。为了避免这种情况,可以采取以下措施: - **建立索引**:在经常用于过滤查询的列上建立索引,可以显著...

    阿里云 专有云企业版 V3.8.1 分析型数据库MySQL版 技术白皮书 20190910

    阿里云专有云企业版V3.8.1分析型数据库MySQL版的产品架构主要包括以下几个部分: 1. 数据存储层:负责存储和管理大量数据,提供高性能的数据存储和检索能力。 2. 数据处理层:负责处理和分析大量数据,提供高性能的...

    MySQL数据库考试试题及答案

    根据提供的文件内容,我们可以归纳总结出一系列关于MySQL数据库的重要知识点,包括了选择题涉及的SQL命令、函数使用、数据操作等方面。下面是详细的知识点解析: ### 1. 聚合函数 - 求数据总和 - **知识点**:在SQL...

    防止服务器宕机时MySQL数据丢失的几种方案

    对于多数应用来说,MySQL都是作为最关键的数据存储中心的,所以,如何让MySQL提供HA服务,是我们不得不面对的一个问题。当master当机的时候,我们如何保证数据尽可能的不丢失,如何保证快速的获知master当机并进行...

    MySQL Internals Manual

    MySQL源代码主要分为以下几个重要目录: - **BUILD**: 包含构建系统相关的文件,如编译规则、依赖关系等。 - **client**: 存放客户端程序的源代码,包括命令行工具等。 - **Docs**: 文档相关文件,如HTML、PDF等...

    MySQL_57_Replication_Enhancements

    首先,提到MySQL复制增强,就不得不说到复制的核心组件。在一个典型的MySQL复制设置中,主要包括以下三个角色:插入客户端(Insert Client),发送线程(Sender thread),接收线程(Receiver thread)以及应用线程...

    基于MySQL实现云数据库服务与实现

    在研究MySQL云数据库服务的实现时,我们不得不提到关键的几个点,包括: - 云计算基础设施的共享与整合。 - PaaS平台下的DaaS服务能力。 - 数据库访问接口的设计与实现。 - 数据隔离和性能隔离技术的应用。 - 高...

    MySQL5.7 JSON类型使用详解

    JSON数据类型在MySQL 5.7中的引入,带来了以下几个方面的改进和新特性: 1. JSON数据类型:MySQL 5.7允许直接在表中定义JSON类型的列。这意味着不需要再使用TEXT或VARCHAR来存储JSON字符串,而是可以直接在数据库...

    MySql中文手册PDF终极完美版

    在文件所提供的内容中,我们可以提取到几个重要的知识点: 1. MySQL中文手册PDF版是由卢生通过将HTML版本的MySQL参考手册转换成PDF格式得到的。这表明,该手册是通过某种形式的转换工具或脚本从网页版手册转换而来...

    MySQL C++ 编程

    在 **MySQL Connector/C++** 中,API 调用主要包括连接管理、查询执行以及结果集处理等几个方面。 ##### 1. 连接管理 - **创建连接对象**:使用 `mysqlx::Session` 类来创建一个新的数据库会话。 - 示例代码: ``...

    refman-5.7-en.a4 MySQL5.7官方文档

    - **安装指导**:MySQL 5.7的安装过程分为几个步骤,包括选择适合的操作系统版本、确定所需的安装类型(如开发版、标准版或企业版)以及配置必要的参数等。 - **升级建议**:对于现有用户来说,从早期版本(如MySQL ...

    升级到MySQL5.7后开发不得不注意的一些坑

    以下详细说明升级到MySQL5.7后开发需要注意的几个重要问题。 首先,是关于`sql_mode`设置的改变。在MySQL5.6版本中,`sql_mode`默认包含了"NO_ENGINE_SUBSTITUTION",这使得即使在数据类型不匹配或者一些特定情况下...

    mysql_innoDB 事务与锁详解

    3. **插入、更新和删除操作**:当使用`INSERT`、`UPDATE`或`DELETE`时,会话事务会对数据加上独占锁,其他会话的事务将不得不等待独占锁释放才能继续操作。 4. **间隙锁(Gap Locks)和Next-Key Locks**:为了防止...

    MYSQL入门第八章数据库优化.doc

    没有索引,MYSQL不得不首先以第一条记录开始并然后读完整个表直到它找出相关的行。表越大,花费时间越多。如果表对于查询的列有一个索引,MYSQL能快速到达一个位置去搜寻到数据文件的中间,没有必要考虑所有数据。 ...

    阿里云 专有云Enterprise版 HybridDB for MySQL V3.3.0 告警参考 20180312.pdf

    本文档包括以下几个部分: * 法律声明 * 告警参考 * 通用约定 * 目录 这些部分旨在帮助用户了解 HybridDB for MySQL 的告警机制、告警类型、告警处理流程等相关知识,以便更好地使用 HybridDB for MySQL 系统。

    阿里云 专有云Enterprise版 V3.5.0 HybridDB for MySQL 用户指南 - 20180710.pdf

    HybridDB for MySQL结合了传统数据库与云计算的优势,旨在为企业提供大规模数据处理能力,支持在线事务处理(OLTP)和在线分析处理(OLAP)场景。 该用户指南主要涵盖了以下几个方面: 1. **法律声明**:用户在使用...

    新闻 数据采集

    在C#编程语言中,实现新闻数据采集通常涉及到以下几个关键知识点: 1. **网络爬虫(Web Crawler)**:网络爬虫是自动遍历网页并抓取信息的程序。C#中可以使用HtmlAgilityPack库解析HTML文档,或者使用HttpClient类...

    阿里云 专有云企业版 V3.5.2 HybridDB for MySQL 开发指南 - 20180831.pdf

    在使用该开发指南时,需要注意以下几点: 1. **法律声明**:阅读或使用文档前需仔细理解并接受法律声明中的条款。文档内容被视为阿里云的保密信息,仅可用于自身合法合规的业务活动,且不得未经授权向第三方披露或...

    阿里云 专有云企业版 V3.9.0 数据管理 产品简介 20191017.pdf

    阿里云专有云企业版V3.9.0的数据管理产品是为企业级客户设计的一款高效、安全、可扩展的数据管理解决方案。此版本的产品旨在帮助企业更好地管理和优化其在云计算环境中的数据资源,确保业务的稳定运行和数据的安全性...

Global site tag (gtag.js) - Google Analytics