`
smilingamao
  • 浏览: 4982 次
  • 性别: Icon_minigender_1
  • 来自: 北京
最近访客 更多访客>>
文章分类
社区版块
存档分类
最新评论

数据库的查询优化技术(转载)

阅读更多
tianlan 发表于 2006-01-03 22:01:10

数据库系统是管理信息系统的核心,基于数据库的联机事务处理 (OLTP)以及联机分析处理(OLAP)是银行、企业、政府等部门最为重要的计算机应用之一。从大多数系统的应用实例来看,查询操作在各种数据库操作中 所占据的比重最大,而查询操作所基于的SELECT语句在SQL语句中又是代价最大的语句。举例来说,如果数据的量积累到一定的程度,比如一个银行的账户 数据库表信息积累到上百万甚至上千万条记录,全表扫描一次往往需要数十分钟,甚至数小时。如果采用比全表扫描更好的查询策略,往往可以使查询时间降为几分 钟,由此可见查询优化技术的重要性。

笔者在应用项目的实施中发现,许多程序员在利用一些前端数据库开发工具(如 PowerBuilder、Delphi等)开发数据库应用程序时,只注重用户界面的华丽,并不重视查询语句的效率问题,导致所开发出来的应用系统效率低 下,资源浪费严重。因此,如何设计高效合理的查询语句就显得非常重要。本文以应用实例为基础,结合数据库理论,介绍查询优化技术在现实系统中的运用。

分析问题

许 多程序员认为查询优化是DBMS(数据库管理系统)的任务,与程序员所编写的SQL语句关系不大,这是错误的。一个好的查询计划往往可以使程序性能提高数 十倍。查询计划是用户所提交的SQL语句的集合,查询规划是经过优化处理之后所产生的语句集合。DBMS处理查询计划的过程是这样的:在做完查询语句的词 法、语法检查之后,将语句提交给DBMS的查询优化器,优化器做完代数优化和存取路径的优化之后,由预编译模块对语句进行处理并生成查询规划,然后在合适 的时间提交给系统处理执行,最后将执行结果返回给用户。在实际的数据库产品(如Oracle、Sybase等)的高版本中都是采用基于代价的优化方法,这 种优化能根据从系统字典表所得到的信息来估计不同的查询规划的代价,然后选择一个较优的规划。虽然现在的数据库产品在查询优化方面已经做得越来越好,但由 用户提交的SQL语句是系统优化的基础,很难设想一个原本糟糕的查询计划经过系统的优化之后会变得高效,因此用户所写语句的优劣至关重要。系统所做查询优 化我们暂不讨论,下面重点说明改善用户查询计划的解决方案。

解决问题

下面以关系数据库系统Informix为例,介绍改善用户查询计划的方法。

1.合理使用索引

索引是数据库中重要的数据结构,它的根本目的就是为了提高查询效率。现在大多数的数据库产品都采用IBM最先提出的ISAM索引结构。索引的使用要恰到好处,其使用原则如下:

●在经常进行连接,但是没有指定为外键的列上建立索引,而不经常连接的字段则由优化器自动生成索引。

●在频繁进行排序或分组(即进行group by或order by操作)的列上建立索引。

●在条件表达式中经常用到的不同值较多的列上建立检索,在不同值少的列上不要建立索引。比如在雇员表的“性别”列上只有“男”与“女”两个不同值,因此就无必要建立索引。如果建立索引不但不会提高查询效率,反而会严重降低更新速度。

●如果待排序的列有多个,可以在这些列上建立复合索引(compound index)。

● 使用系统工具。如Informix数据库有一个tbcheck工具,可以在可疑的索引上进行检查。在一些数据库服务器上,索引可能失效或者因为频繁操作而 使得读取效率降低,如果一个使用索引的查询不明不白地慢下来,可以试着用tbcheck工具检查索引的完整性,必要时进行修复。另外,当数据库表更新大量 数据后,删除并重建索引可以提高查询速度。

2.避免或简化排序

应当简化或避免对大型表进行重复的排序。当能够利用索引自动以适当的次序产生输出时,优化器就避免了排序的步骤。以下是一些影响因素:

●索引中不包括一个或几个待排序的列;

●group by或order by子句中列的次序与索引的次序不一样;

●排序的列来自不同的表。

为了避免不必要的排序,就要正确地增建索引,合理地合并数据库表(尽管有时可能影响表的规范化,但相对于效率的提高是值得的)。如果排序不可避免,那么应当试图简化它,如缩小排序的列的范围等。

3.消除对大型表行数据的顺序存取

在 嵌套查询中,对表的顺序存取对查询效率可能产生致命的影响。比如采用顺序存取策略,一个嵌套3层的查询,如果每层都查询1000行,那么这个查询就要查询 10亿行数据。避免这种情况的主要方法就是对连接的列进行索引。例如,两个表:学生表(学号、姓名、年龄……)和选课表(学号、课程号、成绩)。如果两个 表要做连接,就要在“学号”这个连接字段上建立索引。

还可以使用并集来避免顺序存取。尽管在所有的检查列上都有索引,但某些形式的where子句强迫优化器使用顺序存取。下面的查询将强迫对orders表执行顺序操作:

SELECT * FROM orders WHERE (customer_num=104 AND order_num>1001) OR order_num=1008

虽然在customer_num和order_num上建有索引,但是在上面的语句中优化器还是使用顺序存取路径扫描整个表。因为这个语句要检索的是分离的行的集合,所以应该改为如下语句:

SELECT* FROM orders WHERE customer_num=104 AND order_num>1001

UNION

SELECT * FROM orders WHERE order_num=1008

这样就能利用索引路径处理查询。

4.避免相关子查询

一个列的标签同时在主查询和where子句中的查询中出现,那么很可能当主查询中的列值改变之后,子查询必须重新查询一次。查询嵌套层次越多,效率越低,因此应当尽量避免子查询。如果子查询不可避免,那么要在子查询中过滤掉尽可能多的行。

5.避免困难的正规表达式

MATCHES和LIKE关键字支持通配符匹配,技术上叫正规表达式。但这种匹配特别耗费时间。例如:

SELECT * FROM customer WHERE zipcode LIKE “98_ _ _”

即使在zipcode字段上建立了索引,在这种情况下也还是采用顺序扫描的方式。如果把语句改为SELECT * FROM customer WHERE zipcode >“98000”,在执行查询时就会利用索引来查询,显然会大大提高速度。

另外,还要避免非开始的子串。例如语句:

SELECT * FROM customer WHERE zipcode[2,3] >“80”,在where子句中采用了非开始子串,因而这个语句也不会使用索引。

6.使用临时表加速查询

把表的一个子集进行排序并创建临时表,有时能加速查询。它有助于避免多重排序操作,而且在其他方面还能简化优化器的工作。例如:

SELECT cust.name,rcvbles.balance,……other columns

FROM cust,rcvbles

WHERE cust.customer_id = rcvlbes.customer_id

AND rcvblls.balance>0

AND cust.postcode>“98000”

ORDER BY cust.name

如果这个查询要被执行多次而不止一次,可以把所有未付款的客户找出来放在一个临时文件中,并按客户的名字进行排序:

SELECT cust.name,rcvbles.balance,……other columns

FROM cust,rcvbles

WHERE cust.customer_id = rcvlbes.customer_id

AND rcvblls.balance>0

ORDER BY cust.name

INTO TEMP cust_with_balance

然后以下面的方式在临时表中查询:

SELECT * FROM cust_with_balance

WHERE postcode>“98000”

临时表中的行要比主表中的行少,而且物理顺序就是所要求的顺序,减少了磁盘I/O,所以查询工作量可以得到大幅减少。

注意:临时表创建后不会反映主表的修改。在主表中数据频繁修改的情况下,注意不要丢失数据。

7.用排序来取代非顺序存取

非顺序磁盘存取是最慢的操作,表现在磁盘存取臂的来回移动。SQL语句隐藏了这一情况,使得我们在写应用程序时很容易写出要求存取大量非顺序页的查询。

有些时候,用数据库的排序能力来替代非顺序的存取能改进查询。

数据库的查询优化技术(2)

实例分析

下面我们举一个制造公司的例子来说明如何进行查询优化。制造公司数据库中包括3个表,模式如下所示:

1.part表

零件号     零件描述        其他列

(part_num) (part_desc)      (other column)

102,032   Seageat 30G disk     ……

500,049   Novel 10M network card  ……

……

2.vendor表

厂商号      厂商名      其他列

(vendor _num) (vendor_name) (other column)

910,257     Seageat Corp   ……

523,045     IBM Corp     ……

……

3.parven表

零件号     厂商号     零件数量

(part_num) (vendor_num) (part_amount)

102,032    910,257    3,450,000

234,423    321,001    4,000,000

……

下面的查询将在这些表上定期运行,并产生关于所有零件数量的报表:

SELECT part_desc,vendor_name,part_amount

FROM part,vendor,parven

WHERE part.part_num=parven.part_num

AND parven.vendor_num = vendor.vendor_num

ORDER BY part.part_num

如果不建立索引,上述查询代码的开销将十分巨大。为此,我们在零件号和厂商号上建立索引。索引的建立避免了在嵌套中反复扫描。关于表与索引的统计信息如下:

表     行尺寸   行数量     每页行数量   数据页数量

(table) (row size) (Row count) (Rows/Pages) (Data Pages)

part    150     10,000    25       400

Vendor   150     1,000      25       40

Parven   13      15,000     300        50

索引     键尺寸   每页键数量   页面数量

(Indexes) (Key Size) (Keys/Page)   (Leaf Pages)

part     4      500       20

Vendor    4      500       2

Parven    8      250       60

看 起来是个相对简单的3表连接,但是其查询开销是很大的。通过查看系统表可以看到,在part_num上和vendor_num上有簇索引,因此索引是按照 物理顺序存放的。parven表没有特定的存放次序。这些表的大小说明从缓冲页中非顺序存取的成功率很小。此语句的优化查询规划是:首先从part中顺序 读取400页,然后再对parven表非顺序存取1万次,每次2页(一个索引页、一个数据页),总计2万个磁盘页,最后对vendor表非顺序存取1.5 万次,合3万个磁盘页。可以看出在这个索引好的连接上花费的磁盘存取为5.04万次。

实际上,我们可以通过使用临时表分3个步骤来提高查询效率:

1.从parven表中按vendor_num的次序读数据:

SELECT part_num,vendor_num,price

FROM parven

ORDER BY vendor_num

INTO temp pv_by_vn

这个语句顺序读parven(50页),写一个临时表(50页),并排序。假定排序的开销为200页,总共是300页。

2.把临时表和vendor表连接,把结果输出到一个临时表,并按part_num排序:

SELECT pv_by_vn,* vendor.vendor_num

FROM pv_by_vn,vendor

WHERE pv_by_vn.vendor_num=vendor.vendor_num

ORDER BY pv_by_vn.part_num

INTO TMP pvvn_by_pn

DROP TABLE pv_by_vn

这 个查询读取pv_by_vn(50页),它通过索引存取vendor表1.5万次,但由于按vendor_num次序排列,实际上只是通过索引顺序地读 vendor表(40+2=42页),输出的表每页约95行,共160页。写并存取这些页引发5*160=800次的读写,索引共读写892页。

3.把输出和part连接得到最后的结果:

SELECT pvvn_by_pn.*,part.part_desc

FROM pvvn_by_pn,part

WHERE pvvn_by_pn.part_num=part.part_num

DROP TABLE pvvn_by_pn

这 样,查询顺序地读pvvn_by_pn(160页),通过索引读part表1.5万次,由于建有索引,所以实际上进行1772次磁盘读写,优化比例为 30∶1。笔者在Informix Dynamic Sever上做同样的实验,发现在时间耗费上的优化比例为5∶1(如果增加数据量,比例可能会更大)。

小 结

20%的代码用去了80%的时间,这是程序设计中的一个著名定律,在数据库应用程序中也同样如此。我们的优化要抓住关键问题,对于数据库应用程序来说,重点在于SQL的执行效率。查询优化的重点环节是使得数据库服务器少从磁盘中读数据以及顺序读页而不是非顺序读页。 

分享到:
评论

相关推荐

    秒杀应用的MySQL数据库优化 (转载)

    秒杀应用的MySQL数据库优化是一个重要的议题,尤其是在高并发、数据处理速度要求极高的场景下。这类应用常常面临巨大的压力,如瞬间涌入的大量请求、数据读写速度、以及资源的有效利用。本篇文章将深入探讨如何针对...

    VC++6.0 数据库编程大全.rar

    8. 安全性与性能优化:了解数据库的安全设置,如权限控制,以及如何优化SQL查询以提高性能,都是数据库编程的重要环节。 通过学习《VC++6.0数据库编程大全》,读者不仅可以掌握数据库编程的基本原理,还能获得实际...

    软件开发人成长经历(转载)

    性能优化涉及代码优化、数据库查询优化等,以提高软件运行效率。安全性则是确保软件免受攻击,包括输入验证、防止SQL注入、XSS攻击等。 最后,成为一名优秀的软件开发人员不仅仅是技术上的熟练,还包括良好的职业...

    《转载》oracle1000问

    - SQL优化:使用EXPLAIN PLAN分析执行计划,通过索引、连接优化、子查询优化提升性能。 - 会话管理:通过设置合适的初始化参数调整会话资源,如PGA、SGA等。 - 分区(Partitioning):大表可以按特定规则分区,...

    转载的文章《DataGuard交流讲义.pdf》

    ### Oracle Data Guard 概述与关键技术点 ...综上所述,Oracle Data Guard 作为一种强大的数据保护工具,在保障企业数据安全的同时,还提供了多种高级功能和技术支持,确保了数据库的高可用性和灾难恢复能力。

    SQL大总结——转载经典——价值过亿

    14. **性能优化**:SQL性能优化涉及索引策略、查询优化、内存管理和硬件配置等多个方面,是数据库管理员的重要工作。 《SQL大总结》文档很可能是对这些知识点的详细讲解和实例演示,读者可以通过学习来提升自己的...

    程序设计说明书(转载)

    总的来说,程序设计说明书详尽地描述了数据库的设计过程,包括其目标、背景、使用的技术、设计原则以及实体和关系。这样的文档对于团队协作、系统维护和未来扩展都至关重要,确保了软件项目的质量和可维护性。

    jdbc与hibernate的优缺点比较(转载的精髓).pdf

    - **性能**:JDBC允许开发者直接编写SQL,对于优化查询性能提供了最大的控制权。 - **简单直接**:JDBC的API简单明了,易于理解和使用,尤其适合小型项目或简单的数据库操作。 - **资源管理**:开发者可以直接...

    hibernate官方入门教程 (转载)

    1. **对象关系映射(ORM)**: ORM是将数据库中的表映射为Java对象的技术,Hibernate通过XML或注解方式实现这种映射,使得开发者可以使用面向对象的方式来处理数据。 2. **配置文件**: Hibernate的配置文件...

    悠索科技高校教务管理系统(转载)

    3. **LINQ(Language Integrated Query)**:C#中的查询语言特性,使得在代码中进行数据库查询更加简洁和直观,与Entity Framework结合使用可实现高效的数据库操作。 4. **多线程**:在处理大量并发请求时,系统...

    jsp论坛—别的网站转载的

    2. **数据持久化**:论坛的帖子、评论等内容需要存储在数据库中,因此涉及SQL查询、事务管理以及数据库设计,如表结构、索引优化等。 3. **模板引擎**:JSP自身可以作为模板引擎,但现代开发中常采用FreeMarker、...

    ogame中文源代码(网络转载)

    通过分析数据库模型,我们可以学习到如何设计符合游戏需求的关系型数据库,以及如何优化查询性能。 6. **安全性考虑** 在一个多人在线游戏中,防止作弊和保护用户数据安全是必不可少的。源代码中会包含验证机制、...

    php卡盟程序源码

    9. 性能优化:为了处理高并发访问,卡盟程序需要关注性能优化,如缓存策略(如Redis或Memcached)、数据库查询优化、页面静态化等。 10. SEO友好:为了让卡盟平台在搜索引擎中获得更好的排名,程序需要遵循SEO...

    海量数据装载工具SQL Loader技术分析.pdf

    整个过程包括以下几个步骤:SqlLdr命令启动、读取控制文件、读取数据文件、根据规则转载数据,最后记录日志文件。 对于SQL Loader的性能提升技术措施,文章提出了相关的技术细节。这些措施可能包括对控制文件语法的...

    新闻动态生成HTML,asp.net,功能强大,欢迎转载!

    此外,ASP.NET还支持多种缓存策略,如页面输出缓存、数据缓存等,可以进一步优化新闻动态生成的性能,减少数据库的访问压力。 总的来说,新闻动态生成HTML是ASP.NET Web开发中的一个常见应用场景,通过结合数据库...

    使用 HTML5 开发离线应用[转载]

    `Web SQL Database`API允许开发者在客户端创建和操作关系型数据库,尽管这一API在某些现代浏览器中已被弃用,但类似的功能可以通过IndexedDB实现,它是一种更强大的客户端数据库解决方案,支持事务处理和复杂查询。...

    聚合信息客户端数据挖掘应用研究——以用户登录行为和文章推荐数据库为例.pdf

    这意味着不同区域和年龄阶段的用户可能对平台有不同的使用习惯和偏好,这对于聚合信息客户端的个性化服务和功能优化具有重要指导意义。 在文章推荐方面,研究发现文章基本信息和自媒体属性对优秀文章筛选有显著影响...

    【RPA之家转载AA视频教程】37.Recordea.rar

    在描述中提到,“RPA之家转载的AA视频教程”,意味着这个资源可能来自于RPA爱好者或专业人员的社区,旨在分享和教育用户如何使用RPA技术,特别是Automation Anywhere的工具。用户可以下载这些教程进行自我学习,并在...

    测绘工程毕业论文选题汇编(转载)

    - **技术应用**:对于控制工程成本、优化设计方案具有重要作用。 - **技术要求**:学生需具备一定的编程能力。 #### 三十七、地面控制网的布设和精度分析 - **主要内容**:探讨地面控制网点的布设方法及精度分析...

Global site tag (gtag.js) - Google Analytics