`

如果提高排序及表连接的效率

阅读更多

 

文章截自《品悟性能优化》。

 

一、排序介绍:

Oracle里面有哪些操作需要排序,或者有哪些操作是隐含进行排序的?

1.order by短语是当然要进行排序的.

2.其实还有distinct,Union等操作会隐藏进行排序.

      a.distinct是需要先排序相关字段,然后去掉重复记录.

      b.union和union all的区别是,前者的结果集也需要去掉两个查询语句的重复记录,所以需要排序.后者的结果集是所有记录,包括重复记录,所以不需要排序.如果两个结果集之间根本没有交集,当然使用union all而不是union.

 

二、Oracle表连接技术和应用.

1.数据库精髓之一:表连接.

2.最经典,最常用的表连接技术_嵌套循环.

      以举例方式,来形象、通俗地描述Oracle各种表连接技术。例如,如下语句,欲查询所有员工所在部门的所有情况:

select e.*,d.*
from emp e, dept d
where e.deptno = d.deptno;

      Oracle经典的嵌套循环(Nested_Loop)连接执行计划如下: 

       即先循环查询dept,再按dept每条记录去查询emp,找到dept对应部门的所有员工。 

       如果以图表示如下:

 

        也就是说Oracle是以两层循环方式实现两个表的连接和检索,其中dept表是外循环,emp表是内循环。

        那么我们把外循环表(dept)叫作外表或驱动表,内循环表(emp)叫作内表或被驱动表。

3.继续举例,如果要查询员工号为7499的员工信息和所在部门信息,语句如下:

select e.*,d.*
from emp e, dept d
where e.deptno = d.deptno
and e.empno=7499 ;

      为提高查询效率,Oracle应结合索引技术来实现上述操作。正确的查询方式应该是:先按照建立在empno字段上的索引去emp表查询empno为7499的员工信息,再根据7499所

在的部门号(deptno)去dept表查询该部门的详细信息,而且dept表的deptno字段上应该有索引。因此,这就是该语句的执行计划。

如果以图表示,如下:  

 

       所以单字段索引设计建议:如果是多表连接SQL语句,注意被驱动表(drived table)的连接字段是否需要创建索引。

       在上例中,被驱动表是dept,dept表连接字段是deptno。而emp的deptno字段是可以不需要建索引的。

       

 

继续举例,如果要查询员工号为7499的员工信息,并且部门在DALLAS的部门信息,语句如下:

select e.*,d.*
from emp e, dept d
where e.deptno = d.deptno
and e.empno = 7499 
and d.loc = 'DALLAS';

        正确的查询方式应该还是:先按照建立在empno字段上的索引去emp表查询empno为7499的员工信息,再根据7499所在部门号(deptno)去dept表查询该部门详细信息。此时

dept表还有一个条件:loc='DALLAS',因此可考虑按(deptno,loc)复合方式去查询dept表,效率更高,即可建立(deptno,loc)字段上的复合索引(idx_dept_2)。因此,这就

是该语句的执行计划: 

如果以图表示,如下: 



 

 

        复合索引设计建议:如果是多表连接SQL语句,注意是否可以在被驱动表(drived table)的连接字段与该表的其他约束条件字段上创建复合索引。

        在上例中,被驱动表是dept,dept表连接字段是deptno,而loc是其他约束条件,所以可以创建(deptno,loc)字段上的复合索引。而emp表的deptno字段是不需要建索引

的。

        需要进一步说明的是,为阐述在表连接中建立复合索引的重要性,作者故意将建立在deptno字段上的dept表的主键pk_dept先删除掉。因为有如下建议:如果单个字段是主

键或唯一字段,或者可选性非常高的字段,尽管约束条件字段比较固定,也不一定要建成复合索引,可建成单字段索引,降低复合索引开销。

        即在本例中,本来是不需要建立上述复合索引(idx_dept_2)的,只需要为dept表的loc字段建立单字段索引。

 

在Oracle中,适合于大批量数据处理的连接技术只有如下两类. 

1.排序合并连接(Sort/Merge)技术 

       该技术也非常易于理解,即两个表先按连接字段进行排序,再将两个表的排序结果进行顺序匹配,将合并结果返回给客户.以下是其示意图:



 例如:使用如下语句,查询所有员工所在部门的所有情况: 

select e.*, d.* 
from emp e, dept d 
where e.deptno = d.deptno;

 oracle采用排序合并连接技术的执行计划如下:

 即将DEPT表和EMP表先按deptno字段进行排序,再将两个表的排序结果进行顺序匹配,最后将合并结果返回给客户.

 

2.哈希连接(HASH)技术

       总体而言,哈希连接(HASH)技术和排序合并连接(Sort/Merge)技术一样,适合于大表与大表,更准备地讲是大数据量和大数据量的连接应用场景.而且通常情况下,哈希连接(HASH)技术性能优于排序合并连接(Sort/Merge)技术,更优于嵌套循环(Nested_Loop)连接技术.尤其是当哈希连接(HASH)与Oracle并行处理技术相结合的情况下,将极大地提高系统的整体吞吐量.以下是哈希连接(HASH)示意图:

  

 例如,如下语句,欲查询所有员工所在部门的所有情况:

select e.*, d.*
from emp e, dept d
where e.deptno = d.deptno;

 Oracle采用哈希连接(HASH)技术的执行计划如下:

 

 

 多表连接优化的基本思路

       国内很多IT系统的SQL语句经常让人望而生畏,不仅逻辑复杂,更是冗长地好几屏幕.但是,如前所述,关系数据库的精髓就是多表连接,再复杂的应用,其实也只是多表连接的实就Oracle每次都只进行两个表的连接.因此,只要按如下基本思路去优化多表连接,多复杂的应用都可以应付自如了.

 

总体思路

       首先应判断该语句是OLTP(联机事务处理)应用还是OLAP(联机分析处理)应用(见OLTP和OLAP文章). 

       如果是OLTP应用,则优化思路是由小到大,即从限制性最强,返回记录最少的连接开始,基本采用嵌套循环连接技术,依次完成其他表的连接,并在访问每张表时,合理使用索引,特别是复合索引技术.

       如果是OLAP应用,则优化思路基本是HASH加并行处理,表连接顺序不是最主要的.

 

OLTP应用的表连接优化

OLTP应用的表连接优化的基本思路如下:

        1.尽量将限制性最强的表作为驱动表.当然,驱动表上的限制性条件字段上应该有索引,包括主键 唯一索引或其他索引,复合索引等.

        2.考虑如下原则:在每次连接操作之后尽量保证返回记录数最少,传递给下一个连接操作.
        3.每次连接操作基本采用嵌套循环连接技术.
        4.尽量通过在被驱动表的连接字段上的索引,访问被驱动表.
        5.如果被驱动表上还有其他限制性条件,可以遵循复合索引创建原则,创建合适的复合索引.
        6.全表扫描也许是合理的.例如若干小表 代码表的访问.
        7.依次类推,顺序完成所有表的连接操作.

 

 

如何使用子查询(能不写子查询,尽量不写子查询,而是直接编写多表连接操作).

到底是使用in还是exists

        的确,并不是所有多表之间的访问都可以通过表连接方式完成.如果必须书写子查询代码,到底是使用in还是exists?

1.in和exists的原理.
       in操作的原理是先进行子查询操作,再进行主查询操作.例如,欲查询SALES部门的所有员工信息,以in方式编写的语句如下:

select e.*
  from emp e
 where e.deptno in (select d.deptno from dept d where d.dname = 'SALES')

其执行计划如下:

       即执行过程是:先按建立在dname字段上的索引IDX_DEPT_DNAME访问DEPT表,再按建立在EMP表的deptno字段上的索引IDX_EMP_DEPTNO访问EMP表.此时,EMP表成了被驱动表,因此应在EMP表的deptno字段上建立索引IDX_EMP_DEPTNO.
       上述查询,如果以exists方式编写,则语句如下:

select e.*
  from emp e
 where exists (select 1
          from dept d
         where e.deptno = d.deptno
           and d.dname = 'SALES')

其执行计划如下: 

       即通常情况下,exists操作的原理是先进行主查询操作,再到子查询中进行过滤.本例中:先进行EMP表的全表扫描,再根据每个员工的部门号deptno去DEPT表中查询是否是SALES部门,进行过滤.显然在这种情况下exists查询效率低于in操作.

 

2.in和exists的使用建议. 

       先回到前面讲的一个原理:Oracle里面只要该技术依然存在,就说明它一定有应用场景,否则就该直接被淘汰了.in和exists依然并存,说明它们一定有不同的应用场景.如果理解上述in和exists技术原理,就不难理解如下的关于in和exists的使用的一般性建议了.
       a.如果限制性强的条件在子查询,则使用in操作.
       b.如果限制性强的条件在主查询,则使用exists操作.
       上述例子适合使用in操作,而欲查询号为7499,并且部门位于DALLAS的详细员工信息,则适合使用如下的exists方式了:

select e.*
  from emp e
 where empno = 7499
   and exists (select 1
          from dept d
         where e.deptno = d.deptno
           and d.loc = 'DALLAS')

       在这里假设DALLAS包括多个部门,DEPT表的loc字段的可选性显然低于EMP表基于empno的主键.该语句的执行计划如下:  

       即先通过EMP表的empno字段上的主键PK_EMP,快速定位出empno=7499的记录,再通过该记录的deptno值,基于主键PK_DEPT去访问DEPT表,并过滤掉loc不为DALLAS的值.
而如果以in操作书写,则语句如下:

select e.*
  from emp e
 where empno = 7499
   and deptno in (select deptno from dept d where d.loc = 'DALLAS')

 执行计划如下:

       即先通过DEPT表的loc字段上的索引IDX_DEPT_LOC,查询出loc为DALLAS的部门信息,再通过deptno值,基于IDX_EMP_DEPTNO索引,去访问EMP表,并过滤掉empno不为7499的值.显然,在这种情况下,in操作效率低于exists操作. 

 

技术方面的总结:
1.尽量将限制性最强的表作为驱动表(外表).
2.尽量别写子查询.
3.再次诠释20/80规则(20%的简单技术可以解决80%的问题).

 

 

 

  • 大小: 12.9 KB
  • 大小: 11.4 KB
  • 大小: 15.3 KB
  • 大小: 11.6 KB
  • 大小: 13.3 KB
  • 大小: 16.5 KB
  • 大小: 13.2 KB
  • 大小: 19.3 KB
  • 大小: 9.2 KB
  • 大小: 12 KB
  • 大小: 19.1 KB
  • 大小: 14.1 KB
  • 大小: 20.3 KB
  • 大小: 21.2 KB
0
1
分享到:
评论

相关推荐

    几种常用的表连接方式

    - 当驱动表较小,或者内部表上的连接列具有唯一索引或高选择性的非唯一索引时,嵌套循环连接效率较高。 - 可以快速返回第一批结果,无需等待整个结果集生成。 **缺点**: - 如果内部表的连接列没有索引,或者索引...

    几种常用的表连接方式.doc

    - 当内存充足且参数设置允许时,哈希连接是优化器的首选,尤其在没有合适索引或嵌套循环连接效率低时。 - 哈希连接在处理大量数据时可能比嵌套循环连接和排序合并连接更快,因为它只需要对一张表排序。 - 然而,...

    ORACLE表连接方式分析及常见用法

    - 分析和调整连接顺序,有时改变表的连接顺序可以显著提高效率。 - 使用绑定变量避免硬解析,减少解析开销。 - 监控和调整数据库参数,如pga_aggregate_target和db_buffer_cache,以适应连接操作的需求。 总之,...

    解决Oracle分页查询中排序与效率问题

    该查询首先从`tZDYSX`表中选取数据,并通过连接`tuser`和`lborganization`表来获取更多的信息。接着按照`t.ID`字段进行排序。但此查询并没有实现分页功能。 为了实现分页,我们可以采用以下两种方法: 1. **简单...

    Oracle中表的连接及其调整.

    - 这种连接方法通常在两个大表之间进行,并且它们都有良好的排序顺序时效率较高。 3. 哈希连接(Hash Join) 哈希连接适用于处理大规模数据,尤其是在内存足够的情况下。它的工作步骤如下: - 创建一个哈希表,将...

    帆软:排序问题(通过帆软设置或者sql排序)

    1. **ORDER BY子句**:在帆软报表连接的数据源中,如果使用SQL查询数据,可以在查询语句末尾添加`ORDER BY`子句来指定排序字段及顺序。例如,`SELECT * FROM table ORDER BY column ASC/DESC`,`ASC`表示升序,`DESC...

    Oracle表连接方式

    如果表很大不能完全放入内存,这时优化器会将它分割成若干不同的分区,不能放入内存的部分就把该分区写入磁盘的临时段,此时要有较大的临时段从而尽量提高I/O的性能。临时段中的分区都需要换进内存做hash join。这...

    提高Oracle中SQL的执行效率

    在某些情况下,使用DECODE函数可以避免重复扫描相同记录或重复连接相同的表,从而提高查询效率。 #### 7. 整合简单、无关联的数据库访问 如果多个简单的查询之间没有关联,可以尝试将它们合并到一个查询中。这样...

    数据库表排序,主表子表放置外键约束

    因此,通过程序化的方式对主表和子表进行排序,可以确保在插入时满足外键约束,提高导入数据的效率。 在提供的文件中,我们可以看到以下几个关键组件: 1. **GetMessage.java**:这可能是负责从源数据库获取数据并...

    排序树 变成双向链表

    ### 排序树变成双向链表 在计算机科学领域,数据结构是算法设计与实现的基础。...这一转换不仅有助于提高数据处理的效率,还能够在实际应用中解决许多问题。掌握这一技能对于深入学习数据结构与算法具有重要意义。

    C语言数据结构链表排序

    在实际编程中,为了提高效率和代码的可读性,我们通常会定义结构体来表示链表节点,并编写函数来实现添加、删除和排序等功能。这些函数可以接受链表头指针作为参数,返回操作后的链表头指针,使得链表操作更加模块化...

    数据结构排序试验及代码

    在计算机科学领域,数据结构是支撑起整个学科体系的重要基石之一。其中,数据结构排序作为一项基础而核心的内容,是...排序试验及代码的学习,为学生未来在数据处理、算法优化、系统设计等方面的发展打下了坚实的基础。

    lianbiao.rar_链表 排序

    5. **冒泡排序和选择排序**:这两种简单排序算法在链表上实现起来相对直观,但效率较低,时间复杂度为O(n^2)。 资源中可能包含对这些排序算法的实现代码和时间复杂度分析,有助于理解它们在不同场景下的优劣。例如...

    提高Oracle查询效率

    - **减少子查询**:子查询可能导致多次表访问,合并子查询或使用连接操作有时能提高效率。 - **使用EXISTS替代IN**:当需要检查子查询结果是否包含主查询中的记录时,EXISTS通常比IN更快,因为它一旦找到匹配就...

    Oracle数据库表连接笔记.doc

    尽管这种方法可能导致大量I/O操作,但如果驱动表很小,它可以快速返回第一批结果,提高用户体验。 2. 排序合并连接(Sort-Merge Join)在两个已排序的表之间进行,需要先对参与连接的表进行排序。当处理大型表且...

    提高Oracle数据库查询效率

    ### 提高Oracle数据库查询效率 在Oracle数据库管理与优化领域,提高查询效率是至关重要的一个环节。这不仅能够显著提升应用程序的性能,还能减少数据库服务器的负载,从而为用户提供更流畅的服务体验。本文将结合...

    基于vc++6.0用链表实现归并排序

    - **效率**:归并排序的时间复杂度为O(n log n),空间复杂度为O(n),优于简单的交换排序(如冒泡和插入排序),但在内存使用上略高。 - **稳定性**:归并排序是稳定的排序算法,即相同元素的相对顺序在排序后保持...

    C语言数据结构内部排序算法及比较

    本文将深入探讨“C语言数据结构内部排序算法及比较”这一主题,结合个人课程作业的经验,对一些核心概念进行阐述,并对常见的内部排序算法进行比较。 首先,数据结构是组织和管理数据的方式,它包括数组、链表、树...

    ORACLE数据库SQL优化---表连接类型.docx

    - 排序合并连接(Sort Merge Join):两个已排序的表通过比较键值进行连接,适合大型表且有索引的情况。 - 嵌套循环连接(Nested Loops Join):驱动表的每一行与被驱动表的每一行进行比较,适合小表连接大表的...

    mysql数据库设计为表连接设计索引

    3. **哈希连接**:哈希连接本质上是使用哈希算法代替排序算法的合并扫描连接,可以显著提高排序过程的速度。这种方式特别适合于连接两个大表的情况。 #### 索引设计注意事项 在为连接查询设计索引时,需要注意以下...

Global site tag (gtag.js) - Google Analytics