`

Oracle直方图解析

阅读更多

一.何谓直方图:
直方图是一种统计学上的工具,并非Oracle专有。通常用于对被管理对象的某个方面的质量情况进行管理,通常情况下它会表现为一种几何图形表,这个图形表是根据从实际环境中所收集来的被管理对象某个方面的质量分布情况的数据所绘制成的,通常会画成以数量为底边,以频度为高度的一系列连接起来的矩形图,因此直方图在统计学上也称为质量分布图。比如下图所示,是一个以关学生化学考试成绩分数分布情况绘制的直方图:
 
二.Oracle中直方图的作用:
既然直方图是一种对被管理对象某一方面质量进行管理的描述工具,那么在Oracle中自然它也是对Oracle中某个对象质量的描述工具,这个对象就是Oracle中最重要的东西——“数据”。
在Oracle中直方图是一种对数据分布质量情况进行描述的工具。它会按照某一列不同值出现数量多少,以及出现的频率高低来绘制数据的分布情况,以便能够指导优化器根据数据的分布做出正确的选择。在某些情况下,表的列中的数值分布将会影响优化器使用索引还是执行全表扫描的决策。当 where 子句的值具有不成比例数量的数值时,将出现这种情况,使得全表扫描比索引访问的成本更低。这种情况下如果where 子句的过滤谓词列之上上有一个合理的正确的直方图,将会对优化器做出正确的选择发挥巨大的作用,使得SQL语句执行成本最低从而提升性能。

三.Oracle中使用直方图的场合:
在分析表或索引时,直方图用于记录数据的分布。通过获得该信息,基于成本的优   化器就可以决定使用将返回少量行的索引,而避免使用基于限制条件返回许多行的索引。直方图的使用不受索引的限制,可以在表的任何列上构建直方图。
构造直方图最主要的原因就是帮助优化器在表中数据严重偏斜时做出更好的规划:例如,如果一到两个值构成了表中的大部分数据(数据偏斜),相关的索引就可能无法帮助减少满足查询所需的I/O数量。创建直方图可以让基于成本的优化器知道何时使用索引才最合适,或何时应该根据WHERE子句中的值返回表中80%的记录。
通常情况下在以下场合中建议使用直方图:
 (1)、当Where子句引用了列值分布存在明显偏差的列时:当这种偏差相当明显时,以至于 WHERE 子句中的值将会使优化器选择不同的执行计划。这时应该使用直方图来帮助优化器来修正执行路径。(注意:如果查询不引用该列,则创建直方图没有意义。这种错误很常见,许多 DBA 会在偏差列上创建柱状图,即使没有任何查询引用该列。)

(2)、当列值导致不正确的判断时:这种情况通常会发生在多表连接时,例如,假设我们有一个五项的表联接,其结果集只有 10 行。Oracle 将会以一种使第一个联接的结果集(集合基数)尽可能小的方式将表联接起来。通过在中间结果集中携带更少的负载,查询将会运行得更快。为了使中间结果最小化,优化器尝试在 SQL 执行的分析阶段评估每个结果集的集合基数。在偏差的列上拥有直方图将会极大地帮助优化器作出正确的决策。如优化器对中间结果集的大小作出不正确的判断,它可能会选择一种未达到最优化的表联接方法。因此向该列添加直方图经常会向优化器提供使用最佳联接方法所需的信息。

四、如何使用直方图:

(1)、创建直方图:

   通过使用早先的analyze命令和最新的dbms_stats工具包都可以创建直方图。Oracle推荐使用后者来创建直方图,而且直方图的创建不受任何条件限制,可以在一张表上的任何你想创建直方图的列上创建直方图。我们这里主要介绍如何通过dbms_stats包来创建直方图。
   Oracle 通过指定 dbms_stats 的 method_opt 参数,来创建直方图。在 method_opt 子句中有三个相关选项,即 skewonly、repeat 和 auto。
  “skewonly” 选项,它的时间性很强,因为它检查每个索引中每列值的分布。如果 dbms_stats 发现一个索引中具有不均匀分布的列,它将为该索引创建直方图,以帮助基于成本的 SQL 优化器决定是使用索引还是全表扫描访问。示例如下:
        begin
      dbms_stats. gather_table_stats (
                         wnname => '',
                         tabname=>'',
                         estimate_percent =>dbms_stats.auto_sample_size,
                         method_opt       => 'for all columns size skewonly',
                         cascade=>true,
                          degree=> 7);
end;

     其中degree指定了并行度视主机的CPU个数而定,estimate_percent指定了采样比率,此处使用了auto目的是让oracle来决定采样收集的比率,绘制直方图时会根据采样的数据分析结果来绘制,当然也可以人为指定采样比率。如:estimate_percent=>20指定采样比率为20%,cascade=>true指定收集相关表的索引的统计信息,该参数默认为false,因此使用dbms_stats收集统计信息时抹人事部收集表的索引信息的。

     在对表实施监视 (alter table xxx monitoring;) 时使用 auto 选项,它基于数据的分布以及应用程序访问列的方式(例如由监视所确定的列上的负载)来创建直方图。示例如下:

begin
             dbms_stats.gather_ table _stats(
              ownname          => '',
              tabname          =>'',
              estimate_percent => dbms_stats.auto_sample_size,
              method_opt       => 'for all columns size auto',
              cascade          =>true,
              degree           => 7
           );
end;

     重新分析统计数据时,使用repeat选项,重新分析任务所消耗的资源就会少一些。使用repeat选项时,只会为现有的直方图重新分析索引,不再生成新的直方图。示例如下:
             dbms_stats.gather_ table _stats(
              ownname           => '',
              tabname           =>'',
              estimate_percent  => dbms_stats.auto_sample_size,
              method_opt        => 'for all columns size repeat',
              cascade           =>true,
              degree            => 7
            );
end;

(2)、创建直方图的考虑因素:
 如果想为某一列创建直方图,示例如下:
           dbms_stats.gather_ table _stats(
            ownname            => '',
            tabname            =>'',
            estimate_percent   => dbms_stats.auto_sample_size,
            method_opt         => 'for columns size 10 列名',`
            cascade            =>true,
            degree             => 7

);

end;

           其中size 10指定的是直方图所需的存储桶(bucket)数,所谓存储桶可以理解为存储数据的容器,这个容器会按照数据的分布将数据尽量平均到各个桶里,如一张表如果有6000条记录,那么每个桶中平均就会有600条记录,但这只是一个平均数,每个桶中的记录数并不会相等,它会将高频出现记录集中在某一些桶中,低频记录会存放在少量桶中,因此如果存储桶(bucket)数合适的增加就会减少高频记录使用的桶数,统计结果也会更加准确(可以避免被迫将低频记录存入高频桶中,影响优化器生成准确的执行计划)。所以我们最后得到的直方图信息的准确性就由两个数值决定,一个是BUCTET的个数,一个NUM_DISTINCT的个数。所以创建直方图时首先要正确地估计存储桶(bucket)数。默认情况时,Oracle的直方图会产生75个存储桶。可以把SIZE的值指定在1~254之间。
(3)、删除直方图信息:
     在oracle中要删除直方图信息就是设置bucket的数据为1,可以使用如下两个命令来实现:
   Analyze table compute statistics for table for columns id size 1;
   exec dbms_stats.gather_table_stats('user', 'table',cascade=>false, method_opt=>'for columns  size 1');
五,Oracle直方图的种类:
        Oracle利用直方图来提高非均匀数据分布的选择率和技术的计算精度。但是实际上Oracle会采用另种不同的策略来生成直方图:其中一种是针对包含很少不同值的数据集;另一种是针对包含很多不同的数据集。Oracle会针对第一种情况生成频率直方图,针对第二种情况生成高度均衡直方图。通常情况下当BUCTET < 表的NUM_DISTINCT值得到的是HEIGHT BALANCED(高度平衡)直方图,而当BUCTET = 表的NUM_DISTINCT值的时候得到的是FREQUENCY(频率)直方图。由于满足BUCTET = 表的NUM_DISTINCT值概率较低,所以在Oracle中生成的直方图大部分是HEIGHT BALANCED(高度平衡)直方图。在Oracle 10GR2之前如果使用dbms_stats包来创建直方图,那么如果指定需要创建的直方图的桶的数目与表的NUM_DISTINCT值相等,那么几乎无法创建出一个FREQUENCY(频率)直方图,此时为了得到频率直方图只能使用analyze命令的“for all columns size 表的NUM_DISTINCT值”,这在某种程度上来说是一个退步,但这个问题在Oracle 10GR2后被修正。但是如果列中有180 - 200个不同值时,还是无法创建FREQUENCY(频率)直方图.此时需要手工建立直方图,并写入数据字典方能完成FREQUENCY(频率)直方图的创建。

       对于含有较少的不同值而且数据分布又非常不均匀的数据集来说,创建FREQUENCY(频率)直方图将会更加合适,因为它不存在会将低频出现的记录存入高频桶中的情况,而HEIGHT BALANCED(高度平衡)直方图在存储桶(bucket)数分配不合理时就可能会出现这种情况。因此一定要在创建直方图前确定使用何种直方图,并且要合理估计存储桶(bucket)数。

分享到:
评论

相关推荐

    Oracle 直方图解析.pdf

    ### Oracle直方图解析深度解读 #### 一、直方图概述 直方图作为一种统计学工具,在Oracle数据库中扮演着关键角色。本质上,直方图是对数据分布情况的一种图形化表示,它通过一系列相连的矩形来展示数据在各个区间...

    【Maclean Liu技术分享】拨开Oracle CBO优化器迷雾,探究Histogram直方图之秘_0321.pdf

    ### Oracle CBO优化器与直方图(Histogram)解析 #### 概述 在数据库管理领域,Oracle CBO(Cost-Based Optimizer)成本基于优化器是Oracle数据库管理系统中用于确定查询执行计划的一种重要机制。通过分析SQL语句,...

    OracleSql规则与优化

    综上所述,Oracle SQL的规则与优化涉及了从SQL语句的分类、执行流程、解析策略到绑定变量的使用、直方图的构建等多个方面。理解并熟练应用这些知识点,不仅可以提升SQL执行效率,还能为整个系统的性能优化打下坚实的...

    oracle 圆桌会议交流文档 性能相关

    可以使用`dbms_stats.delete_column_stats`包来删除列的直方图信息,并重新收集无直方图的统计信息,以改善执行计划的适应性。 在某些情况下,使用DCL语句(如`grant select on table_name to user_name`)可以使...

    大数据开发oracle试题

    dba_histograms**:包含列级直方图统计信息。 - **E. dbs_tables**:不正确的视图名称;应该是dba_tables,其中包含表的基本统计信息。 **15. Unix上安装Oracle和创建数据库,以下哪些环境变量必须需要设置** **...

    Oracle更新分析

    - **`repeat`**: 仅重新分析已有直方图的索引。 - **`auto`**: 根据数据库自动决定最佳收集方式。 #### 四、`estimate_percent`参数 该参数用于指定采样率。Oracle提供了`dbms_stats.auto_sample_size`来自动计算...

    PeopleSoft Enterprise Performance on Oracle 10G

    7. **直方图**:直方图用于描述列值分布情况,对于高度倾斜的数据特别有用。在PeopleSoft应用中,应识别出适合创建直方图的列,并定期更新直方图信息。 三、审查专用临时表:优化临时数据处理 1. **专用临时表工作...

    Oracle复习总结

    然而,它可能导致SQL优化困难,无法使用直方图,可能影响执行计划的稳定性。 10. **稳定执行计划**:可以通过设置查询重写(query_rewrite_enabled)、星型转换(star_transformation_enabled)和优化器特性启用...

    oracle 索引不能使用深入解析

    可以通过单独分析索引列或创建直方图来提供更精确的统计信息。 第九,索引列是否允许为空值(NULL)。在SQL查询中,涉及到包含NULL值的计算(如COUNT(*))通常不会使用索引,而是进行全表扫描。 最后,要注意并行...

    2019年Oracle Open World大会PPT合集(50份).zip

    2019年Oracle Open World大会PPT合集(50份) DBA未来的工作方向及技能要求 Exadata性能诊断 MySQL性能优化可扩展性 ...MySQL 8.0 有了直方图信息可快速检索几十亿商品信息 MySQL8.0 外键增强 等等

    Killtest 免费提供 1Z0-035 资料下载

    - **选项A**:“Oracle服务器根据现有直方图定义为所有表、列和索引统计信息创建新的直方图”这个描述不够准确,因为“forallcolumnssizeAUTO”并不意味着简单地基于现有定义来创建新直方图。 - **选项B**:“Oracle...

    读取RAW图像并转换为BMP文件

    1. **解析RAW文件**:根据相机制造商提供的规格文档或开源库(如libraw)来解析RAW文件。这通常包括解码颜色滤镜阵列(如 Bayer pattern)、应用暗电流校正、白平衡等预处理步骤。 2. **色彩空间转换**:RAW图像...

    SQL与性能优化(云和恩墨)

    文档还探讨了如何编写更好的SQL查询、SQL特性的解析、SQL性能优化方法、数据库性能优化的逻辑入手、表分区和统计信息背后的小秘密、直方图统计信息的应用、复合索引的利用、like语句在SQL中的使用优化、区间检索、子...

    (E文)基于成本的Oracle优化法则.pdf

    - **7.2.2 Oracle何时忽略直方图**:说明Oracle在何种情况下会忽略直方图信息。 - **7.3 频率直方图**: - **7.3.1 伪造频率直方图**:探讨创建假频率直方图的方法及其应用场景。 - **7.3.2 注意事项**:列出使用...

    Oracle AWR report in-depth analysis.pdf

    - 等待事件直方图:对等待事件的时间分布进行详细分析。 - 服务相关统计信息:提供数据库服务性能的概览。 - SQL部分:SQL执行的详细统计和性能指标。 - 实例活动统计信息:实例级别的活动信息。 - 表空间I/O统计...

    Oracle查询优化改写 技巧与案例 .zip

    5. **分组和聚合函数**:GROUP BY和HAVING子句用于数据分组和聚合,优化时需关注是否能减少分组的行数,或者使用直方图统计信息来估算结果集大小。 6. **并行查询**:对于大型数据处理,Oracle支持并行查询。通过...

Global site tag (gtag.js) - Google Analytics