SQL Server提供索引主要有两个原因:其一是作为一种实施保证数据库表中数据唯一性的方法;其二,提供了一种快速访问表中数据的方法。创建合适的索引是数据库物理设计时最为重要的方面之一。因为你不能在一个表上无限制地创建索引,而且不管怎么说,它也是不是可行的。所以,你将想在一些具有高选择性(high Selectivity )的列上创建索引,这样,查询时系统将会利用这些索引。一个索引的选择性定义如下:
引用
选择率 = (唯一索引值的个数)/ (表中所有行数)
Selectivity ratio = (Number of unique index values)/ (Total number of rows in the table)
如果选择率高,——也就是说,大量行都可以用索引键值来唯一标识——那么该索引就具有高选择性,即对优化器来说也是有用的。最佳的选择性是1,即每一行都有一个唯一的索引键值。低选择性意味着表中有许多重复的键值,这样的索引将很少有用。SQL Server优化器基于索引的选择性来决定对一个查询是否使用索引。越高的选择性,SQL Server检索结果集(Result set)就越快和越有效。
例如,你正在对authors 表中的索引的有效性进行评估。假如大多数查询访问表时是以author's last name或者state来进行访问的。因为大量的并发用户会修改该表的数据,你只允许一个索引——author's last name或者state,你将会选择谁?让我们进行一些分析来判断哪个索引更有效些,或者更有选择性。首先,利用一个查询来确定pubs数据库中author表的last name列的有效性:
select count(distinct au_lname) as '# unique',
count(*) as '# rows',
str(count(distinct au_lname) / cast (count(*) as real),4,2) as 'selectivity'
from authors
go
# unique # rows selectivity
----------- ----------- -----------
22 23 0.96
author表的au_lname列的有效率计算值为0.96,表明在au_lname创建的索引将具有高选择性,也是一个好的候选索引。除了一行外,其余所有行的last name值都唯一。
现在,来分析state列的选择性:
select count(distinct state) as '# unique',
count(*) '# rows',
str(count(distinct state) / cast (count(*) as real),4,2) as 'selectivity'
from authors
go
# unique # rows selectivity
----------- ----------- -----------
8 23 0.35
正如你所看到的,state列的索引选择率(0.35)比au_lname索引选择率要低很多,将不太有用。
对于这一点,你可能会问,是否因为state列中的一些值具有较高的重复性而导致了选择性的下降,或者说仅仅只有一些值具有唯一性。你可以用下面的查询来确定:
select state, count(*)
from authors
group by state
order by 2 desc
go
state
----- -----------
CA 15
UT 2
TN 1
MI 1
OR 1
IN 1
KS 1
MD 1
正如你所预料到的,state值,除了一个外,其余值都相对唯一。因为表中有多一半的state值都为‘CA’。所以state可能不是一个好的候选索引列,特别是假如大部分时间你都以CA来进行查询,此时,SQL Server将发现扫描整个表将比借助索引进行查询数据更有效。
一般来说,如果一个键值的选择率低于0.85,那么优化器通常会选择表扫描来处理查询。在这种情况下,完成表扫描来获取所有满足条件的数据行将比通过B-Tree来定位大量数据行来查找更有效率。
如果有更多的索引可以选择,那么SQL Server将怎样来确定每个索引是否具有选择性和到底选择哪一个索引对用户来说更有效呢?例如,SQL Server怎么知道下面的索引能够返回多少行?
select * from table where key between 1000000 and 2000000
如果该表在0到20,000,000之间有10,000,000行记录,优化器如何知道是用一个索引还是进行表扫描呢?如果在该范围内有10行记录,或者900,000,又如何选择?SQL Server如何来估计在1,000,000 至2,000,000之间有多少行?等等诸如此类的问题,优化器是从索引统计(Index Statistics)中获得这些信息的。
欲知后事如何,且听下回分解,Index Statistics。
分享到:
相关推荐
在机器学习领域,模型的性能评估是至关重要的。"evaluating indicator.rar"这个压缩包文件显然是为了提供五种常用的分类模型性能测试指标,这有..."evaluating indicator.rar"提供的工具将帮助我们有效地完成这一过程。
Evaluating Python expressions
Evaluating derivatives principles and techniques of algorithmic differentiation
Evaluating covariance in prognostic and system health management applications;协方差评估
Information Retrieval Implementing and Evaluating Search Engines Stefan B¨uttcher Charles L. A. Clarke Gordon V. Cormack
通过本书,读者可以了解到如何更有效地计算导数,并理解自动微分在现代科学计算和工程应用中的重要性。 #### 二、正向与反向模式之外 ##### 1. 交叉国家消除法 正文中提到的“交叉国家(cross-country)”消除法...
它能够有效地管理容器化的应用程序,并在集群环境中提供高可用性和弹性。 #### Kubernetes背景及概述 随着技术的发展,工作负载已经从传统的虚拟机(VM)向容器化转移,这是因为容器提供了更好的资源利用率、更快...
标题“Evaluating Multiple Object Tracking Performance - The Clear MOT Metrics”和描述都指向了一篇关于多目标跟踪性能评估方法的研究文章。Clear MOT Metrics(清晰的多目标跟踪度量标准)是文章中提出的一种新...
### 建筑物受开挖影响的损害评估 ...此外,通过对具体案例的研究,进一步验证了该模型的有效性和可靠性。这种综合性的方法不仅有助于改善现有建筑物的安全性,也为未来城市建筑的发展提供了有益的参考。
- **收集反馈**:通过问卷调查、访谈等方式收集用户的主观评价。 3. **大规模在线实验**:在真实的生产环境中进行 A/B 测试等实验,观察用户的行为变化。 - **实验设计**:确定实验组与对照组,控制其他变量的...
一份研究生项目的报告,研究与目前使用的C和C ++语言相比,将Java用于游戏是否具有优势。
3. **递归神经网络(RNN)**配置成FIR(有限冲击响应)模型结构:RNNs擅长处理序列数据,通过其循环结构保留了时间依赖性,FIR模型则提供了对系统响应的离散时间表示。 作者在配备了Exynos 5422 SoC的Odroid-XU4...
Survival Guide for Application Leaders Evaluating
电子病历系统功能应用水平...医疗机构需要根据自己的实际情况,选择合适的评价标准,evaluating the application level of its electronic medical record system, and continuously improving its application level.
2021 Guideline for evaluating Bias Temperature Inst"指的是JEDEC固态技术协会发布的一份技术标准文档,JEP184是该标准的编号,内容主要涉及评估硅碳化物金属氧化物半导体设备在功率电子转换中的偏置温度不稳定性...
### 对抗性流量样本 Adversarial Network Traffic: Towards Evaluating the Robustness of Deep Learning-Based Network Traffic Classifiers #### 概述 随着网络流量管理、策略实施和入侵检测等领域的不断发展,...
Evaluating Machine Learning Models A Beginner's Guide to Key Concepts and Pitfalls http://www.oreilly.com/data/free/evaluating-machine-learning-models.csp Data science today is a lot like the Wild ...
Survival for Application Leaders Evaluating Implementing O365
A Methodology for Evaluating Geographic Profiling Software