在《数据库原理》里面,对聚簇索引的解释是:聚簇索引的顺序就是数据的物理存储顺序,而对非聚簇索引的解释是:索引顺序与数据物理排列顺序无关。正式因为如此,所以一个表最多只能有一个聚簇索引。
不过这个定义太抽象了。在SQL Server中,索引是通过二叉树的数据结构来描述的,我们可以这么理解聚簇索引:索引的叶节点就是数据节点。而非聚簇索引的叶节点仍然是索引节点,只不过有一个指针指向对应的数据块。如下图:
非聚簇索引
聚簇索引
聚簇索引与非聚簇索引的本质区别到底是什么?什么时候用聚簇索引,什么时候用非聚簇索引?
这是一个很复杂的问题,很难用三言两语说清楚。我在这里从SQL Server索引优化查询的角度简单谈谈(如果对这方面感兴趣的话,可以读一读微软出版的《Microsoft SQL Server 2000数据库编程》第3单元的数据结构引论以及第6、13、14单元)。
一、索引块与数据块的区别
大家都知道,索引可以提高检索效率,因为它的二叉树结构以及占用空间小,所以访问速度块。让我们来算一道数学题:如果表中的一条记录在磁盘上占用1000字节的话,我们对其中10字节的一个字段建立索引,那么该记录对应的索引块的大小只有10字节。我们知道,SQL Server的最小空间分配单元是“页(Page)”,一个页在磁盘上占用8K空间,那么这一个页可以存储上述记录8条,但可以存储索引800条。现在我们要从一个有8000条记录的表中检索符合某个条件的记录,如果没有索引的话,我们可能需要遍历8000条×1000字节/8K字节=1000个页面才能够找到结果。如果在检索字段上有上述索引的话,那么我们可以在8000条×10字节/8K字节=10个页面中就检索到满足条件的索引块,然后根据索引块上的指针逐一找到结果数据块,这样IO访问量要少的多。
二、索引优化技术
是不是有索引就一定检索的快呢?答案是否。有些时候用索引还不如不用索引快。比如说我们要检索上述表中的所有记录,如果不用索引,需要访问8000条×1000字节/8K字节=1000个页面,如果使用索引的话,首先检索索引,访问8000条×10字节/8K字节=10个页面得到索引检索结果,再根据索引检索结果去对应数据页面,由于是检索所有数据,所以需要再访问8000条×1000字节/8K字节=1000个页面将全部数据读取出来,一共访问了1010个页面,这显然不如不用索引快。
SQL Server内部有一套完整的数据检索优化技术,在上述情况下,SQL Server的查询计划(Search Plan)会自动使用表扫描的方式检索数据而不会使用任何索引。那么SQL Server是怎么知道什么时候用索引,什么时候不用索引的呢?SQL Server除了日常维护数据信息外,还维护着数据统计信息,下图是数据库属性页面的一个截图:
从图中我们可以看到,SQL Server自动维护统计信息,这些统计信息包括数据密度信息以及数据分布信息,这些信息帮助SQL Server决定如何制定查询计划以及查询是是否使用索引以及使用什么样的索引(这里就不再解释它们到底如何帮助SQL Server建立查询计划的了)。我们还是来做个实验。建立一张表:tabTest(ID, unqValue,intValue),其中ID是整形自动编号主索引,unqValue是uniqueidentifier类型,在上面建立普通索引,intValue 是整形,不建立索引。之所以挂上一个没有索引的intValue字段,就是防止SQL Server使用索引覆盖查询优化技术,这样实验就起不到作用了。向表中录入10000条随机记录,代码如下:
[ID] [int] IDENTITY (1, 1) NOT NULL ,
[unqValue] [uniqueidentifier] NOT NULL ,
[intValue] [int] NOT NULL
) ON [PRIMARY]
GO
ALTER TABLE [dbo].[tabTest] WITH NOCHECK ADD
CONSTRAINT [PK_tabTest] PRIMARY KEY CLUSTERED
(
[ID]
) ON [PRIMARY]
GO
ALTER TABLE [dbo].[tabTest] ADD
CONSTRAINT [DF_tabTest_unqValue] DEFAULT (newid()) FOR [unqValue]
GO
CREATE INDEX [IX_tabTest_unqValue] ON [dbo].[tabTest]([unqValue]) ON [PRIMARY]
GO
declare @i int
declare @v int
set @i=0
while @i<10000
begin
set @v=rand()*1000
insert into tabTest ([intValue]) values (@v)
set @i=@i+1
end
然后我们执行两个查询并查看执行计划,如图:(在查询分析器的查询菜单中可以打开查询计划,同时图上第一个查询的GUID是我从数据库中找的,大家做实验的时候可以根据自己数据库中的值来定):
从图中可以看出,在第一个查询中,SQL Server使用了IX_tabTest_unqValue索引,根据箭头方向,计算机先在索引范围内找,找到后,使用Bookmark Lookup将索引节点映射到数据节点上,最后给出SELECT结果。在第二个查询中,系统直接遍历表给出结果,不过它使用了聚簇索引,为什么呢?不要忘了,聚簇索引的页节点就是数据节点!这样使用聚簇索引会更快一些(不受数据删除、更新留下的存储空洞的影响,直接遍历数据是要跳过这些空洞的)。
下面,我们在SQL Server中将ID字段的聚簇索引更改为非聚簇索引,然后再执行select * from tabTest,这回我们看到的执行计划变成了:
SQL Server没有使用任何索引,而是直接执行了Table Scan,因为只有这样,检索效率才是最高的。
三、聚簇索引与非聚簇索引的本质区别
现在可以讨论聚簇索引与非聚簇索引的本质区别了。正如本文最前面的两个图所示,聚簇索引的叶节点就是数据节点,而非聚簇索引的页节点仍然是索引检点,并保留一个链接指向对应数据块。
还是通过一道数学题来看看它们的区别吧:假设有一8000条记录的表,表中每条记录在磁盘上占用1000字节,如果在一个10字节长的字段上建立非聚簇索引主键,需要二叉树节点16000个(这16000个节点中有8000个叶节点,每个页节点都指向一个数据记录),这样数据将占用8000条×1000字节/8K字节=1000个页面;索引将占用16000个节点×10字节/8K字节=20个页面,共计1020个页面。
同样一张表,如果我们在对应字段上建立聚簇索引主键,由于聚簇索引的页节点就是数据节点,所以索引节点仅有8000个,占用10个页面,数据仍然占有1000个页面。
下面我们看看在执行插入操作时,非聚簇索引的主键为什么比聚簇索引主键要快。主键约束要求主键不能出现重复,那么SQL Server是怎么知道不出现重复的呢?唯一的方法就是检索。对于非聚簇索引,只需要检索20个页面中的16000个节点就知道是否有重复,因为所有主键键值在这16000个索引节点中都包含了。但对于聚簇索引,索引节点仅仅包含了8000个中间节点,至于会不会出现重复必须检索另外1000个页数据节点才知道,那么相当于检索10+1000=1010个页面才知道是否有重复。所以聚簇索引主键的插入速度要比非聚簇索引主键的插入速度慢很多。
让我们再来看看数据检索的效率,如果对上述两表进行检索,在使用索引的情况下(有些时候SQL Server执行计划会选择不使用索引,不过我们这里姑且假设一定使用索引),对于聚簇索引检索,我们可能会访问10个索引页面外加1000个数据页面得到结果(实际情况要比这个好),而对于非聚簇索引,系统会从20个页面中找到符合条件的节点,再映射到1000个数据页面上(这也是最糟糕的情况),比较一下,一个访问了1010个页面而另一个访问了1020个页面,可见检索效率差异并不是很大。所以不管非聚簇索引也好还是聚簇索引也好,都适合排序,聚簇索引仅仅比非聚簇索引快一点。
结语
好了,写了半天,手都累了。关于聚簇索引与非聚簇索引效率问题的实验就不做了,感兴趣的话可以自己使用查询分析器对查询计划进行分析。SQL Server是一个很复杂的系统,尤其是索引以及查询优化技术,Oracle就更复杂了。了解索引以及查询背后的事情不是什么坏事,它可以帮助我们更为深刻的了解我们的系统。
相关推荐
在SQL Server数据库中,索引是提升数据处理效率的...合理使用聚簇索引、非聚簇索引和覆盖索引,结合对查询模式的深入理解和系统负载的实时监控,可以显著提高SQL Server的数据处理效率,从而提升整个应用系统的性能。
SqlServer索引工作原理可以分为两大类:聚簇索引和非聚簇索引。 聚簇索引是一种树形结构的索引,它的数据物理存储顺序和索引顺序一致的。聚簇索引的数据页是按照顺序排列的,例如按照LastName的顺序排列的。聚簇...
- 非聚簇索引:不包含数据行的物理位置,仅存储键值和指向数据行的指针。 - 聚簇索引:索引结构决定了数据在磁盘上的物理存储顺序,每个表只能有一个聚簇索引。 2. **索引类型** - B树(B-Trees):最常见的索引...
与聚簇索引相比,非聚簇索引更适合于查找特定值的查询,但可能不太适合范围查询,因为需要通过索引项指向的数据行进行查找。 #### 三、索引属性 - **复合索引**:可以同时基于多个列创建索引,称为复合索引。复合...
- **区别**:文章深入分析了聚簇索引和非聚簇索引之间的区别,以及它们各自的适用场景。 - **选择依据**:虽然两者各有优势,但在具体选择时还需要考虑多种因素,包括数据特性、查询模式等。 - **一与二**:通过两篇...
本文针对SQL Server的索引技术进行了详细的探讨,并提供了聚簇索引和非聚簇索引的详细信息。 聚簇索引是数据库索引的一种,它决定了表中数据的物理存储顺序。在聚簇索引中,数据行按照索引键的顺序存储在数据页上。...
例如,对于住房公积金管理系统中的个人明细表p_detail,可以根据查询习惯和业务需求,针对性地创建聚簇或非聚簇索引,以优化查询性能。 总之,SQL Server的索引设计是一个平衡的过程,既要考虑查询速度的提升,也要...
3. **覆盖索引**:覆盖索引是包含查询所需所有数据的非聚簇索引,这样查询可以直接从索引中获取结果,无需访问数据页。覆盖索引可以显著提高查询速度,但索引项过多会占用更多空间,更新操作也会引起更多的开销。...
总结以上,优化处理SQL Server数据库索引,需根据实际业务需求,结合表的更新频率、查询类型以及数据分布特点,合理配置聚簇索引和非聚簇索引,并注意索引维护的成本。通过这些策略,可以有效地提升数据库的性能,...
适合建立非聚簇索引的情况包括:用于集合函数的列、常参与JOIN、ORDER BY和GROUP BY操作的列,以及查询数据量小于表数据总量20%的情况。 覆盖索引(Covering Indexes)是另一种优化策略,这种索引包含了查询所需的...
数据库中的索引是提高数据检索效率的关键工具,分为聚簇索引和非聚簇索引两种类型。聚簇索引决定了数据在磁盘上的物理存储顺序,因此索引的叶子节点就是实际的数据行。而非聚簇索引则独立于数据的物理顺序,其叶子...
非聚簇索引可以加速对非唯一字段的搜索,而聚簇索引则决定了数据在物理存储上的顺序。使用覆盖索引可以减少I/O操作,提高查询速度。同时,定期重建和重新组织索引可以避免碎片,保持索引的高效性。 避免全表扫描是...
本文首先介绍了索引的相关概念和分类,然后以SQL Server的样本数据库(Northwind)为例,创建和使用聚簇索引和非聚簇索引,最后得出了索引创建和使用过程中的若干结论,旨在为SQL Server数据库索引创建和优化工作方面...
4.3.2 与非聚簇索引的关系 110 4.3.3 聚簇索引建议 112 4.4 非聚簇索引 117 4.4.1 非聚簇索引维护 117 4.4.2 定义书签查找 117 4.4.3 非聚簇索引建议 118 4.5 聚簇索引vs.非聚簇索引 118 4.5.1 聚簇索引相...
在建立非聚簇索引时,要权衡索引对查询速度的加快与降低修改速度之间的利弊。另外还要考虑以下问题:索引需要使用多少空间,合适的列是否稳定,索引键是如何选择的,扫描效果是否更佳,一是否有许多重复值。 三、...
本文将深入探讨SQL Server中的聚簇索引、非聚簇索引以及覆盖索引的使用策略。 首先,聚簇索引是数据库中的一种特殊索引,它决定了数据在磁盘上的物理排列顺序。由于索引页直接指向数据页,使用聚簇索引进行查找通常...
#### 四、SQL Server非聚簇索引设计 - **选择合适的列**:选择经常出现在WHERE子句中的列,以及JOIN操作中的列。 - **复合索引**:当单个列不足以支持高效的查询时,可以考虑创建包含多个列的复合索引。 - **统计...
SQL Server使用B-树结构的索引,包括聚簇索引和非聚簇索引。聚簇索引根据数据表的物理顺序存储数据,而非聚簇索引则保持逻辑顺序。建立索引时,应遵循一些基本原则,例如,主键上建立簇索引、对有大量重复值的列建立...
#### 聚簇索引与非聚簇索引 - **聚簇索引(Clustered Index)**:数据行的物理顺序与索引的逻辑顺序相同。也就是说,聚簇索引决定了表中数据的存储顺序。 - **非聚簇索引(Non-Clustered Index)**:数据行的物理顺序与...