skiplist介绍
跳表(skip List)是一种随机化的数据结构,基于并联的链表,实现简单,插入、删除、查找的复杂度均为O(logN)。跳表的具体定义,
请参考参考维基百科
点我,中文版。跳表是由William Pugh发明的,这位确实是个大牛,搞出一些很不错的东西。简单说来跳表也是
链表的一种,只不过它在链表的基础上增加了跳跃功能,正是这个跳跃的功能,使得在查找元素时,跳表能够提供O(log n)的时间复杂
度。红黑树等这样的平衡数据结构查找的时间复杂度也是O(log n),并且相对于红黑树这样的平衡二叉树skiplist的优点是更好的支持并
发操作,但是要实现像红黑树这样的数据结构并非易事,但是只要你熟悉链表的基本操作,再加之对跳表原理的理解,实现一个跳表数据
结构就是一个很自然的事情了。
此外,跳表在当前热门的开源项目中也有很多应用,比如LevelDB的核心数据结构memtable是用跳表实现的,redis的sorted set数据
结构也是有跳表实现的。
skiplist主要思想
先从链表开始,如果是一个简单的链表(不一定有序),那么我们在链表中查找一个元素X的话,需要将遍历整个链表直到找到元素X为止。
现在我们考虑一个有序的链表:
从该有序表中搜索元素 {13, 39} ,需要比较的次数分别为 {3, 5},总共比较的次数为 3 + 5 = 8 次。我们想下有没有更优的算法? 我们想到了对于
有序数组查找问题我们可以使用二分查找算法,但对于有序链表却不能使用二分查找。这个时候我们在想下平衡树,比如BST,他们都是通过把一些
节点取出来作为其节点下某种意义的索引,比如父节点一般大于左子节点而小于右子节点。因此这个时候我们想到类似二叉搜索树的做法把一些
节点提取出来,作为索引。得到如下结构:
在这个结构里我们把{3, 18, 77}提取出来作为一级索引,这样搜索的时候就可以减少比较次数了,比如在搜索39时仅比较了3次(通过比较3,18,39)。
当然我们还可以再从一级索引提取一些元素出来,作为二级索引,这样更能加快元素搜索。
这基本上就是跳表的核心思想,其实是一种通过“空间来换取时间”的一个算法,通过在每个节点中增加了向前的指针(即层),从而提升查找的效率。
跳跃列表是按层建造的。底层是一个普通的有序链表。每个更高层都充当下面列表的「快速跑道」,这里在层 i 中的元素按某个固定的概率 p (通常
为0.5或0.25)出现在层 i+1 中。平均起来,每个元素都在 1/(1-p) 个列表中出现, 而最高层的元素(通常是在跳跃列表前端的一个特殊的头元素)
在 O(log1/p n) 个列表中出现。
SkipList基本数据结构及其实现
一个跳表,应该具有以下特征:
1,一个跳表应该有几个层(level)组成;
2,跳表的第一层包含所有的元素;
3,每一层都是一个有序的链表;
4,如果元素x出现在第i层,则所有比i小的层都包含x;
5,每个节点包含key及其对应的value和一个指向同一层链表的下个节点的指针数组
如图所示。
跳表基本数据结构
定义跳表数据类型:
- typedefstructskip_list
- {
- intlevel;
- Node*head;
- }skip_list;
其中level是当前跳表最大层数,head是指向跳表的头节点如上图。
跳表的每个节点的数据结构:
- typedefstructnode
- {
- keyTypekey;
- valueTypevalue;
- structnode*next[1];
- }Node;
对于这个结构体重点说说,struct node *next[1] 其实它是个柔性数组,主要用于使结构体包含可变长字段。我们可以通过如下方法得到包含可变
层数(n)的Node *类型的内存空间:
#define new_node(n)((Node*)malloc(sizeof(Node)+n*sizeof(Node*)))
通过上面我们可以根据层数n来申请指定大小的内存,从而节省了不必要的内存空间(比如固定大小的next数组就会浪费大量的内存空间)。
跳表节点的创建
- Node*create_node(intlevel,keyTypekey,valueTypeval)
- {
- Node*p=new_node(level);
- if(!p)
- returnNULL;
- p->key=key;
- p->value=val;
- returnp;
- }
跳表的创建
列表的初始化需要初始化头部,并使头部每层(根据事先定义的MAX_LEVEL)指向末尾(NULL)
- skip_list*create_sl()
- {
- skip_list*sl=(skip_list*)malloc(sizeof(skip_list));
- if(NULL==sl)
- returnNULL;
- sl->level=0;
- Node*h=create_node(MAX_L-1,0,0);
- if(h==NULL)
- {
- free(sl);
- returnNULL;
- }
- sl->head=h;
- inti;
- for(i=0;i<MAX_L;++i)
- {
- h->next[i]=NULL;
- }
- srand(time(0));
- returnsl;
- }
跳表插入操作
我们知道跳表是一种随机化数据结构,其随机化体现在插入元素的时候元素所占有的层数完全是随机的,层数是通过随机算法产生的:
- intrandomLevel()
- {
- intlevel=1;
- while(rand()%2)
- level++;
- level=(MAX_L>level)?level:MAX_L;
- returnlevel;
- }
相当与做一次丢硬币的实验,如果遇到正面(rand产生奇数),继续丢,遇到反面,则停止,用实验中丢硬币的次数level作为元素占有的层数。
显然随机变量 level 满足参数为 p = 1/2 的几何分布,level 的期望值 E[level] = 1/p = 2. 就是说,各个元素的层数,期望值是 2 层。
由于跳表数据结构整体上是有序的,所以在插入时,需要首先查找到合适的位置,然后就是修改指针(和链表中操作类似),然后更新跳表的
level变量。 跳表的插入总结起来需要三步:
1:查找到待插入位置, 每层跟新update数组;
2:需要随机产生一个层数;
3:从高层至下插入,与普通链表的插入完全相同;
比如插入key为25的节点,如下图。
对于步骤1,我们需要对于每一层进行遍历并保存这一层中下降的节点(其后继节点为NULL或者后继节点的key大于等于要插入的key),如下图,
节点中有白色星花标识的节点保存到update数组。
对于步骤2我们上面已经说明了是通过一个随机算法产生一个随机的层数,但是当这个随机产生的层数level大于当前跳表的最大层数时,我们
此时需要更新当前跳表最大层数到level之间的update内容,这时应该更新其内容为跳表的头节点head,想想为什么这么做,呵呵。然后就是更
新跳表的最大层数。
对于步骤3就和普通链表插入一样了,只不过现在是对每一层链表进行插入节点操作。最终的插入结果如图所示,因为新插入key为25的节点level随机
为4大于插入前的最大层数,所以此时跳表的层数为4。
实现代码如下:
- boolinsert(skip_list*sl,keyTypekey,valueTypeval)
- {
- Node*update[MAX_L];
- Node*q=NULL,*p=sl->head;
- inti=sl->level-1;
- for(;i>=0;--i)
- {
- while((q=p->next[i])&&q->key<key)
- p=q;
- update[i]=p;
- }
- if(q&&q->key==key)
- {
- q->value=val;
- returntrue;
- }
- intlevel=randomLevel();
- if(level>sl->level)
- {
- for(i=sl->level;i<level;++i)
- {
- update[i]=sl->head;
- }
- sl->level=level;
- }
- q=create_node(level,key,val);
- if(!q)
- returnfalse;
- for(i=level-1;i>=0;--i)
- {
- q->next[i]=update[i]->next[i];
- update[i]->next[i]=q;
- }
- returntrue;
- }
跳表删除节点操作
删除节点操作和插入差不多,找到每层需要删除的位置,删除时和操作普通链表完全一样。不过需要注意的是,如果该节点的level是最大的,
则需要更新跳表的level。实现代码如下:
- boolerase(skip_list*sl,keyTypekey)
- {
- Node*update[MAX_L];
- Node*q=NULL,*p=sl->head;
- inti=sl->level-1;
- for(;i>=0;--i)
- {
- while((q=p->next[i])&&q->key<key)
- {
- p=q;
- }
- update[i]=p;
- }
- if(!q||(q&&q->key!=key))
- returnfalse;
- for(i=sl->level-1;i>=0;--i)
- {
- if(update[i]->next[i]==q)
- {
- update[i]->next[i]=q->next[i];
- if(sl->head->next[i]==NULL)
- sl->level--;
- }
- }
- free(q);
- q=NULL;
- returntrue;
- }
跳表的查找操作
跳表的优点就是查找比普通链表快,其实查找操已经在插入、删除操作中有所体现,代码如下:
- valueType*search(skip_list*sl,keyTypekey)
- {
- Node*q,*p=sl->head;
- q=NULL;
- inti=sl->level-1;
- for(;i>=0;--i)
- {
- while((q=p->next[i])&&q->key<key)
- {
- p=q;
- }
- if(q&&key==q->key)
- return&(q->value);
- }
- returnNULL;
- }
跳表的销毁
上面分别介绍了跳表的创建、节点插入、节点删除,其中涉及了内存的动态分配,在使用完跳表后别忘了释放所申请的内存,不然会内存泄露的。
不多说了,代码如下:
- voidsl_free(skip_list*sl)
- {
- if(!sl)
- return;
- Node*q=sl->head;
- Node*next;
- while(q)
- {
- next=q->next[0];
- free(q);
- q=next;
- }
- free(sl);
- }
关于skiplist实现部分就到这里,完整代码及其测试请移步:
https://github.com/ustcdane/skiplist/ 。
skiplist复杂度分析
skiplist分析如下图(摘自
这里)
完整代码及其测试:
https://github.com/ustcdane/skiplist/ , 接下来可以尝试着分析Redis 源代码中skiplist相关的数据结构了。
参考:
https://www.cs.auckland.ac.nz/software/AlgAnim/niemann/s_skl.htm
http://www.cnblogs.com/xuqiang/archive/2011/05/22/2053516.html
分享到:
相关推荐
### Skip List 数据结构详解 #### 一、引言与背景 Skip list 是一种概率性数据结构,它在很多场景下可以替代平衡树作为首选的实现方法。与平衡树相比,Skip list 具有更简单的实现、更快的速度以及更低的空间消耗...
正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则表达式主要语法详解+编程知识+技术开发; 正则表达式语法:正则...
docker:Docker技术详解及其特点; docker:Docker技术详解及其特点; docker:Docker技术详解及其特点; docker:Docker技术详解及其特点; docker:Docker技术详解及其特点; docker:Docker技术详解及其特点; ...
tcp/ip协议:TCPIP协议详解+编程+网络知识+技术开发; tcp/ip协议:TCPIP协议详解+编程+网络知识+技术开发; tcp/ip协议:TCPIP协议详解+编程+网络知识+技术开发; tcp/ip协议:TCPIP协议详解+编程+网络知识+技术...
ODBC API编程详解 ODBC(Open Database Connectivity)是一种标准化的数据库编程接口,旨在提供统一的数据库访问方式,简化数据库开发和维护工作。ODBC API是ODBC标准的核心组件,提供了访问数据库的标准接口,允许...
《Windows CE嵌入式高级编程及其实例详解》是一本深入探讨Windows CE操作系统在嵌入式领域的高级开发技术的书籍。这本书涵盖了从基础概念到实际应用的广泛内容,旨在帮助开发者提升在Windows CE平台上的编程技能。...
仓颉编程语言仓颉编程语言点简介及实际案例及案例详解仓颉编程语言点简介及实际案例及案例详解仓颉编程语言点简介及实际案例及案例详解仓颉编程语言点简介及实际案例及案例详解仓颉编程语言点简介及实际案例及案例...
Windows CE嵌入式高级编程及其实例详解(用C++实现).pdf
《Windows CE嵌入式高级编程及其实例详解(用C++实现)》是汪兵著作的一本专业书籍,主要探讨了在Windows CE操作系统平台上进行高级编程的技术与实践。该书配套光盘包含了丰富的范例程序源代码,这些源代码覆盖了书中...
Linux串口编程详解 串口编程是计算机科学中的一种重要技术,它允许计算机与外部设备进行通信。编程语言中串口编程的实现方式有多种,包括使用C语言、Java语言等。 Linux串口编程详解中,串口是计算机上的串行通讯...
TCP 与 UDP 编程实现及详解 TCP(Transmission Control Protocol,传输控制协议)和 UDP(User Datagram Protocol,用户数据报协议)是两种常用的网络传输协议,它们都是基于 IP 协议的。在网络编程中,TCP 和 UDP ...
《Java2编程详解》这本书是Java开发者的重要参考资料,它涵盖了Java语言的核心概念和技术,旨在帮助读者深入理解并熟练掌握Java2平台的编程技术。在这个压缩包中,包含了一个名为"Java2编程详解.pdf"的PDF文件,这很...
库卡机器人编程详解 本文档为库卡机器人编程的详细指南,涵盖了库卡机器人系统软件(KSS)版本4.1的编程方法和技术。本文档面向专业的机器人开发人员和编程人员,旨在帮助他们更好地理解和应用库卡机器人编程技术。...
"串口通信编程详解和实例" 串口通信编程详解和实例是计算机领域中非常重要的一部分,涉及到计算机与外部串行设备之间的数据传输通道。串口通信方法可以分为多种,包括使用 VC++ 提供的串行通信控件 MSComm、使用 ...
《Visual C++网络编程经典案例详解》是一本深入探讨C++在网络安全领域的实践书籍,它提供了丰富的源码示例,帮助读者理解并掌握网络编程的关键技术。这份资源包含了随书光盘的部分源码,虽然被分为了三个部分,分别...
**跳跃表(Skip List)详解** 跳跃表是一种高效的数据结构,用于快速查找序列中的元素,其设计灵感来源于随机化算法。在计算机科学中,跳跃表常被用来实现有序集合或映射,它允许我们以近似对数的时间复杂度进行...
【课程大纲】第1讲-Spark的前世今生 共12页第2讲-课程介绍、特色与价值 共13页第3讲-Scala编程详解:基础语法 共8页第4讲-Scala编程详解:条件控制与循环 共7页第5讲-Scala编程详解:函数入门 共5页第6讲-Scala编程...
【课程大纲】第1讲-Spark的前世今生 共12页第2讲-课程介绍、特色与价值 共13页第3讲-Scala编程详解:基础语法 共8页第4讲-Scala编程详解:条件控制与循环 共7页第5讲-Scala编程详解:函数入门 共5页第6讲-Scala编程...