哈希表和哈希函数是大学数据结构中的课程,实际开发中我们经常用到Hashtable这种结构,当遇到键-值对存储,采用Hashtable比ArrayList查找的性能高。为什么呢?我们在享受高性能的同时,需要付出什么代价(这几天看红顶商人胡雪岩,经典台词:在你享受这之前,必须受别人吃不了的苦,忍受别人受不了的屈辱),那么使用Hashtable是否就是一桩无本万利的买卖呢?就此疑问,做以下分析,希望能抛砖引玉。
1)hash它为什么对于键-值查找性能高
学 过数据结构的,都应该晓得,线性表和树中,记录在结构中的相对位置是随机的,记录和关键字之间不存在明确的关系,因此在查找记录的时候,需要进行一系列的 关键字比较,这种查找方式建立在比较的基础之上,在java中(Array,ArrayList,List)这些集合结构采用了上面的存储方式。
比如,现在我们有一个班同学的数据,包括姓名,性别,年龄,学号等。假如数据有
姓名 | 性别 | 年龄 | 学号 |
张三 | 男 | 15 | 1 |
李四 | 女 | 14 | 2 |
王五 | 男 | 14 | 3 |
假如,我们按照姓名来查找,假设查找函数FindByName(string name);
1)查找“张三”
只需在第一行匹配一次。
2)查找"王五"
在第一行匹配,失败,
在第二行匹配,失败,
在第三行匹配,成功
上面两种情况,分别分析了最好的情况,和最坏的情况,那么平均查找次数应该为 (1+3)/2=2次,即平均查找次数为(记录总数+1)的1/2。
尽管有一些优化的算法,可以使查找排序效率增高,但是复杂度会保持在log2n的范围之内。
如 何更更快的进行查找呢?我们所期望的效果是一下子就定位到要找记录的位置之上,这时候时间复杂度为1,查找最快。如果我们事先为每条记录编一个序号,然后 让他们按号入位,我们又知道按照什么规则对这些记录进行编号的话,如果我们再次查找某个记录的时候,只需要先通过规则计算出该记录的编号,然后根据编号, 在记录的线性队列中,就可以轻易的找到记录了 。
注意,上述的描述包含了两个概念,一个是用于对学生进行编号的规则,在数据结构中,称之为哈希函数,另外一个是按照规则为学生排列的顺序结构,称之为哈希表。
仍以上面的学生为例,假设学号就是规则,老师手上有一个规则表,在排座位的时候也按照这个规则来排序,查找李四,首先该教师会根据规则判断出,李四的编号为2,就是在座位中的2号位置,直接走过去,“李四,哈哈,你小子,就是在这!”
看看大体流程:
从上面的图中,可以看出哈希表可以描述为两个筒子,一个筒子用来装记录的位置编号,另外一个筒子用来装记录,另外存在一套规则,用来表述记录与编号之间的联系。这个规则通常是如何制定的呢?
a)直接定址法:
我在前一篇文章对GetHashCode()性能比较的问题中谈到,对于整形的数据GetHashCode()函数返回的就是整形本身,其实就是基于直接定址的方法,比如有一组0-100的数据,用来表示人的年龄
那么,采用直接定址的方法构成的哈希表为:
0 | 1 | 2 | 3 | 4 | 5 |
0岁 | 1岁 | 2岁 | 3岁 | 4岁 | 5岁 |
.....
这样的一种定址方式,简单方便,适用于元数据能够用数字表述或者原数据具有鲜明顺序关系的情形。
b)数字分析法:
有这样一组数据,用于表述一些人的出生日期
年 | 月 | 日 |
75 | 10 | 1 |
75 | 12 | 10 |
75 | 02 | 14 |
分析一下,年和月的第一位数字基本相同,造成冲突的几率非常大,而后面三位差别比较大,所以采用后三位
c)平方取中法
取关键字平方后的中间几位作为哈希地址
d) 折叠法:
将关键字分割成位数相同的几部分,最后一部分位数可以不相同,然后去这几部分的叠加和(取出进位)作为哈希地址,比如有这样的数据20-1445-4547-3
可以
5473
+ 4454
+ 201
= 10128
取出进位1,取0128为哈希地址
e)取余法
取关键字被某个不大于哈希表表长m的数p除后所得余数为哈希地址。H(key)=key MOD p (p<=m)
f) 随机数法
选择一个随机函数,取关键字的随机函数值为它的哈希地址,即H(key)=random(key) ,其中random为随机函数。通常用于关键字长度不等时采用此法。
总之,哈希函数的规则是:通过某种转换关系,使关键字适度的分散到指定大小的的顺序结构中。越分散,则以后查找的时间复杂度越小,空间复杂度越高。
2)使用hash,我们付出了什么?
hash 是一种典型以空间换时间的算法,比如原来一个长度为100的数组,对其查找,只需要遍历且匹配相应记录即可,从空间复杂度上来看,假如数组存储的是 byte类型数据,那么该数组占用100byte空间。现在我们采用hash算法,我们前面说的hash必须有一个规则,约束键与存储位置的关系,那么就 需要一个固定长度的hash表,此时,仍然是100byte的数组,假设我们需要的100byte用来记录键与位置的关系,那么总的空间为 200byte,而且用于记录规则的表大小会根据规则,大小可能是不定的.
注:hash表最突出的问题在于冲突,就是两个键值经过哈希函数计算出来的索引位置很可能相同,
注:之所以会简单得介绍了hash,是为了更好的学习lsh算法
解决冲突的主要方法
虽然我们不希望发生冲突,但实际上发 生冲突的可能性仍是存在的。当关键字值域远大于哈希表的长度,而且事先并不知道关键字的具体取值时。冲突就难免会发生。另外,当关键字的实际取值大于哈希 表的长度时,而且表中已装满了记录,如果插入一个新记录,不仅发生冲突,而且还会发生溢出。因此,处理冲突和溢出是哈希技术中的两个重要问题。
1、开放定址法
用开放定址法解决冲突的做法是:当冲突发生时,使用某种探查(亦称探测)技术在散列表中形成一个探查(测)序列。沿此序列逐个单元地查找,直到找到给定 的关键字,或者碰到一个开放的地址(即该地址单元为空)为止(若要插入,在探查到开放的地址,则可将待插入的新结点存人该地址单元)。查找时探查到开放的 地址则表明表中无待查的关键字,即查找失败。
注意:
①用开放定址法建立散列表时,建表前须将表中所有单元(更严格地说,是指单元中存储的关键字)置空。
②空单元的表示与具体的应用相关。
按照形成探查序列的方法不同,可将开放定址法区分为线性探查法、线性补偿探测法、随机探测等。
(1)线性探查法(Linear Probing)
该方法的基本思想是:
将散列表T[0..m-1]看成是一个循环向量,若初始探查的地址为d(即h(key)=d),则最长的探查序列为:
d,d+l,d+2,…,m-1,0,1,…,d-1
即:探查时从地址d开始,首先探查T[d],然后依次探查T[d+1],…,直到T[m-1],此后又循环到T[0],T[1],…,直到探查到T[d-1]为止。
探查过程终止于三种情况:
(1)若当前探查的单元为空,则表示查找失败(若是插入则将key写入其中);
(2)若当前探查的单元中含有key,则查找成功,但对于插入意味着失败;
(3)若探查到T[d-1]时仍未发现空单元也未找到key,则无论是查找还是插入均意味着失败(此时表满)。
利用开放地址法的一般形式,线性探查法的探查序列为:
hi=(h(key)+i)%m 0≤i≤m-1 //即di=i
用线性探测法处理冲突,思路清晰,算法简单,但存在下列缺点:
① 处理溢出需另编程序。一般可另外设立一个溢出表,专门用来存放上述哈希表中放不下的记录。此溢出表最简单的结构是顺序表,查找方法可用顺序查找。
② 按上述算法建立起来的哈希表,删除工作非常困难。假如要从哈希表 HT 中删除一个记录,按理应将这个记录所在位置置为空,但我们不能这样做,而只能标上已被删除的标记,否则,将会影响以后的查找。
③ 线性探测法很容易产生堆聚现象。所谓堆聚现象,就是存入哈希表的记录在表中连成一片。按照线性探测法处理冲突,如果生成哈希地址的连续序列愈长 ( 即不同关键字值的哈希地址相邻在一起愈长 ) ,则当新的记录加入该表时,与这个序列发生冲突的可能性愈大。因此,哈希地址的较长连续序列比较短连续序列生长得快,这就意味着,一旦出现堆聚 ( 伴随着冲突 ) ,就将引起进一步的堆聚。
相关推荐
在深入探讨HashMap的实现原理之前,我们需要了解两个关键的接口方法:`hashCode()`和`equals()`。 根据《Effective JAVA》的建议,当重写`equals()`方法时,也应重写`hashCode()`方法。这是因为在HashMap中,`...
Hash Join的基本原理是通过构建一个哈希表来实现两个表的连接。首先,Oracle会选择一个较小的表(称为“build side”),将其所有数据加载到内存中的哈希表中。然后,对较大的表(称为“probe side”)的每一行,CBO...
Java语言程序设计:数组、字符串、向量与哈希表 Java语言程序设计的第四章中,讨论了数组、字符串、...设计程序,能对学生本学期学科(高数、英语、Java、计算机组成原理)平均成绩进行排序,并能统计各分数段人数。
6. **索引与查询优化**:索引能显著提升查询速度,理解B树、B+树、哈希索引的原理及其应用场景。查询优化器选择执行查询的最佳路径,涉及代价估算和执行计划。 7. **事务处理与并发控制**:事务是一组原子操作,...
优化方法有基于规则、基于代价和基于语义三种策略。 3. 代数优化 代数优化通过对关系代数表达式的重写和简化,如消除冗余、合并操作等,以达到更高效的执行路径。这一过程通常包括等价变换和规范化等步骤。 4. ...
10. **索引与查询优化**:索引可以加速数据检索,但创建和维护索引有其代价。习题可能涉及索引类型(如B树、哈希索引)以及查询优化器的工作原理。 通过解答范明版的《数据库原理教程》课后习题,学生可以巩固理论...
原理我们利用一致性哈希算法,构造一个哈希环,网关监听WebSocket服务实例的上下线消息,根据实例的变化动态地更新哈希环。将需要迁移的WebSocket客户端重新连接到新的实例上,这样的代价是最小的;当然也取决与虚拟...
- `int calw(string s)`:计算当前状态`s`与目标状态之间的曼哈顿距离之和作为启发式代价`h(n)`。具体计算方式为统计当前状态与目标状态中不同位置的数字数量。 4. **核心求解函数**: - `int solve()`:该函数...
连接操作实现时,可以采用嵌套循环、归并连接和哈希连接等方法。投影操作主要是去除无关列,集合运算则涉及并、交、差等操作。在实际应用中,数据库系统会根据具体的数据结构、索引配置和查询语句的复杂性综合考虑,...
通过深入理解散列连接的工作原理和技术细节,我们可以更好地利用它来优化Oracle数据库的性能。散列连接不仅能够显著提高大型数据集的处理速度,还能够在一定程度上缓解由于缺乏有效索引所带来的查询性能瓶颈问题。...
从给定的文件标题“算法动态规划总结(拓展篇)”和描述...以上总结的动态规划相关知识点,不仅涵盖了动态规划的基本原理和应用,还包括了高级的优化技术和在特定领域的深入应用,是学习和掌握动态规划算法的重要资源。
本教程深入讲解了数据存储和查询优化的基本原理,涵盖了从物理存储结构到查询处理的全过程,对于理解数据库系统的工作原理以及如何优化查询性能具有重要意义。通过学习这些内容,读者能够更好地理解和实践数据库管理...
Merkle树的基本原理是将大文件拆分成多个小块,并为每个块计算一个哈希值。这些哈希值随后被组合成一个新的哈希值,这个过程一直持续到形成一个单一的根哈希。根哈希成为了整个文件的指纹,可以快速有效地验证文件的...
内容可能涵盖统计信息的使用、基于代价的优化、重写规则和视图的物化等。 8. **ch8-Failure Recovery.pdf**:这部分讲解数据库的容错和恢复机制,如日志系统、检查点、事务的ACID属性以及如何在系统崩溃后进行恢复...
4. A*算法:A*算法结合了Dijkstra算法和启发式函数,通过评估每个节点到目标的估计成本来指导搜索,既考虑了实际代价,又考虑了预测代价,因此在大多数情况下比BFS和DFS更高效。 5. 回溯法:回溯法是一种试探性的...
因此,哈希加密常用于验证数据的完整性和一致性,如数字签名和消息摘要。常见的哈希算法有MD5、SHA-1和SHA-256等。 对于对称加密技术,尤其是DES算法的教学,需要学生了解它的工作原理以及如何实现数据的加密和解密...
接下来,编写扩展节点的逻辑,包括生成所有可能的邻居状态、更新代价和添加到队列中。同时,需要维护一个已访问状态集合,避免重复探索。 在八数码问题中,A*算法的效率得益于启发式函数的选择。曼哈顿距离计算每个...
数组是最基础的数据结构,它提供了随机访问的特性,但插入和删除操作可能需要较高的时间代价。链表则弥补了数组的不足,它允许快速插入和删除,但访问速度相对较慢,因为需要遍历指针。栈和队列是两种特殊的线性结构...
论文可能会介绍如何根据预期元素数量和可接受的误判率来动态调整位数组的大小和哈希函数的数量。 4. **应用场景**: 布隆过滤器广泛应用于数据库、搜索引擎、缓存系统等领域,用于快速判断某个元素是否可能存在于...