一致性Hash算法
关于一致性Hash算法,在我之前的博文中已经有多次提到了,Memcache的详细讲解一文中"一致性Hash算法"部分,对于为什么要使用一致性Hash算法、一致性Hash算法的算法原理做了详细的解读。
算法的具体原理这里再次贴上:
先构造一个长度为232的整数环(这个环被称为一致性Hash环),根据节点名称的Hash值(其分布为[0, 232-1])将服务器节点放置在这个Hash环上,然后根据数据的Key值计算得到其Hash值(其分布也为[0, 232-1]),接着在Hash环上顺时针查找距离这个Key值的Hash值最近的服务器节点,完成Key到服务器的映射查找。
这种算法解决了普通余数Hash算法伸缩性差的问题,可以保证在上线、下线服务器的情况下尽量有多的请求命中原来路由到的服务器。
当然,万事不可能十全十美,一致性Hash算法比普通的余数Hash算法更具有伸缩性,但是同时其算法实现也更为复杂,本文就来研究一下,如何利用Java代码实现一致性Hash算法。在开始之前,先对一致性Hash算法中的几个核心问题进行一些探究。
数据结构的选取
一致性Hash算法最先要考虑的一个问题是:构造出一个长度为232的整数环,根据节点名称的Hash值将服务器节点放置在这个Hash环上。
那么,整数环应该使用何种数据结构,才能使得运行时的时间复杂度最低?首先说明一点,关于时间复杂度,常见的时间复杂度与时间效率的关系有如下的经验规则:
O(1) < O(log2N) < O(n) < O(N * log2N) < O(N2) < O(N3) < 2N < 3N < N!
一般来说,前四个效率比较高,中间两个差强人意,后三个比较差(只要N比较大,这个算法就动不了了)。OK,继续前面的话题,应该如何选取数据结构,我认为有以下几种可行的解决方案。
1、解决方案一:排序+List
我想到的第一种思路是:算出所有待加入数据结构的节点名称的Hash值放入一个数组中,然后使用某种排序算法将其从小到大进行排序,最后将排序后的数据放入List中,采用List而不是数组是为了结点的扩展考虑。
之后,待路由的结点,只需要在List中找到第一个Hash值比它大的服务器节点就可以了,比如服务器节点的Hash值是[0,2,4,6,8,10],带路由的结点是7,只需要找到第一个比7大的整数,也就是8,就是我们最终需要路由过去的服务器节点。
如果暂时不考虑前面的排序,那么这种解决方案的时间复杂度:
(1)最好的情况是第一次就找到,时间复杂度为O(1)
(2)最坏的情况是最后一次才找到,时间复杂度为O(N)
平均下来时间复杂度为O(0.5N+0.5),忽略首项系数和常数,时间复杂度为O(N)。
但是如果考虑到之前的排序,我在网上找了张图,提供了各种排序算法的时间复杂度:
看得出来,排序算法要么稳定但是时间复杂度高、要么时间复杂度低但不稳定,看起来最好的归并排序法的时间复杂度仍然有O(N * logN),稍微耗费性能了一些。
2、解决方案二:遍历+List
既然排序操作比较耗性能,那么能不能不排序?可以的,所以进一步的,有了第二种解决方案。
解决方案使用List不变,不过可以采用遍历的方式:
(1)服务器节点不排序,其Hash值全部直接放入一个List中
(2)带路由的节点,算出其Hash值,由于指明了"顺时针",因此遍历List,比待路由的节点Hash值大的算出差值并记录,比待路由节点Hash值小的忽略
(3)算出所有的差值之后,最小的那个,就是最终需要路由过去的节点
在这个算法中,看一下时间复杂度:
1、最好情况是只有一个服务器节点的Hash值大于带路由结点的Hash值,其时间复杂度是O(N)+O(1)=O(N+1),忽略常数项,即O(N)
2、最坏情况是所有服务器节点的Hash值都大于带路由结点的Hash值,其时间复杂度是O(N)+O(N)=O(2N),忽略首项系数,即O(N)
所以,总的时间复杂度就是O(N)。其实算法还能更改进一些:给一个位置变量X,如果新的差值比原差值小,X替换为新的位置,否则X不变。这样遍历就减少了一轮,不过经过改进后的算法时间复杂度仍为O(N)。
总而言之,这个解决方案和解决方案一相比,总体来看,似乎更好了一些。
3、解决方案三:二叉查找树
抛开List这种数据结构,另一种数据结构则是使用二叉查找树。对于树不是很清楚的朋友可以简单看一下这篇文章树形结构。
当然我们不能简单地使用二叉查找树,因为可能出现不平衡的情况。平衡二叉查找树有AVL树、红黑树等,这里使用红黑树,选用红黑树的原因有两点:
1、红黑树主要的作用是用于存储有序的数据,这其实和第一种解决方案的思路又不谋而合了,但是它的效率非常高
2、JDK里面提供了红黑树的代码实现TreeMap和TreeSet
另外,以TreeMap为例,TreeMap本身提供了一个tailMap(K fromKey)方法,支持从红黑树中查找比fromKey大的值的集合,但并不需要遍历整个数据结构。
使用红黑树,可以使得查找的时间复杂度降低为O(logN),比上面两种解决方案,效率大大提升。
为了验证这个说法,我做了一次测试,从大量数据中查找第一个大于其中间值的那个数据,比如10000数据就找第一个大于5000的数据(模拟平均的情况)。看一下O(N)时间复杂度和O(logN)时间复杂度运行效率的对比:
50000 | 100000 | 500000 | 1000000 | 4000000 | |
ArrayList | 1ms | 1ms | 4ms | 4ms | 5ms |
LinkedList | 4ms | 7ms | 11ms | 13ms | 17ms |
TreeMap | 0ms | 0ms | 0ms | 0ms | 0ms |
因为再大就内存溢出了,所以只测试到4000000数据。可以看到,数据查找的效率,TreeMap是完胜的,其实再增大数据测试也是一样的,红黑树的数据结构决定了任何一个大于N的最小数据,它都只需要几次至几十次查找就可��查到。
当然,明确一点,有利必有弊,根据我另外一次测试得到的结论是,为了维护红黑树,数据插入效率TreeMap在三种数据结构里面是最差的,且插入要慢上5~10倍。
Hash值重新计算
服务器节点我们肯定用字符串来表示,比如"192.168.1.1"、"192.168.1.2",根据字符串得到其Hash值,那么另外一个重要的问题就是Hash值要重新计算,这个问题是我在测试String的hashCode()方法的时候发现的,不妨来看一下为什么要重新计算Hash值:
/** * String的hashCode()方法运算结果查看 * @author 五月的仓颉 http://www.linuxidc.com/xrq730/ * */ public class StringHashCodeTest { public static void main(String[] args) { System.out.println("192.168.0.0:111的哈希值:" + "192.168.0.0:1111".hashCode()); System.out.println("192.168.0.1:111的哈希值:" + "192.168.0.1:1111".hashCode()); System.out.println("192.168.0.2:111的哈希值:" + "192.168.0.2:1111".hashCode()); System.out.println("192.168.0.3:111的哈希值:" + "192.168.0.3:1111".hashCode()); System.out.println("192.168.0.4:111的哈希值:" + "192.168.0.4:1111".hashCode()); } }
我们在做集群的时候,集群点的IP以这种连续的形式存在是很正常的。看一下运行结果为:
192.168.0.0:111的哈希值:1845870087 192.168.0.1:111的哈希值:1874499238 192.168.0.2:111的哈希值:1903128389 192.168.0.3:111的哈希值:1931757540 192.168.0.4:111的哈希值:1960386691
这个就问题大了,[0,232-1]的区间之中,5个HashCode值却只分布在这么小小的一个区间,什么概念?[0,232-1]中有4294967296个数字,而我们的区间只有122516605,从概率学上讲这将导致97%待路由的服务器都被路由到"192.168.0.1"这个集群点上,简直是糟糕透了!
另外还有一个不好的地方:规定的区间是非负数,String的hashCode()方法却会产生负数(不信用"192.168.1.0:1111"试试看就知道了)。不过这个问题好解决,取绝对值就是一种解决的办法。
综上,String重写的hashCode()方法在一致性Hash算法中没有任何实用价值,得找个算法重新计算HashCode。这种重新计算Hash值的算法有很多,比如CRC32_HASH、FNV1_32_HASH、KETAMA_HASH等,其中KETAMA_HASH是默认的MemCache推荐的一致性Hash算法,用别的Hash算法也可以,比如FNV1_32_HASH算法的计算效率就会高一些。
一致性Hash算法实现版本1:不带虚拟节点
使用一致性Hash算法,尽管增强了系统的伸缩性,但是也有可能导致负载分布不均匀,解决办法就是使用虚拟节点代替真实节点,第一个代码版本,先来个简单的,不带虚拟节点。
下面来看一下不带虚拟节点的一致性Hash算法的Java代码实现:
1 /** 2 * 不带虚拟节点的一致性Hash算法 3 * @author 五月的仓颉http://www.linuxidc.com/xrq730/ 4 * 5 */ 6 public class ConsistentHashingWithoutVirtualNode 7 { 8 /** 9 * 待添加入Hash环的服务器列表 10 */ 11 private static String[] servers = {"192.168.0.0:111", "192.168.0.1:111", "192.168.0.2:111", 12 "192.168.0.3:111", "192.168.0.4:111"}; 13 14 /** 15 * key表示服务器的hash值,value表示服务器的名称 16 */ 17 private static SortedMap<Integer, String> sortedMap = 18 new TreeMap<Integer, String>(); 19 20 /** 21 * 程序初始化,将所有的服务器放入sortedMap中 22 */ 23 static 24 { 25 for (int i = 0; i < servers.length; i++) 26 { 27 int hash = getHash(servers[i]); 28 System.out.println("[" + servers[i] + "]加入集合中, 其Hash值为" + hash); 29 sortedMap.put(hash, servers[i]); 30 } 31 System.out.println(); 32 } 33 34 /** 35 * 使用FNV1_32_HASH算法计算服务器的Hash值,这里不使用重写hashCode的方法,最终效果没区别 36 */ 37 private static int getHash(String str) 38 { 39 final int p = 16777619; 40 int hash = (int)2166136261L; 41 for (int i = 0; i < str.length(); i++) 42 hash = (hash ^ str.charAt(i)) * p; 43 hash += hash << 13; 44 hash ^= hash >> 7; 45 hash += hash << 3; 46 hash ^= hash >> 17; 47 hash += hash << 5; 48 49 // 如果算出来的值为负数则取其绝对值 50 if (hash < 0) 51 hash = Math.abs(hash); 52 return hash; 53 } 54 55 /** 56 * 得到应当路由到的结点 57 */ 58 private static String getServer(String node) 59 { 60 // 得到带路由的结点的Hash值 61 int hash = getHash(node); 62 // 得到大于该Hash值的所有Map 63 SortedMap<Integer, String> subMap = 64 sortedMap.tailMap(hash); 65 // 第一个Key就是顺时针过去离node最近的那个结点 66 Integer i = subMap.firstKey(); 67 // 返回对应的服务器名称 68 return subMap.get(i); 69 } 70 71 public static void main(String[] args) 72 { 73 String[] nodes = {"127.0.0.1:1111", "221.226.0.1:2222", "10.211.0.1:3333"}; 74 for (int i = 0; i < nodes.length; i++) 75 System.out.println("[" + nodes[i] + "]的hash值为" + 76 getHash(nodes[i]) + ", 被路由到结点[" + getServer(nodes[i]) + "]"); 77 } 78 }
可以运行一下看一下结果:
[192.168.0.0:111]加入集合中, 其Hash值为575774686 [192.168.0.1:111]加入集合中, 其Hash值为8518713 [192.168.0.2:111]加入集合中, 其Hash值为1361847097 [192.168.0.3:111]加入集合中, 其Hash值为1171828661 [192.168.0.4:111]加入集合中, 其Hash值为1764547046 [127.0.0.1:1111]的hash值为380278925, 被路由到结点[192.168.0.0:111] [221.226.0.1:2222]的hash值为1493545632, 被路由到结点[192.168.0.4:111] [10.211.0.1:3333]的hash值为1393836017, 被路由到结点[192.168.0.4:111]
看到经过FNV1_32_HASH算法重新计算过后的Hash值,就比原来String的hashCode()方法好多了。从运行结果来看,也没有问题,三个点路由到的都是顺时针离他们Hash值最近的那台服务器上。
相关推荐
对于Java实现一致性Hash算法,有几种可能的方法: 1. **排序+List**:首先,将所有服务器节点的哈希值放入一个数组,然后使用排序算法(如归并排序、快速排序等)对数组进行排序,再将排序后的结果放入List中。之后...
SHA(Secure Hash Algorithm)算法是一类广泛应用于信息安全领域的哈希函数,主要用来验证数据的完整性和一致性。SHA算法包括SHA-0、SHA-1、SHA-2和SHA-3等多个版本,其中SHA-1和SHA-2最为常见,SHA-3是最新标准,...
1. **分布式哈希(Distributed Hash Table, DHT)**:这是一种分布式数据存储技术,通过一致性哈希算法将键映射到集群中的节点,确保数据的均匀分布和负载均衡。例如,Chubby、Cassandra等系统就采用了这种技术。 2...
### Java算法集锦:深入解析Java经典算法 #### 单钥密码体制:高效与安全的双刃剑 在Java加密算法领域,单钥密码体制占据了举足轻重的地位。这种体制下,信息发送方和接收方共享同一把密钥进行加密和解密,特点是...
9. **并发控制**:在高并发场景下,需要适当的锁和同步机制来保证数据的一致性和正确性。 10. **容错与恢复**:由于P2P网络的去中心化特性,节点可能会随时加入或离开网络,因此需要设计容错机制,比如数据备份和...
在这个"java优秀源码-lecture-hashing"项目中,我们可以深入学习到出色的哈希算法的源代码以及常见哈希函数的Java实现。 1. **哈希表(Hash Table)**: 哈希表是基于哈希函数的数据结构,它提供了一种快速查找、...
在本文中,我们将深入探讨PKCS#7标准中的数字签名与验证过程,以及如何在C#环境中使用SHA1算法进行这些操作。 数字签名是一种用于验证数据完整性和发送者身份的技术。在PKCS#7中,数字签名通常结合了非对称加密和...
HashSearch程序是一个基于Java语言开发的项目,其核心在于对Hash-Search算法的实现。该程序在日本的工作环境中诞生,充分体现了Java作为一种跨平台、面向对象编程语言的广泛应用。在这个项目中,开发者巧妙地运用了...
SHA-256(Secure Hash Algorithm 256)属于SHA-2家族,是NIST(美国国家标准与技术研究院)为提高安全性而设计的算法。SHA-256同样生成固定长度的摘要,但为64位的十六进制字符串,相比MD5提供更强的安全性。它的...
为了确保文件未被篡改,我们经常使用哈希(Hash)函数来验证文件的一致性。"批量获取文件hash值工具"是一个专为此目的设计的应用,它能够帮助用户快速地计算并验证大量文件的哈希值。下面我们将深入探讨哈希函数、...
10. **Distributed Data Management**:nanoDDMS作为分布式数据管理系统,可能会涉及到分布式一致性算法(如Paxos、Raft)、数据分区策略(如Hash分区、Range分区)、数据复制机制(如主从复制、多活复制)以及故障...
6. **Sharding模块**:分片策略实现,包括对各种分片策略的代码实现,如Range分片、Hash分片等。 通过对Mycat-Server-1.6源码的学习,开发者可以了解其内部工作机制,优化SQL执行效率,定制分片策略,甚至为Mycat...
总结,这个Socket-Project利用Java实现了分布式哈希表,通过Socket通信技术和一致性哈希算法,为多个客户端提供了高效的数据库管理服务。项目的具体实现细节,包括节点的加入、退出、数据查找、存储等操作,以及错误...
Apache Commons Digest是一个Java库,主要功能是提供各种散列(Hash)和消息认证码(MAC)算法的实现,这些算法包括MD5、SHA-1、SHA-256等。它在软件开发中广泛应用于数据校验、密码存储以及文件完整性检查等领域。...
通过深入研究这个项目,你可以学习到Java中散列函数的使用方法,理解Maven项目的构建流程,并掌握如何在实际项目中应用散列技术来提高数据处理的效率和安全性。这将对提升你的Java开发技能大有裨益。
- **主要内容**:包括但不限于分布式事务处理、一致性算法、负载均衡策略等。 - **考察点**:分布式系统基础知识。 #### TCP/IP协议 - **主要内容**:三次握手建立连接、四次挥手断开连接,以及ACK、FIN等标志位的...
4. **Hadoop上的数据去重**:具体讨论如何在Hadoop环境下实现数据去重,可能涉及HDFS的特性,比如Block Checksums用于检测数据一致性,以及可能的数据去重算法,如Hash-based、Signature-based等。 5. **系统设计**...
要深入了解这些算法及其在Akka中的实现,你需要阅读源代码,了解它们如何利用Akka的actor通信机制和分布式特性。同时,熟悉Akka的集群和分布式数据模块也是非常有帮助的,因为这些算法通常与这些模块紧密结合。 ...
研究这些文件可以帮助更深入地理解如何自定义Glide的缓存行为,以及如何访问本地缓存的图片文件。 总之,通过对Glide的缓存策略进行定制,我们可以使用图片URL的MD5值来定位本地缓存的图片,这样即使原始URL发生...
在IT行业中,"后端"通常指的是服务器端的开发工作,这部分主要负责处理应用程序的数据存储、业务逻辑以及与前端交互等功能。...通过深入研究提供的压缩包,我们可以更全面地理解这个项目的实现方式和功能。