`

一致性hash算法在memcached中的使用

 
阅读更多

一、概述

1、我们的memcache客户端(这里我看的spymemcache的源码),使用了一致性hash算法ketama进行数据存储节点的选择。与常规的hash算法思路不同,只是对我们要存储数据的key进行hash计算,分配到不同节点存储。一致性hash算法是对我们要存储数据的服务器进行hash计算,进而确认每个key的存储位置。

2、常规hash算法的应用以及其弊端

最常规的方式莫过于hash取模的方式。比如集群中可用机器适量为N,那么key值为K的的数据请求很简单的应该路由到hash(K) mod N对应的机器。的确,这种结构是简单的,也是实用的。但是在一些高速发展的web系统中,这样的解决方案仍有些缺陷。随着系统访问压力的增长,缓存系统不得不通过增加机器节点的方式提高集群的相应速度和数据承载量。增加机器意味着按照hash取模的方式,在增加机器节点的这一时刻,大量的缓存命不中,缓存数据需要重新建立,甚至是进行整体的缓存数据迁移,瞬间会给DB带来极高的系统负载,设置导致DB服务器宕机。

3、设计分布式cache系统时,一致性hash算法可以帮我们解决哪些问题?

分布式缓存设计核心点:在设计分布式cache系统的时候,我们需要让key的分布均衡,并且在增加cache server后,cache的迁移做到最少。

这里提到的一致性hash算法ketama的做法是:选择具体的机器节点不在只依赖需要缓存数据的key的hash本身了,而是机器节点本身也进行了hash运算。


二、一致性哈希算法情景描述(转载)

1、 hash机器节点


首先求出机器节点的hash值(怎么算机器节点的hash?ip可以作为hash的参数吧。。当然还有其他的方法了),然后将其分布到0~2^32的一个圆环上(顺时针分布)。如下图所示:

图一

集群中有机器:A , B, C, D, E五台机器,通过一定的hash算法我们将其分布到如上图所示的环上。


2、访问方式

如果有一个写入缓存的请求,其中Key值为K,计算器hash值Hash(K), Hash(K) 对应于图 – 1环中的某一个点,如果该点对应没有映射到具体的某一个机器节点,那么顺时针查找,直到第一次找到有映射机器的节点,该节点就是确定的目标节点,如果超过了2^32仍然找不到节点,则命中第一个机器节点。比如 Hash(K) 的值介于A~B之间,那么命中的机器节点应该是B节点(如上图 )。


3、增加节点的处理

如上图 – 1,在原有集群的基础上欲增加一台机器F,增加过程如下:

计算机器节点的Hash值,将机器映射到环中的一个节点,如下图:

图二

增加机器节点F之后,访问策略不改变,依然按照(2)中的方式访问,此时缓存命不中的情况依然不可避免,不能命中的数据是hash(K)在增加节点以前落在C~F之间的数据。尽管依然存在节点增加带来的命中问题,但是比较传统的 hash取模的方式,一致性hash已经将不命中的数据降到了最低。

Consistent Hashing最大限度地抑制了hash键的重新分布。另外要取得比较好的负载均衡的效果,往往在服务器数量比较少的时候需要增加虚拟节点来保证服务器能均匀的分布在圆环上。因为使用一般的hash方法,服务器的映射地点的分布非常不均匀。使用虚拟节点的思想,为每个物理节点(服务器)在圆上分配100~200个点。这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布。用户数据映射在虚拟节点上,就表示用户数据真正存储位置是在该虚拟节点代表的实际物理服务器上。
下面有一个图描述了需要为每台物理服务器增加的虚拟节点。


图三

x轴表示的是需要为每台物理服务器扩展的虚拟节点倍数(scale),y轴是实际物理服务器数,可以看出,当物理服务器的数量很小时,需要更大的虚拟节点,反之则需要更少的节点,从图上可以看出,在物理服务器有10台时,差不多需要为每台服务器增加100~200个虚拟节点才能达到真正的负载均衡。

三、以spymemcache源码来演示虚拟节点应用

1、上边描述的一致性Hash算法有个潜在的问题是:
(1)、将节点hash后会不均匀地分布在环上,这样大量key在寻找节点时,会存在key命中各个节点的概率差别较大,无法实现有效的负载均衡。
(2)、如有三个节点Node1,Node2,Node3,分布在环上时三个节点挨的很近,落在环上的key寻找节点时,大量key顺时针总是分配给Node2,而其它两个节点被找到的概率都会很小。

2、这种问题的解决方案可以有:
改善Hash算法,均匀分配各节点到环上;[引文]使用虚拟节点的思想,为每个物理节点(服务器)在圆上分配100~200个点。这样就能抑制分布不均匀,最大限度地减小服务器增减时的缓存重新分布。用户数据映射在虚拟节点上,就表示用户数据真正存储位置是在该虚拟节点代表的实际物理服务器上。

在查看Spy Memcached client时,发现它采用一种称为Ketama的Hash算法,以虚拟节点的思想,解决Memcached的分布式问题。

3、源码说明

该client采用TreeMap存储所有节点,模拟一个环形的逻辑关系。在这个环中,节点之前是存在顺序关系的,所以TreeMap的key必须实现Comparator接口。
那节点是怎样放入这个环中的呢?

  1. protectedvoidsetKetamaNodes(List<MemcachedNode>nodes){
  2. TreeMap<Long,MemcachedNode>newNodeMap=newTreeMap<Long,MemcachedNode>();
  3. intnumReps=config.getNodeRepetitions();
  4. for(MemcachedNodenode:nodes){
  5. //Ketamadoessomespecialworkwithmd5whereitreuseschunks.
  6. if(hashAlg==HashAlgorithm.KETAMA_HASH){
  7. for(inti=0;i<numReps/4;i++){
  8. byte[]digest=HashAlgorithm.computeMd5(config.getKeyForNode(node,i));
  9. for(inth=0;h<4;h++){
  10. Longk=((long)(digest[3+h*4]&0xFF)<<24)
  11. |((long)(digest[2+h*4]&0xFF)<<16)
  12. |((long)(digest[1+h*4]&0xFF)<<8)
  13. |(digest[h*4]&0xFF);
  14. newNodeMap.put(k,node);
  15. getLogger().debug("Addingnode%sinposition%d",node,k);
  16. }
  17. }
  18. }else{
  19. for(inti=0;i<numReps;i++){
  20. newNodeMap.put(hashAlg.hash(config.getKeyForNode(node,i)),node);
  21. }
  22. }
  23. }
  24. assertnewNodeMap.size()==numReps*nodes.size();
  25. ketamaNodes=newNodeMap;



上面的流程大概可以这样归纳:四个虚拟结点为一组,以getKeyForNode方法得到这组虚拟节点的name,Md5编码后,每个虚拟结点对应Md5码16个字节中的4个,组成一个long型数值,做为这个虚拟结点在环中的惟一key。第10行k为什么是Long型的呢?就是因为Long型实现了Comparator接口。

处理完正式结点在环上的分布后,可以开始key在环上寻找节点的游戏了。
对于每个key还是得完成上面的步骤:计算出Md5,根据Md5的字节数组,通过Kemata Hash算法得到key在这个环中的位置。

  1. MemcachedNodegetNodeForKey(longhash){
  2. finalMemcachedNoderv;
  3. if(!ketamaNodes.containsKey(hash)){
  4. //Java1.6addsaceilingKeymethod,butI'mstillstuckin1.5
  5. //inalotofplaces,soI'mdoingthismyself.
  6. SortedMap<Long,MemcachedNode>tailMap=getKetamaNodes().tailMap(hash);
  7. if(tailMap.isEmpty()){
  8. hash=getKetamaNodes().firstKey();
  9. }else{
  10. hash=tailMap.firstKey();
  11. }
  12. }
  13. rv=getKetamaNodes().get(hash);
  14. returnrv;
  15. }


上边代码的实现就是在环上顺时针查找,没找到就去的第一个,然后就知道对应的物理节点了。

四、应用场景分析

1、memcache的add方法:通过一致性hash算法确认当前客户端对应的cacheserver的hash值以及要存储数据key的hash进行对应,确认cacheserver,获取connection进行数据存储

2、memcache的get方法:通过一致性hash算法确认当前客户端对应的cacheserver的hash值以及要提取数据的hash值,进而确认存储的cacheserver,获取connection进行数据提取

五、总结

1、一致性hash算法只是帮我们减少cache集群中的机器数量增减的时候,cache的数据能进行最少重建。只要cache集群的server数量有变化,必然产生数据命中的问题

2、对于数据的分布均衡问题,通过虚拟节点的思想来达到均衡分配。当然,我们cache server节点越少就越需要虚拟节点这个方式来均衡负载。

3、我们的cache客户端根本不会维护一个map来记录每个key存储在哪里,都是通过key的hash和cacheserver(也许ip可以作为参数)的hash计算当前的key应该存储在哪个节点上。

4、当我们的cache节点崩溃了。我们必定丢失部分cache数据,并且要根据活着的cache server和key进行新的一致性匹配计算。有可能对部分没有丢失的数据也要做重建...

5、至于正常到达数据存储节点,如何找到key对应的数据,那就是cache server本身的内部算法实现了,此处不做描述。


这里只是针对数据的存储方式以及提取方式进行了流程展示。

转载:http://blog.csdn.net/kongqz/article/details/6695417

分享到:
评论

相关推荐

    一致性哈希算法源码 Ketama一致性hash算法源码

    一致性哈希算法是一种分布式哈希(Distributed Hash Table, DHT)技术,旨在解决在分布式环境中数据分布不均匀的问题。Ketama算法是基于一致性哈希的一种优化实现,由Last.fm公司的Simon Willison提出,其目标是在...

    一致性Hash算法的原理及实现

    一致性Hash算法通过巧妙的设计,不仅解决了传统哈希方法在动态环境中存在的问题,还为分布式系统的稳定性、可扩展性和性能提供了有力支持。通过理解其核心原理和应用,我们可以更好地应对分布式环境下的挑战,并构建...

    Ketama一致性Hash算法(含Java代码) 1

    一致性哈希算法(Consistent Hashing)是一种在分布式系统中平衡数据分布的策略,尤其适用于缓存服务如Memcached或Redis。它的核心思想是通过哈希函数将对象映射到一个固定大小的环形空间中,然后将服务器也映射到这个...

    解决分布式数据插入数据库~一致性hash算法

    此外,一致性哈希算法在分布式缓存如Memcached、Redis中也得到了广泛应用。它不仅简化了数据分布的逻辑,还允许动态扩展和收缩集群规模,无需大规模的数据迁移。 在文件名为“distribute-mysql”的压缩包中,可能...

    一致性Hash简单实现

    - **分布式缓存**:如Memcached、Redis集群中,一致性哈希用于确定数据应该存储在哪个节点上。 - **负载均衡**:在负载均衡器中,一致性哈希可以用来分配请求到不同的服务器,避免在动态调整服务器数量时大量请求...

    一致性hash算法1

    一致性哈希算法(Consistent Hashing)是一种特殊的哈希算法,设计目的是为了在分布式缓存系统中解决节点动态增减时导致的数据分布不均问题。该算法最早在1997年的论文《Consistent Hashing and Random Trees》中被...

    一致性hashjava实现

    6. **应用场景**:一致性哈希在分布式缓存系统如Memcached和Redis中被广泛使用,同时在CDN(Content Delivery Network)、负载均衡器等场景也有应用。 7. **优缺点**:Ketama一致性哈希算法的优点在于减少了因节点...

    基于C# 实现的一致性哈希算法

    一致性哈希算法是一种分布式哈希(Distributed Hash Table, DHT)技术,它解决了在分布式环境中数据分片和负载均衡的问题。在传统的哈希算法中,如果增加或减少服务器节点,会导致大量数据重新分配,而一致性哈希...

    一致性哈希算法应用及优化(最简洁明了的教程)

    一致性哈希算法应用及优化是IT领域中分布式系统设计的核心技术之一,特别是在处理大规模数据分布与缓存系统中,其重要性不言而喻。本文将深入探讨一致性哈希算法的基本概念、工作原理以及在实际场景中的应用和优化...

    ConsistentHash:一致性hash算法的 java 和 C++ 实现

    一致性哈希(Consistent Hashing)是一种分布式哈希表(DHT, Distributed Hash Table)算法,主要用于解决在分布式系统中数据存储和检索的问题,尤其是在动态扩展集群节点时,能够尽可能地减少缓存重建,保持系统...

    memcached-笔记资料

    1. "一致性哈希对缓存命中率的影响实验报告.doc":这份文档可能详细介绍了如何使用一致性哈希算法来分配和检索数据在Memcached中的存储,以及该算法如何影响缓存的命中率。一致性哈希是解决分布式缓存中数据分布不均...

    ConsistentHash(Ketama)

    一致性哈希(Consistent Hashing)是一种分布式哈希(Distributed Hash Table,DHT)算法,主要用于解决在分布式系统中的数据存储和检索问题。在云计算、缓存系统(如Redis、Memcached)以及负载均衡等领域广泛应用...

    PHP实现的一致性HASH算法示例

    在实际应用中,一致性哈希算法通常用于分布式缓存系统中,如Redis、Memcached集群。通过一致性哈希,系统能够实现以下目标: - **节点动态扩展**:当系统需要扩展节点时,一致性哈希可以保证只有部分缓存数据需要...

    ConsistentHash:一致性hash算法案例

    一致性哈希(Consistent Hashing)是一种分布式哈希表(DHT, Distributed Hash Table)的算法,主要用于解决在分布式系统中数据分片、负载均衡、缓存分发等问题。在云计算和大数据领域,一致性哈希算法有着广泛的应用,...

    搞懂分布式技术11:分布式session解决方案与一致性hash.docx

    ### 分布式Session解决方案与一致性Hash详解 #### 一、问题背景及提出 ...同时,一致性Hash算法作为一种优化数据分布的技术,也在分布式环境中发挥着重要作用。开发者应根据实际场景和技术栈的特点选择最适合的方案。

    一致性哈希算法(ketama hashing)

    一致性哈希算法(Consistent Hashing)是一种在分布式系统中实现负载均衡的算法,尤其在分布式缓存如Memcached和Redis等场景下广泛使用。它解决了传统哈希算法在节点增减时导致的大量数据迁移问题,提高了系统的可用...

    libconhash一致性hash

    一致性哈希(Consistent Hashing)是一种在分布式系统中解决数据分片问题的算法,它使得在节点加入或离开时,只需要少量的数据迁移就能保持系统的稳定性。在这个上下文中,`libconhash`是一个专门实现一致性哈希的...

    memcached全面剖析.pdf

    memcached 还支持一致性 Hash 算法,以确保数据的分布式存储。 memcached 的应用场景 memcached 广泛应用于各种 Web 应用程序中,包括社交媒体、电商平台、博客平台等。memcached 可以用于缓存用户数据、文章数据...

Global site tag (gtag.js) - Google Analytics