http://dubing.blog.51cto.com/3911153/757518
跳出一致性Hash算法 打造更高效的分布式缓存
背景
谈到分布式缓存,大家首先想到的是memcached。确实memcached是目前最流行的方案之一。不过很多互联网公司不用memcached,例如新蛋。为什么不选择memcached呢,命中率?热插拔?还是性能。这里先不放结论,用事实来说话。
算法篇 -1.除余法
如果你手上有老版本的memcache官方文档。你会发现他们用的是除余法来保持节点的一致性。假如你有N台缓存服务器,你需要将某个对象set进某一台节点上。用hash取模这样可以很均匀的保证每台的负载。那么,作为最基本的轮询算法,是否适合分布式缓存我们来看实例。
这里假设有4台缓存节点,先设置除余方案。
自动设置999条键值。
下面来看下除余方案的各种综合结果
总的来说如果是相对稳定的环境 这种方案还是相当不错,至于性能我会单独开篇幅来说。
但是如果添加一台新节点 192.168.0.5
再来重新获取键值
再随机追加200条键值
注意看数据中的命中率数据 新节点会投入环境 参与新的取模运算 但是之前因为模运算变化的键值就丢失了
算法篇 -2 普通hash算法
既然取模运算没办法保证我们的键值一致性,那么就要考虑新的方案了。不过设计我们自己的方案之前,我们可以继续看看memcache的使用者们进行了哪些改进。
通常的 hash 算法都是将 value 映射到一个 32 位的 key 值,也即是 0~2的32-1 次方的数值空间;
我不喜欢画图,大家就想象一下吧,一个首尾相接的圆。用hash算法将节点分布在圆的不同部位,同样对key值进行hash算法,通过
public static int BinarySearch<T>(T[] array, T value)方法,匹配到对应位置。
还是找了几张图过来.... 嘴拙 讲不清楚 直接看图吧
在这个环形空间中,如果沿着顺时针方向从对象的 key 值出发,直到遇见一个 cache ,那么就将该对象存储在这个 cache 上,因为对象和 cache 的 hash 值是固定的,因此这个 cache 必然是唯一和确定的。左下表示移除节点的情况,右下表示添加节点的情况
继续看图看结果
在稳定状态下 发现负载不是很平衡 不过还能接受 继续看看添加节点的情况
命中率变70多了 能hold住了 低要求的话 应该还是不错的,再看看新节点的利用情况,随机再生成200条
马马虎虎吧 负载偏差比较大 命中率一般
算法篇 -3 一致性hash算法 _ 虚拟节点 (consistent hashing)
相对普通hash算法 多了一个虚拟节点的概念 这也是目前memcache最主流的算法。
长话短说 就是我把一个节点虚拟成N多个虚节点 这些虚节点指向同一个物理节点 但是key值hash参照虚节点来设置
直接上图
稳定状态下不错 同样我们在新添一个节点
命中率提高了不上 不过负载还不是很平衡 随机再加300条
对比普通hash算法好多了
算法篇 -4 一致性hash算法改进
针对一致性hash算法的虚拟节点 说白了就是一个50大小的坑被拆成 5个10大小的坑而已,不过缝隙小了 对于比较聚集的数据来说还是很有好处的
如何改进 将50大小的坑就变成10大小 对于新增的节点 我们不进虚拟节点化或者个性配置节点化
前面效率和一致性hash比较类似 我们直接看添加节点的情况
98% 有木有 有木有!!! 负载也还不错 你是不是已经被hold住了。
不过作为不良改进者 虫子还是要告诉大家这个改进一个很大的弊端 就是新节点的利用率
我们再随机新建600条键值
对于命中率的提高 是以新节点利用率为代价 至于之间怎么平衡 就看各自把握了
算法篇 -5 完美改进
上一种改进还是基于memcache现有的基础之上,跳出这个圈子为何要用一致性hash。
大家可以猜想一下这个方案的实现办法。关于这个方案的设计会单独开个篇幅来讲。
言归正传直接上图看结果
添加一台新服务器
命中率还是100% hold住 还有更精彩的 我们随机添加500条键值
本篇先到此 希望对大家有帮助
相关推荐
一致性哈希算法是一种分布式哈希(Distributed Hash Table, DHT)技术,旨在解决在分布式环境中数据分布不均匀的问题。Ketama算法是基于一致性哈希的一种优化实现,由Last.fm公司的Simon Willison提出,其目标是在...
Twemproxy,又称为Nutcracker,是由Twitter开发的一款轻量级Redis代理服务,其主要功能是减少后端缓存服务器的连接数,提供自动故障转移和一致性Hash算法支持。Twemproxy能够自动检测并移除故障节点,支持HashTag...
一致性Hash算法是一种用于解决分布式环境下数据存储和检索问题的重要技术。它最初由David Karger等人在1997年的论文《Consistent Hashing and Random Trees: Distributed Caching Protocols for Relieving Hot Spots...
一致性hash应用于负载均衡算法,本实现由C++语言开发。 一致性hash算法提出了在动态变化的Cache环境中,判定哈希算法好坏的四个定义: 1、平衡性(Balance)2、单调性(Monotonicity) 3、分散性(Spread)4、负载(Load)
为了解决这个问题,可以采用跳数法(Jump Consistent Hash)或者更高级的一致性哈希变体,如Ketama或libketama。哈希冲突则可以通过开放寻址、链地址法等方法来解决。 此外,一致性哈希算法在分布式缓存如Memcached...
基于go语言实现的分布式缓存系统源码+项目说明(以键值对的形式存储数据,一致性hash算法选择存储节点,Protobuf通信协议编解码。用户输入查询请求后,会优先在缓存系统查询,查不到则使用回调函数去源数据库查询,...
一致性哈希算法是一种分布式哈希(Distributed Hash Table, DHT)技术,它在处理大量数据分布到多个节点上时,能保持较好的均衡性和可扩展性。在C/C++编程中,一致性哈希通常用于构建分布式系统,如负载均衡、缓存...
分布式一致性哈希是一种解决在分布式缓存系统中如何高效、稳定地分配数据的算法,尤其在Memcache等缓存服务中广泛应用。它旨在确保当缓存集群中的节点增减时,对现有数据的映射影响最小,从而降低数据迁移和系统压力...
例如,通过分布式Hash表和集群路由算法,客户端可以将请求映射到特定的数据节点进行处理,这样的设计可以保障数据的即时一致性,但同时也可能带来较大的性能开销。异步复制技术可以解决这一问题,允许客户端在复制...
它旨在成为一门简单、高效、安全和并发的编程语言,特别适用于构建高性能的服务器和分布式系统。以下是Go语言的一些主要特点和优势: 简洁性:Go语言的语法简单直观,易于学习和使用。它避免了复杂的语法特性,如...
一致性哈希算法是一种分布式哈希技术,用于解决在分布式缓存、负载均衡系统等场景下节点动态增减时,数据分布的稳定性和效率问题。它最初由麻省理工学院在1997年提出,目的是解决分布式缓存系统中如何均匀分配数据的...
一致性哈希算法(Consistent Hashing)是一种在分布式系统中平衡数据分布的策略,尤其适用于缓存服务如Memcached或Redis。它的核心思想是通过哈希函数将对象映射到一个固定大小的环形空间中,然后将服务器也映射到这个...
主要介绍了PHP实现的一致性Hash算法,结合实例形式详细分析了php一致性Hash算法的概念、原理及相关实现与使用技巧,需要的朋友可以参考下
一致性哈希算法(Consistent Hashing)是一种特殊的哈希算法,设计目的是为了在分布式缓存系统中解决节点动态增减时导致的数据分布不均问题。该算法最早在1997年的论文《Consistent Hashing and Random Trees》中被...
一致性哈希(Consistent Hashing)是一种分布式哈希表(DHT)的算法,它主要应用于分布式缓存、负载均衡等场景,旨在解决在动态扩展或收缩系统规模时,尽量减少数据迁移的问题。在这个简单的实现中,我们将探讨如何...
一致性哈希(Consistent Hashing)是一种分布式哈希算法,主要应用于分布式缓存、负载均衡等领域,以解决在分布式环境中动态添加或删除节点时,尽可能少地改变已有的哈希映射关系。在这个Java实现中,我们看到的是...