(转载)分布式缓存的一起问题

cfyme

浏览: 278913 次
性别:
来自: 杭州

最近访客更多访客>>

taotesea

alushuai159

renfang232

i_am_erduo

博主相关

博客

微博

相册

留言

关于我

文章分类

社区版块

存档分类

博客分类：

java缓存
分布式
系统架构

背景说明

分布式缓存中为了可用性及高性能的考虑，可以使用如下一种master/slave设计模式。

图中的proxy是逻辑的概念，可以是基于client的包装实现，也可以是独立的proxy服务，但本文大部分是指独立的服务。几个主要的问题说明如下。

为什么cache要使用两个集群((master/slave)来存放？

主要出于可用性及高性能的考虑。传统的架构使用基于一致性哈希的分布式缓存，数据只存在一份副本，在出现cache节点单点故障时，虽然可以由一致性哈希算法将请求均匀落到其他节点，但由于穿透的请求较多，仍然给数据库带来较大的访问压力。为了避免对数据穿透带来的冲击，数据使用两份副本可以避免穿透的问题。同时在数据访问较大时候，也可以更好的分担流量，避免峰值单份数据跑满对系统带来的冲击。

为什么两份副本要使用master/slave结构？

由于大型系统中通常存在多个client同时操作同一份数据，需要确保所有client对数据修改时数据的一致性。为了避免两cluster两份副本数据不一致带来的困扰，使用了一个简单的做法，在配置中人为指定一个cluster为master，所有的数据以master为准。

为什么一些场景需要使用CAS？

CAS在计算机并发领域通常指Compare-and-swap，在memcached中，也称为Check And Set. 在分布式系统中，一份数据可能同时被多个调用修改，比如微博中的@箱，一个用户同时收到多个@的情况还是比较常见，比如当原来@箱里面记录是{1，2，3}时，4和5由不同的调用来源同时到达，如果没有同步的保护，系统的数据有可能最终被写成{1,2,3,4}或{1,2,3,5}，由于memcached没有原生的list结构，list都是一个自定义的value, 则很容易出现client A覆盖了同时在写的client B的数据。因此假如两个调用方同时读到{1,2,3}时，第一个写入{1,2,3,4}会成功，后续的{1,2,3,5}CAS写入就会失败，因为此时服务器已经不是{1,2,3}了，失败的调用向服务端取回{1,2,3,4}，最终写入{1,2,3,4,5}

在master/slave场景，比起普通的memcache CAS有什么区别？

目前的做法是master cas成功之后，直接修改slave，并不同时在slave执行cas操作。由于数据存在两份副本，当数据不一致时，无法自动处理数据的不一致冲突。因此在实践上只以master操作为准。

为什么使用proxy？

使用proxy主要是出于可用性、命中率以及可运维方面的考虑
可用性与可运维：当进行服务器增容或缩容时，如果client的数量较大，如果未使用proxy模式，client所在服务器通常需要修改配置并且逐个重启。重启（系统维护）一方面带来可用性方面的问题，运维方面也较为繁琐。
命中率：如果业务场景需要较高的命中率（比如>90%），则增容或缩容就变得较为复杂，需要client配合做一些策略，比如扩容后仍然访问扩容前旧的节点的数据以保证命中率。如果用proxy模式则极大降低client的访问复杂性，将相关逻辑都封装在proxy之后。

分布式缓存的一起问题

最近某业务有一起master单点故障，导致在问题的时间段内，用户看不到最近发生变更的数据。由于在上述场景中，实现cas时候的流程如下
1) master.cas(k,v)
2) 如果1成功，slave.set(k,v)
3) 如果1失败，不执行slave.set()，直接return;

由于第三步在失败时，并不会set slave，导致数据出现一致性问题，即使slave依然可用，新的数据不会写入cache。

首先看在master failure时，为什么不切换到slave cas?
先说自动切换的问题
上文也提过，两份数据副本在出现数据不一致后，并不能自动仲裁达到最终一致性，但是指定master角色可以达到最终一致性。如果master角色可以由调用方自动切换，则会带来数据的混乱。调用方存在多个节点，至少需要统一的config server来保证切换的一致性。另外，自动切换发生后，无法达到两份数据的最终一致性。
再说由运维手工切换
由于不牵涉到代码的逻辑判断，虽然切换也会带来一些数据一致性问题，在具体场景下（比如master长久宕机）切换可以接受。

在出现上述问题后，其他一些解决方案如下。
1. proxy在master cas失败时候delete slave data
2. client在master cas失败时set slave, 并且将数据过期时间设成5分钟

上述方案很难完美，一些明显存在的问题如下
方案1：
命中率的问题。由于delete导致修改的数据迅速失效，会导致读取量的增加，在读写均密集的业务场景，可能会导致数据访问出现波动。
接口职责单一性的问题。proxy在cas调用中隐藏了删除数据的逻辑，这是一个未在正常期望范围内的额外操作，在特殊情况下，可能会导致不可预料的情况出现。(尽管在实际操作中proxy提供配置开关选项)

方案2：
依然是命中率的问题，5分钟过期延缓了过期的访问数据库的压力，但相关压力仍然会传递到数据库。

希望通过上面说明读者能理解这个场景的问题。在这个场景下，完美的方案应当如何设计？

转载地址：http://timyang.net/data/cache-failure/

分享到：

HA狭义与广义论 | Nginx工作原理和优化、漏洞

2015-05-06 09:01
浏览 737
评论(0)
分类:互联网
查看更多

发表评论

您还没有登录,请您登录后再发表评论

相关推荐

elgchat: 产品介绍：：本文档会系统梳理Java基础，数据结构/算法，中间件，缓存，分布式，容器，数据库，jvm，部署以及调优策略等。如何进行贡献：本文档所有内容可用手敲（包含各种示例图），如有错别字请指正很多内容...

JavaCore:Java程序员所需要掌握的核心知识: Java程序员所需要掌握的核心知识：集合框架，JVM机制，多线程与并发框架，网络协议，SpringIOC，SpringAOP，SpringMVC，SpringCloud，Dubbo，MySQL，分布式，微服务，高并发与高可用等。转载须知：转载请在文首注明...

基于Simulink的风火水储联合调频系统中储能SOC对ACE影响的技术分析: 内容概要：本文详细探讨了在Simulink环境中构建的风火水储联合调频系统中，储能系统的荷电状态（SOC）对区域控制偏差（ACE）的影响。文中通过具体案例和MATLAB代码展示了储能系统在不同SOC水平下的表现及其对系统稳定性的作用。同时，文章比较了储能单独调频与风火水储联合调频的效果，强调了储能系统在应对风电波动性和提高系统响应速度方面的重要作用。此外，作者提出了针对SOC变化率的参数整定方法以及多电源协同工作的优化策略，旨在减少ACE波动并确保系统稳定运行。适合人群：从事电力系统调频研究的专业人士，尤其是熟悉Simulink仿真工具的研究人员和技术人员。使用场景及目标：适用于希望深入了解储能系统在电力系统调频中作用的研究者和技术人员，目标是通过合理的SOC管理和多电源协同工作，优化调频效果，提高系统稳定性。其他说明：文章提供了详细的MATLAB代码片段，帮助读者更好地理解和应用所讨论的概念。同时，文中提到的实际案例和仿真结果为理论分析提供了有力支持。

欧姆龙PLC NJ中大型程序案例：结构化与面向对象编程的深度融合及应用: 内容概要：本文深入探讨了欧姆龙PLC NJ系列中大型程序中结构化编程与面向对象编程的结合及其应用。首先介绍了结构化编程作为程序框架的基础，通过功能块（FB）实现清晰的程序结构和流程控制。接着阐述了面向对象编程的理念，将现实世界的对象映射到程序中，利用类的概念实现模块化和可扩展性。两者结合提高了程序的容错率，增强了程序的稳定性和可维护性。文中通过多个实际案例展示了如何在工业自动化领域中应用这两种编程方法，如电机控制、设备类的创建、异常处理机制、接口实现多态性、配方管理和报警处理等。适合人群：从事工业自动化领域的工程师和技术人员，尤其是那些希望提升PLC编程技能的人群。使用场景及目标：适用于需要优化PLC程序结构、提高程序可靠性和可维护性的场合。目标是帮助工程师掌握结构化编程和面向对象编程的技巧，从而写出更加高效、稳定的PLC程序。其他说明：文章强调了在实际项目中灵活运用两种编程方法的重要性，并提醒读者注意实时性要求高的动作控制应采用结构化编程，而工艺逻辑和HMI交互则更适合面向对象编程。

matlab与聚类分析: matlab与聚类分析。根据我国历年职工人数（单位：万人），使用有序样品的fisher法聚类。

卡尔曼滤波生成航迹测量程序: 卡尔曼滤波生成航迹测量程序

基于格子玻尔兹曼方法(LBM)的多孔电极浸润特性研究及其Python实现: 内容概要：本文详细介绍了利用格子玻尔兹曼方法（LBM）对多孔电极浸润特性的模拟研究。首先阐述了LBM的基本原理，包括碰撞和迁移两个关键步骤，并提供了相应的Python伪代码。接着讨论了如何处理多孔介质中的固体边界，特别是通过随机算法生成孔隙结构以及结合CT扫描数据进行三维重构的方法。文中还探讨了表面张力、接触角等因素对浸润过程的影响，并给出了具体的数学表达式。此外，文章提到了并行计算的应用，如使用CUDA加速大规模网格计算，以提高模拟效率。最后，作者分享了一些实用技巧，如通过调整松弛时间和润湿性参数来优化模拟效果，并强调了LBM在处理复杂几何结构方面的优势。适合人群：从事电池研发、材料科学领域的研究人员和技术人员，尤其是关注多孔电极浸润性和电解液扩散机制的人群。使用场景及目标：适用于希望深入了解多孔电极内部流体动力学行为的研究者，旨在帮助他们更好地理解和预测电极材料的浸润特性，从而改进电池设计和性能。其他说明：尽管LBM在处理多孔介质方面表现出色，但在某些极端条件下仍需引入额外的修正项。同时，参数的选择和边界条件的设定对最终结果有着重要影响，因此需要谨慎对待。

基于FPGA和W5500的TCP网络通信：Zynq扩展口开发测试平台（使用Vivado 2019.2纯Verilog实现）: 内容概要：本文详细介绍了在Zynq扩展口上使用FPGA和W5500实现TCP网络通信的过程。作者通过一系列实验和技术手段，解决了多个实际问题，最终实现了稳定的数据传输。主要内容包括：硬件搭建（SPI接口配置）、数据回环处理、压力测试及优化、多路复用扩展以及上位机测试脚本的编写。文中提供了大量Verilog代码片段，展示了如何通过状态机控制SPI通信、优化数据缓存管理、处理中断等问题。适合人群：对FPGA开发和网络通信感兴趣的工程师，尤其是有一定Verilog编程基础的研发人员。使用场景及目标：适用于需要在嵌入式系统中实现高效、稳定的TCP通信的应用场景。目标是帮助读者掌握FPGA与W5500结合进行网络通信的具体实现方法和技术细节。其他说明：文章不仅提供了详细的代码实现，还分享了许多实践经验，如硬件连接注意事项、信号完整性问题的解决方案等。此外，作者还提到了未来的工作方向，如UDP组播和QoS优先级控制的实现。

python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤: python3.10以上可安装pyside6（类似pyqt），具体安装操作步骤

基于FDTD仿真的可调谐石墨烯超材料吸收体设计与实现: 内容概要：本文详细介绍了利用有限差分时域法(FDTD)进行可调谐石墨烯超材料吸收体的设计与仿真。文中解释了石墨烯超材料的基本结构（三层“三明治”结构）、关键参数（如化学势、周期、厚度等）及其对吸收性能的影响。同时展示了如何通过调整石墨烯的化学势来实现吸收峰的位置和强度的变化，以及如何优化结构参数以获得最佳的吸收效果。此外，还提供了具体的代码示例，帮助读者理解和重现相关实验结果。适合人群：从事纳米光子学、超材料研究的专业人士，尤其是对石墨烯基超材料感兴趣的科研工作者和技术开发者。使用场景及目标：适用于希望深入了解石墨烯超材料的工作原理及其潜在应用场景的研究人员；旨在探索新型可调谐光学器件的设计思路和发展方向。其他说明：文中不仅分享了理论知识，还包括了许多实践经验，如避免常见错误、提高仿真相关效率的小技巧等。对于想要将研究成果应用于实际产品的团队来说，这些细节非常有价值。

随机生成2字到10字的中文词组: 随机生成2字，3字，4字，5字，6字，7字，8字，9字，10字的中文词组20个

【汽车电子电气架构】智能座舱域控平台设计：基于双片龍鷹一号SoC芯片的高性能硬件架构与多模态交互系统构建: 内容概要：本文详细探讨了智能座舱域控设计的发展历程和技术趋势。首先介绍了智能座舱从被动式交互到主动式交互的技术演变，包括硬件和交互方式的进步。随后，文章重点讨论了智能座舱功能发展趋势，涵盖车载显示技术的多屏化、大屏化和高端化，以及SoC芯片的多核异构架构和算力融合，强调了其在智能座舱中的核心作用。此外，还阐述了电子电气架构从分布式向集成化的转型，分析了其面临的挑战和未来趋势。最后，基于当前智能座舱的发展需求，提出了一种基于双片龍鷹一号芯片的新域控平台设计方案，详细描述了其硬件设计实现方案，旨在提供高性能、高可靠性的智能座舱解决方案。适合人群：汽车电子工程师、智能座舱研发人员及相关领域的技术人员。使用场景及目标：①帮助读者理解智能座舱的技术发展历程及其未来发展方向；②为智能座舱域控平台的设计和开发提供参考和技术支持；③探讨电子电气架构的转型对汽车行业的影响及应对策略。其他说明：文章结合实际案例和技术数据，深入浅出地解释了智能座舱的各项技术细节，不仅提供了理论指导，还具有较强的实践意义。通过对智能座舱域控平台的全面剖析，有助于推动智能座舱技术的创新发展，提升用户体验。

多智能体协同编队控制：无人机编队背后的Python实现与关键技术解析: 内容概要：本文详细介绍了多智能体协同编队控制的技术原理及其应用实例。首先通过生动形象的例子解释了编队控制的核心概念，如一致性算法、虚拟结构法和Leader-Follower模式。接着深入探讨了如何用Python实现基础的一致性控制，以及如何通过调整参数（如Kp、Ka）来优化编队效果。文中还讨论了实际工程中常见的问题，如通信延迟、避障策略和动态拓扑变化，并给出了相应的解决方案。最后，强调了参数调试的重要性，并分享了一些实用技巧，如预测补偿、力场融合算法和分布式控制策略。适合人群：对多智能体系统、无人机编队控制感兴趣的科研人员、工程师和技术爱好者。使用场景及目标：适用于希望深入了解多智能体协同编队控制理论并能够将其应用于实际项目的研究人员和开发者。目标是帮助读者掌握编队控制的关键技术和实现方法，提高系统的稳定性和可靠性。其他说明：文章不仅提供了详细的理论讲解，还附有具体的代码示例，便于读者理解和实践。同时，作者结合自身经验分享了许多宝贵的调试技巧和注意事项，有助于读者在实际应用中少走弯路。

评估管线钢环焊缝质量及其对氢脆的敏感性.pptx: 评估管线钢环焊缝质量及其对氢脆的敏感性.pptx

C盘清理bat脚本自动清理C盘垃圾文件: C盘清理bat脚本自动清理C盘垃圾文件

GBT21266-2007 辣椒及辣椒制品中辣椒素类物质测定及辣度表示方法: GBT21266-2007 辣椒及辣椒制品中辣椒素类物质测定及辣度表示方法

弹跳球 XNA 游戏项目演示如何使用 C# 在 Visual Studio XNA 中构建类似 arkanoiddx-ball 的游戏: 弹跳球 XNA 游戏项目。演示如何使用 C# 在 Visual Studio XNA 中构建类似 arkanoiddx-ball 的游戏。

【人形机器人领域】宇树科技人形机器人：技术实力、市场炒作与应用前景分析: 内容概要：文章全面解析了宇树科技人形机器人的发展现状、技术实力、市场炒作现象及其应用前景和面临的挑战。宇树科技成立于2016年，凭借春晚舞台的惊艳亮相和社交媒体的热议迅速走红，其人形机器人具备先进的运动控制算法、传感器技术和仿生结构设计。然而，市场炒作现象如高价租赁、二手市场炒作和虚假宣传等影响了市场秩序。尽管存在炒作，人形机器人在工业、服务和家庭领域仍具广阔前景，但也面临技术升级、成本控制、安全性和政策监管等挑战。适合人群：对机器人技术、人工智能以及科技发展趋势感兴趣的读者，包括科技爱好者、投资者和相关行业的从业者。使用场景及目标：①帮助读者了解宇树科技人形机器人的技术特点和发展历程；②揭示市场炒作现象及其影响；③探讨人形机器人的应用前景和面临的挑战。其他说明：文章强调了宇树科技人形机器人在技术上的突破和市场上的表现，同时也提醒读者关注市场炒作现象带来的风险，呼吁各方共同努力推动人形机器人产业健康发展。

msvcp140.dll: msvcp140.dll丢失怎样修复

光学技术超透镜解决方案全球市场分析：前5强生产商排名及市场份额预测: 超透镜是一种将具有特殊电磁特性的纳米结构、按照一定方式进行排列的二维平面透镜，可实现对入射光振幅、相位、偏振等参量的灵活调控，在镜头模组、全息光学、AR/VR等方面具有重要应用，具有颠覆传统光学行业的潜力。目前，超透镜解决方案的市场处于起步阶段，企业根据客户的具体需求和应用场景为其定制专用超透镜或超透镜产品。根据QYResearch最新调研报告显示，预计2031年全球超透镜解决方案市场规模将达到29.26亿美元，未来几年年复合增长率CAGR为79.55%。全球范围内，超透镜解决方案主要生产商包括Metalenz, Inc., Radiant Opto-Electronics (NIL Technology),迈塔兰斯、纳境科技、山河元景等，其中前五大厂商占有大约77.84%的市场份额。目前，全球核心厂商主要分布在欧美和亚太地区。就产品类型而言，目前红外超透镜解决方案是最主要的细分产品，占据大约96.76%的份额。就产品类型而言，目前消费电子是最主要的需求来源，占据大约36.27%的份额。主要驱动因素: 独特性能优势：超透镜解决方案具有更轻薄、成本更低、成像更好、更易集成、更高效及更易自由设计等优势。能以微米级厚度实现传统厘米级透镜功能，还可集多个光学元件功能于一身，大幅减小成像系统体积、重量，简化结构并优化性能。技术创新推动：超透镜解决方案技术不断取得进步，设计技术和工艺水平持续提升，其性能和稳定性得以不断提高。制造工艺方面，电子束光刻等多种技术应用到超透镜解决方案生产中，推动超透镜解决方案向更高分辨率、更高产量、更大面积、更高性能的方向发展。市场需求增长：消费电子、汽车电子、医疗、工业等众多领域快速发展，对高精度、高性能光学器件需求不断增加。如在手机摄像头中可缩小模组体积、提升成像分辨率和降低成本；在汽车电子领域能提高车载摄像头、激光雷达等传感器性能。

最近访客 更多访客>>

博主相关

文章分类

社区版块

存档分类

最新评论