面临的问题
对于高并发高访问的Web应用程序来说,数据库存取瓶颈一直是个令人头疼的问题。特别当你的程序架构还是建立在单数据库模式,而一个数据池连接数峰值已经达到500的时候,那你的程序运行离崩溃的边缘也不远了。很多小网站的开发人员一开始都将注意力放在了产品需求设计上,缺忽视了程序整体性能,可扩展性等方面的考虑,结果眼看着访问量一天天网上爬,可突然发现有一天网站因为访问量过大而崩溃了,到时候哭都来不及。所以我们一定要未雨绸缪,在数据库还没宕机前,想方设法给它减负,这也是这篇文章的主要议题。
大家都知道,当有一个request过来后,web服务器交给app服务器,app处理并从db中存取相关数据,但db存取的花费是相当高昂的。特别是每次都取相同的数据,等于是让数据库每次都在做高耗费的无用功,数据库如果会说话,肯定会发牢骚,你都问了这么多遍了,难道还记不住吗?是啊,如果app拿到第一次数据并存到内存里,下次读取时直接从内存里读取,而不用麻烦数据库,这样不就给数据库减负了?而且从内存取数据必然要比从数据库媒介取快很多倍,反而提升了应用程序的性能。
因此,我们可以在web/app层与db层之间加一层cache层,主要目的:1. 减少数据库读取负担;2. 提高数据读取速度。而且,cache存取的媒介是内存,而一台服务器的内存容量一般都是有限制的,不像硬盘容量可以做到TB级别。所以,可以考虑采用分布式的cache层,这样更易于破除内存容量的限制,同时又增加了灵活性。
Memcached 介绍
Memcached是开源的分布式cache系统,现在很多的大型web应用程序包括facebook,youtube,wikipedia,yahoo等等都在使用memcached来支持他们每天数亿级的页面访问。通过把cache层与他们的web架构集成,他们的应用程序在提高了性能的同时,还大大降低了数据库的负载。
具体的memcached资料大家可以直接从它的官方网站[1]上得到。这里我就简单给大家介绍一下memcached的工作原理:
Memcached处理的原子是每一个(key,value)对(以下简称kv对),key会通过一个hash算法转化成hash-key,便于查找、对比以及做到尽可能的散列。同时,memcached用的是一个二级散列,通过一张大hash表来维护。
Memcached有两个核心组件组成:服务端(ms)和客户端(mc),在一个memcached的查询中,mc先通过计算key的hash值来确定kv对所处在的ms位置。当ms确定后,客户端就会发送一个查询请求给对应的ms,让它来查找确切的数据。因为这之间没有交互以及多播协议,所以memcached交互带给网络的影响是最小化的。
举例说明:考虑以下这个场景,有三个mc分别是X,Y,Z,还有三个ms分别是A,B,C:
设置kv对
X想设置key=”foo”,value=”seattle”
X拿到ms列表,并对key做hash转化,根据hash值确定kv对所存的ms位置
B被选中了
X连接上B,B收到请求,把(key=”foo”,value=”seattle”)存了起来
获取kv对
Z想得到key=”foo”的value
Z用相同的hash算法算出hash值,并确定key=”foo”的值存在B上
Z连接上B,并从B那边得到value=”seattle”
其他任何从X,Y,Z的想得到key=”foo”的值的请求都会发向B
Memcached服务器(ms)
内存分配
默认情况下,ms是用一个内置的叫“块分配器”的组件来分配内存的。舍弃c++标准的malloc/free的内存分配,而采用块分配器的主要目的是为了避免内存碎片,否则操作系统要花费更多时间来查找这些逻辑上连续的内存块(实际上是断开的)。用了块分配器,ms会轮流的对内存进行大块的分配,并不断重用。当然由于块的大小各不相同,当数据大小和块大小不太相符的情况下,还是有可能导致内存的浪费。
同时,ms对key和data都有相应的限制,key的长度不能超过250字节,data也不能超过块大小的限制 --- 1MB。
因为mc所使用的hash算法,并不会考虑到每个ms的内存大小。理论上mc会分配概率上等量的kv对给每个ms,这样如果每个ms的内存都不太一样,那可能会导致内存使用率的降低。所以一种替代的解决方案是,根据每个ms的内存大小,找出他们的最大公约数,然后在每个ms上开n个容量=最大公约数的instance,这样就等于拥有了多个容量大小一样的子ms,从而提供整体的内存使用率。
缓存策略
当ms的hash表满了之后,新的插入数据会替代老的数据,更新的策略是LRU(最近最少使用),以及每个kv对的有效时限。Kv对存储有效时限是在mc端由app设置并作为参数传给ms的。
同时ms采用是偷懒替代法,ms不会开额外的进程来实时监测过时的kv对并删除,而是当且仅当,新来一个插入的数据,而此时又没有多余的空间放了,才会进行清除动作。
缓存数据库查询
现在memcached最流行的一种使用方式是缓存数据库查询,下面举一个简单例子说明:
App需要得到userid=xxx的用户信息,对应的查询语句类似:
“SELECT * FROM users WHERE userid = xxx”
App先去问cache,有没有“user:userid”(key定义可预先定义约束好)的数据,如果有,返回数据;如果没有,App会从数据库中读取数据,并调用cache的add函数,把数据加入cache中。
当取的数据需要更新,app会调用cache的update函数,来保持数据库与cache的数据同步。
从上面的例子我们也可以发现,一旦数据库的数据发现变化,我们一定要及时更新cache中的数据,来保证app读到的是同步的正确数据。当然我们可以通过定时器方式记录下cache中数据的失效时间,时间一过就会激发事件对cache进行更新,但这之间总会有时间上的延迟,导致app可能从cache读到脏数据,这也被称为狗洞问题。(以后我会专门描述研究这个问题)
数据冗余与故障预防
从设计角度上,memcached是没有数据冗余环节的,它本身就是一个大规模的高性能cache层,加入数据冗余所能带来的只有设计的复杂性和提高系统的开支。
当一个ms上丢失了数据之后,app还是可以从数据库中取得数据。不过更谨慎的做法是在某些ms不能正常工作时,提供额外的ms来支持cache,这样就不会因为app从cache中取不到数据而一下子给数据库带来过大的负载。
同时为了减少某台ms故障所带来的影响,可以使用“热备份”方案,就是用一台新的ms来取代有问题的ms,当然新的ms还是要用原来ms的IP地址,大不了数据重新装载一遍。
另外一种方式,就是提高你ms的节点数,然后mc会实时侦查每个节点的状态,如果发现某个节点长时间没有响应,就会从mc的可用server列表里删除,并对server节点进行重新hash定位。当然这样也会造成的问题是,原本key存储在B上,变成存储在C上了。所以此方案本身也有其弱点,最好能和“热备份”方案结合使用,就可以使故障造成的影响最小化。
Memcached客户端(mc)
Memcached客户端有各种语言的版本供大家使用,包括java,c,php,.net等等,具体可参见memcached api page[2]。
大家可以根据自己项目的需要,选择合适的客户端来集成。
缓存式的Web应用程序架构
有了缓存的支持,我们可以在传统的app层和db层之间加入cache层,每个app服务器都可以绑定一个mc,每次数据的读取都可以从ms中取得,如果没有,再从db层读取。而当数据要进行更新时,除了要发送update的sql给db层,同时也要将更新的数据发给mc,让mc去更新ms中的数据。
假设今后我们的数据库可以和ms进行通讯了,那可以将更新的任务统一交给db层,每次数据库更新数据的同时会自动去更新ms中的数据,这样就可以进一步减少app层的逻辑复杂度。如下图:
不过每次我们如果没有从cache读到数据,都不得不麻烦数据库。为了最小化数据库的负载压力,我们可以部署数据库复写,用slave数据库来完成读取操作,而master数据库永远只负责三件事:1.更新数据;2.同步slave数据库;3.更新cache。如下图:
以上这些缓存式web架构在实际应用中被证明是能有效并能极大地降低数据库的负载同时又能提高web的运行性能。当然这些架构还可以根据具体的应用环境进行变种,以达到不同硬件条件下性能的最优化。
未来的憧憬
Memcached的出现可以说是革命性的,第一次让我们意识到可以用内存作为存储媒介来大规模的缓存数据以提高程序的性能。不过它毕竟还是比较新的东西,还需要很多有待优化和改进的地方,例如:
如何利用memcached实现cache数据库,让数据库跑在内存上。这方面,tangent software 开发的memcached_engine[3]已经做了不少工作,不过现在的版本还只是处于实验室阶段。
如何能方便有效的进行批量key清理。因为现在key是散列在不同的server上的,所以对某类key进行大批量清理是很麻烦的。因为memcached本身是一个大hash表,是不具备key的检索功能的。所以memcached是压根不知道某一类的key到底存了多少个,都存在哪些server上。而这类功能在实际应用中却是经常用到。
交流
作者也是刚接触memcached方面的内容,所以严格来说还只是个新手,班门弄斧地说了一大通,如果有不对的地方,还请各位大侠多多指正。当然,如果有什么和memcached方面有关的问题或建议,也欢迎和我联系。
分享到:
相关推荐
洛谷愚人节比赛.pdf
内容概要:本文档是北京迅为电子有限公司针对iTOP-3568开发板的Linux系统开发和应用开发手册,详细介绍了开发板在Linux系统下的配置与开发方法。手册涵盖Buildroot、Debian、Ubuntu等多个Linux发行版的系统开发笔记,涉及屏幕设置、待机和锁屏、显示颜色格式、分辨率和缩放、静态IP设置、Qt程序操作、开机自启、音频视频和摄像头开发、VNC和ToDesk远程控制软件安装等内容。同时,手册还提供了关于Buildroot编译常见问题的解决方案、U-Boot和内核开发细节,以及IO电源域的配置方法。手册不仅适用于初次接触嵌入式Linux系统的开发者,也适合有一定经验的研发人员深入学习。 适合人群:具备一定编程基础,尤其是对Linux系统和嵌入式开发有一定了解的研发人员,工作1-3年的工程师,以及希望深入了解嵌入式Linux系统开发的爱好者。 使用场景及目标:①帮助用户掌握iTOP-3568开发板在Linux系统下的基本配置与高级开发技巧;②指导用户解决Linux系统开发中遇到的常见问题;③为用户提供详细的编译和调试指南,确保开发板能
内容概要:本文探讨了基于MATLAB2020b平台,采用CNN-LSTM模型结合人工大猩猩部队(GTO)算法进行电力负荷预测的方法。首先介绍了CNN-LSTM模型的基本结构及其在处理多变量输入(如历史负荷和气象数据)方面的优势。随后详细解释了模型各层的功能,包括卷积层、池化层、LSTM层和全连接层的作用。接着讨论了超参数选择的重要性,并引入GTO算法来进行超参数优化,提高模型预测精度。文中展示了具体的MATLAB代码示例,涵盖了数据预处理、模型构建、训练配置等方面的内容。此外,还分享了一些实践经验,如卷积核配置、LSTM节点数设定等。 适合人群:从事电力系统数据分析的研究人员和技术人员,尤其是对深度学习应用于电力负荷预测感兴趣的读者。 使用场景及目标:适用于需要精确预测未来电力负荷的场合,旨在帮助电力公司更好地规划发电计划,优化资源配置,保障电网安全稳定运行。通过本篇文章的学习,读者可以掌握如何使用MATLAB实现CNN-LSTM模型,并学会运用GTO算法优化超参数,从而提升预测准确性。 其他说明:文章强调了数据质量和预处理步骤的重要性,指出高质量的输入数据能够显著改善预测效果。同时提醒读者注意模型训练过程中的一些常见陷阱,如避免过度拟合等问题。
内容概要:本文详细介绍了TIG(钨极惰性气体保护焊)二维电弧仿真的理论基础和程序实现。首先阐述了TIG电弧的本质及其在二维仿真中的数学描述,主要采用磁流体动力学(MHD)方程进行建模。接着展示了如何使用Python生成仿真所需的网格,并初始化温度场、速度场和电场强度等物理参数。随后,通过迭代求解MHD方程,逐步更新各物理量,最终得到电弧内部的温度、速度和电场分布情况。通过对仿真结果的分析,能够深入了解焊接过程中熔化和凝固的现象,从而优化焊接参数,提高焊接质量。 适合人群:从事焊接工程、材料科学及相关领域的研究人员和技术人员,尤其是对TIG焊接工艺感兴趣的学者。 使用场景及目标:适用于希望深入了解TIG焊接过程并希望通过仿真手段优化焊接参数的研究人员。目标是通过仿真更好地理解电弧行为,进而改善焊接质量和效率。 其他说明:文中还提到了一些实用技巧,如网格划分、边界条件设置、求解器选择等方面的注意事项,以及如何使用不同软件工具(如MATLAB、ParaView)进行数据可视化。此外,强调了多语言混合编程的优势,并提供了一些常见的调试和优化建议。
jenkins操作诶udrtyui897t86r5drctvghuiyft
帆软本地打印插件FinePrint 8.0版本,适用于FineReport8
内容概要:本文详细介绍了基于TMS320F2812 DSP芯片的光伏并网逆变器设计方案,涵盖了主电路架构、控制算法、锁相环实现、环流抑制等多个关键技术点。首先,文中阐述了双级式结构的主电路设计,前级Boost升压将光伏板输出电压提升至约600V,后级采用三电平NPC拓扑的IGBT桥进行逆变。接着,深入探讨了核心控制算法,如电流PI调节器、锁相环(SOFGI)、环流抑制等,并提供了详细的MATLAB仿真模型和DSP代码实现。此外,还特别强调了PWM死区时间配置、ADC采样时序等问题的实际解决方案。最终,通过实验验证,该方案实现了THD小于3%,MPPT效率达98.7%,并有效降低了并联环流。 适合人群:从事光伏并网逆变器开发的电力电子工程师和技术研究人员。 使用场景及目标:适用于光伏并网逆变器的研发阶段,帮助工程师理解和实现高效稳定的逆变器控制系统,提高系统的性能指标,减少开发过程中常见的错误。 其他说明:文中提供的MATLAB仿真模型和DSP代码可以作为实际项目开发的重要参考资料,有助于缩短开发周期,提高成功率。
内容概要:本文详细介绍了如何结合鲸鱼优化算法(WOA)和深度极限学习机(DELM)构建回归预测模型。首先,文章解释了鲸鱼优化算法的基本原理,这是一种受座头鲸群体狩猎行为启发的元启发式优化算法。接着,阐述了深度极限学习机的工作机制,它结合了极限学习机的快速学习能力和深度学习的层次结构。随后,文章展示了如何使用时间窗法处理数据,并构建自动编码器和极限学习机的具体步骤。特别地,文中详细描述了如何利用鲸鱼优化算法优化自动编码器的输入权重与偏置,从而提高模型的预测性能。最后,给出了完整的代码实现,包括数据预处理、模型构建、优化和预测等环节。 适合人群:具备一定机器学习基础的研究人员和技术开发者,尤其是对时间序列预测感兴趣的从业者。 使用场景及目标:适用于需要高精度回归预测的任务,如金融数据分析、能源消耗预测等领域。主要目标是通过优化模型参数,提高预测的准确性。 其他说明:本文提供的代码示例详尽且易于修改,用户只需替换自己的数据路径即可复现实验结果。同时,文中还提供了调参的小技巧,有助于进一步提升模型表现。
内容概要:T/CIN 029—2024标准规定了非船载传导式充电机与电动船舶之间的数字通信协议,涵盖了一般要求、通信物理层、数据链路层、应用层、充电总体流程、报文分类、格式和内容等方面。该标准旨在确保电动船舶连接到直流电网时,充电机与电池管理系统(BMS)或船舶管理系统(SMS)之间的稳定通信。标准详细定义了各层的通信要求,如物理层的ISO 11898-1和SAE J1939-11规范,数据链路层的CAN扩展帧格式,以及应用层的参数组编号和传输协议。此外,还详细描述了充电的六个阶段(物理连接、低压辅助上电、充电握手、参数配置、充电和结束)的具体流程和涉及的报文格式,确保了充电过程的安全性和可靠性。 适用人群:从事电动船舶充电系统设计、开发、维护的技术人员及工程师;相关行业的研究人员;对电动船舶充电通信协议感兴趣的学者和专业人士。 使用场景及目标:① 为电动船舶充电系统的开发和优化提供技术依据;② 确保充电机与BMS/SMS之间的高效、可靠通信;③ 保障充电过程的安全性和稳定性,防止因通信故障导致的充电中断或事故。 其他说明:本标准由中国航海学会发布,适用于电动船舶连接到直流电网时的充电通信,为电动船舶行业的标准化发展提供了重要支持。标准中还包含了详细的故障诊断代码和报文格式,帮助技术人员快速定位和解决问题。
vue 基础语法使用心得
根据“意见”创新银发经济新模式.pptx
内容概要:本文详细介绍了用于机械故障诊断的盲反卷积方法及其周期估计技术。首先探讨了利用自相关函数和包络谐波乘积谱(EHPS)进行周期估计的方法,提供了具体的MATLAB代码实现。接着阐述了如何将这两种方法集成到盲反卷积框架(如MCKD和CYCBD)中,形成迭代优化的解决方案。文中通过多个实际案例展示了这些方法的有效性和优越性,尤其是在转速波动较大情况下,能够显著提高故障识别率并减少计算时间。 适合人群:从事机械设备状态监测与故障诊断的研究人员和技术人员,尤其是有一定MATLAB编程基础的工程师。 使用场景及目标:适用于各种旋转机械设备(如风力发电机、压缩机、齿轮箱等)的状态监测和故障诊断。主要目标是在缺乏精确转速信息的情况下,通过盲反卷积技术和周期估计方法,从复杂背景噪声中提取出有用的故障特征信号,从而实现高效精准的故障检测。 其他说明:文中不仅提供了详细的理论解释和技术实现步骤,还包括了许多实用的经验技巧,如参数选择、算法优化等方面的内容。此外,作者还强调了不同方法之间的互补性和组合使用的必要性,为读者提供了一个完整的解决方案视角。
腰髋疼痛医案解析与经典学习.pptx
该资源为scipy-0.12.0.tar.gz,欢迎下载使用哦!
用Python开发的爬取二手车网站数据及其分析的程序,爬取的时候采用selenium驱动google浏览器进行数据的抓取,抓取的网页内容传入lxml模块的etree对象HTML方法通过xpath解析DOM树,不过二手车的关键数据比如二手车价格,汽车表显里程数字采用了字体文件加密。据的展示采用pyecharts,它是一个用于生成 Echarts 图表的类库。爬取的数据插入mysql数据库和分析数据读取mysql数据库表都是通过pymysql模块操作。
“Clerk Exam result”数据集是关于职员考试结果的集合,它为研究职员招聘与选拔提供了丰富的数据资源。该数据集可能包含了众多考生的基本信息,如姓名、性别、年龄、学历等,这些信息有助于分析不同背景考生的考试表现差异。考试成绩是数据集的核心部分,它可能涵盖了笔试、面试等多个环节的分数,通过这些分数可以直观地看出考生在专业知识、综合能力等方面的掌握程度。此外,数据集还可能标注了考生是否通过考试,这为研究考试的选拔标准和通过率提供了依据。 从数据的来源来看,它可能是由某个或多个组织在进行职员招聘考试后整理而成,具有一定的权威性和实用性。通过对该数据集的分析,可以发现考试过程中存在的问题,比如某些题目的难度是否过高或过低,以及不同地区、不同岗位的考试难度是否均衡等。同时,它也能为后续的招聘考试提供参考,帮助优化考试流程和内容,提高招聘的科学性和有效性。 然而,需要注意的是,此类数据集可能涉及考生的隐私信息,因此在使用时必须严格遵守相关法律法规,确保数据的安全和合法使用。同时,由于考试内容和标准可能会随着时间、地区和岗位的不同而有所变化,因此在分析数据时也需要考虑到这些因素,避免得出片面或不准确的结论。
内容概要:本文详细介绍了基于Matlab/Simulink平台的5MW海上永磁直驱风电系统及其1200V并网应用。文章首先阐述了系统的整体架构,包括机侧变流器的矢量控制和网侧变流器的直流电压外环+电网电压定向控制。特别强调了滑动平均滤波在功率分配中的应用,以及混合储能系统(超级电容和锂电池)的设计与优化。文中还讨论了关键参数的选择依据,如PI参数整定、PLL模块参数设置等,并展示了仿真过程中遇到的问题及解决方案。此外,文章分享了风速数据处理方法、故障穿越性能测试结果以及模型的实际应用情况。 适合人群:从事风电系统设计、控制工程、电力电子领域的研究人员和技术人员。 使用场景及目标:适用于希望深入了解海上风电系统控制策略的研究人员和技术人员,旨在提高对直驱永磁风电系统的理解和掌握,特别是在复杂工况下的稳定性和效率优化方面。 其他说明:文章提供了详细的代码片段和仿真结果,便于读者复现实验并进行进一步研究。同时,作者提到了一些实用的经验和技巧,有助于解决实际项目中可能遇到的技术难题。
使用 workerMan 搭建一个简单的聊天室 本项目,实现了聊天室的基础功能,目的就是演示 workerMan 的使用
基于python+pyqt5实现视频自动化下载、剪辑和上传系统源码+项目说明.zip 该项目是用脚本实现部分视频网站视频内容的自动化下载、剪辑以及上传,其中界面是用PyQT做的。 使用的浏览器驱动是undetected_chromedriver,可以跳过tiktok的机器人检查 使用的浏览器是91,版本:Google_Chrome_(64bit)_v91.0.4472.77 【功能】 自动从各种视频网站下载视频 支持视频剪辑和合集制作 支持自动上传视频到视频网站 技术栈 Python PyQT undetected_chromedriver
内容概要:本文探讨了微电网多目标优化调度的重要性和挑战,提出了一种创新的多目标优化调度模型,该模型综合考虑了微电网系统的运行成本和环境保护成本。文中详细介绍了模型的成本计算方法,并阐述了改进粒子群算法(PSO)在求解该模型中的应用。改进后的PSO算法通过非线性递减的惯性权重和引入柯西变异因子,提高了求解效率和准确性。仿真结果显示,该模型和算法不仅降低了用户的用电成本,还显著减少了环境污染,证明了其优越性能。 适合人群:对微电网优化调度感兴趣的科研人员、工程师和技术爱好者。 使用场景及目标:适用于微电网系统的优化调度,旨在降低成本、提高经济效益的同时减少环境污染。目标是在满足电力供应的前提下,实现经济和环境效益的最大化。 其他说明:尽管改进的粒子群算法表现优异,但在处理极端天气引起的可再生能源波动方面仍存在挑战。未来的研究可以进一步整合天气预报数据,增强算法的鲁棒性。