`
zhengdl126
  • 浏览: 2542688 次
  • 性别: Icon_minigender_1
  • 来自: 深圳
社区版块
存档分类

腾讯后台开发技术总监浅谈过载保护 小心雪崩效应

 
阅读更多

摘要: 每个系统,都有自己的最大处理能力,后台技术人员对此必须很清楚,且要注意自我保护,不然就会被雪球压垮,出现雪崩。

雪球:

对于时延敏感的服务,当外部请求超过系统处理能力,如果系统没有做相应保护,可能导致历史累计的超时请求达到一定规模,像雪球一样形成恶性循环。由于系统处理的每个请求都因为超时而无效,系统对外呈现的服务能力为0,且这种情况下不能自动恢复。

腾讯后台开发技术总监bison,给大家分享了非常精彩的过载保护,其看似简单,但是要做好并不容易。这里用两个曾经经历的反面案例,给出过载保护的直观展现,并附上一点感想。

案例一 基本情况

如下图,进程A是一个单进程系统,通过udp套接字接收前端请求进行处理。在处理过程中,需要访问后端系统B,是同步的方式访问后端系统B,根据后端系统B的SLA,超时时间设置是100ms。前端用户请求的超时时间是1s。

进程A的时序是:

Step1: 从socket接收缓冲区接收用户请求

Step2: 进行本地逻辑处理

Step3: 发送请求到后端系统B

Step4: 等待后端系统B返回

Step5: 接收后端系统B的应答

Step6: 应答前端用户,回到step1处理下一个请求

正常情况下的负载

正常情况下:

1、前端请求报文大小约100Bytes。前端请求的峰值每分钟1800次,即峰值每秒30次。

2、后端系统B并行能力较高,每秒可以处理10000次以上,绝大多数请求处理时延在20ms内。

3、进程A在处理请求的时候,主要时延是在等待后端系统B,其他本地运算耗时非常少,小于1ms

这个时候,我们可以看出,系统工作良好,因为处理时延在20ms内,每秒进程A每秒中可以处理50个请求,足以将用户每秒峰值30个请求及时处理完。

导火索

某天,后端系统B进行了新特性发布,由于内部逻辑变复杂,导致每个请求处理时延从20ms延长至50ms,根据sla的100ms超时时间,这个时延仍然在正常范围内。当用户请求达到峰值时间点时,灾难出现了,用户每次操作都是“服务器超时无响应”,整个服务不可用。

过载分析

当后端系统B处理时延延长至50ms的时候,进程A每秒只能处理20个请求(1s / 50ms = 20 )。小于正常情况下的用户请求峰值30次/s。这个时候操作失败的用户往往会重试,我们观察到前端用户请求增加了6倍以上,达到200次/s,是进程A最 大处理能力(20次/s)的10倍!

这个时候为什么所有用户发现操作都是失败的呢? 为什么不是1/10的用户发现操作能成功呢? 因为请求量和处理能力之间巨大的差异使得5.6s内就迅速填满了socket接收缓冲区(平均能缓存1000个请 求,1000/(200-20)=5.6s),并且该缓冲区将一直保持满的状态。这意味着,一个请求被追加到缓冲区里后,要等待50s(缓存1000个请 求,每秒处理20个,需要50s)后才能被进程A 取出来处理,这个时候用户早就看到操作超时了。换句话说,进程A每次处理的请求,都已经是50s以前产生的,进程A一直在做无用功。雪球产生了。

案例二 基本情况

前端系统C通过udp访问后端serverD,后端server D的udp套接字缓冲区为4MB,每个请求大小约400字节。后端serverD偶尔处理超时情况下,前端系统C会重试,最多重试2次。

正常情况下的负载

正常情况,后端serverD单机收到请求峰值为300次/s,后端serverD单机处理能力是每秒1500次,时延10ms左右。这个时候工作正常。

导火索

由于产品特性(例如提前通知大量用户,未来某某时刻将进行一项秒杀活动;类似奥运门票,大量用户提前得知信息:某日开始发售门票),大量的用户聚集 在同 一时刻发起了大量请求,超出了后台serverD的最大负载能力。操作响应失败的用户又重试, 中间系统的重试,进一步带来了更大量的请求(正常情况下的9倍)。导致所有用户操作都是失败的。

过载分析

只是导火索不一样,同案例一,巨大的请求和处理能力之间的鸿沟,导致后端serverD的4M大小的接收缓冲区迅速填满(4秒就填满),且过载时间 内, 接收缓冲区一直都是满的。而处理完缓冲区内的请求,ServerD需要6秒以上(4MB / 400 / 1500 = 6.7S)。所以serverD处理的请求都是6s之前放入缓冲区的,而该请求在最前端早已经超时。雪球形成了。

启示

1、 每 个系统,自己的最大处理能力是多少要做到清清楚楚。例如案例一中的前端进程A,他的最大处理能力不是50次/s,也不是20次/S,而是10次/S。因为 它是单进程同步的访问后端B, 且访问后端B的超时时间是100ms,所以他的处理能力就是1S/100ms=10次/S。而平时处理能力表现为50次/S,只是运气好。

2、 每个系统要做好自我保护,量力而为,而不是尽力而为。对于超出自己处理能力范围的请求,要勇于拒绝。

3、 每个系统要有能力发现哪些是有效的请求,哪些是无效的请求。上面两个案例中,过载的系统都不具备这中慧眼,逮着请求做死的处理,雪球时其实是做无用功。

4、 前端系统有保护后端系统的义务,sla中承诺多大的能力,就只给到后端多大的压力。这就要求每一个前后端接口的地方,都有明确的负载约定,

 

 

一环扣一环。

5、 当过载发生时,该拒绝的请求(1、超出整个系统处理能力范围的;2、已经超时的无效请求)越早拒绝越好。就像上海机场到市区的高速上,刚出机场就有电子公示牌显示,进入市区某某路段拥堵,请绕行。

6、 对于用户的重试行为,要适当的延缓。例如登录发现后端响应失败,再重新展现登录页面前,可以适当延时几秒钟,并展现进度条等友好界面。当多次重试还失败的情况下,要安抚用户。

7、 产品特性设计和发布上,要尽量避免某个时刻导致大量用户集体触发某些请求的设计。发布的时候注意灰度。

8、 中间层server对后端发送请求,重试机制要慎用,一定要用的话要有严格频率控制。

9、 当雪球发生了,直接清空雪球队列(例如重启进程可以清空socket 缓冲区)可能是快速恢复的有效方法。

10、过载保护很重要的一点,不是说要加强系统性能、容量,成功应答所有请求,而是保证在高压下,系统的服务能力不要陡降到0,而是顽强的对外展现最大有效处理能力。

对于“每个系统要有能力发现哪些是有效的请求,哪些是雪球无效的请求”,这里推荐一种方案:在该系统每个机器上新增一个进程:interface进 程。 Interface进程能够快速的从socket缓冲区中取得请求,打上当前时间戳,压入channel。业务处理进程从channel中获取请求和该请 求的时间戳,如果发现时间戳早于当前时间减去超时时间(即已经超时,处理也没有意义),就直接丢弃该请求,或者应答一个失败报文。

Channel是一个先进先出的通信方式,可以是socket,也可以是共享内存、消息队列、或者管道,不限。

Socket缓冲区要设置合理,如果过大,导致及时interface进程都需要处理长时间才能清空该队列,就不合适了。建议的大小上限是:缓存住超时时间内interface进程能够处理掉的请求个数(注意考虑网络通讯中的元数据)。

分享到:
评论

相关推荐

    腾讯后台开发面试题解答

    腾讯后台开发面试题解答 本资源摘要信息主要涵盖了Linux系统命令、进程间通信、C++进程内存空间分布、ELF文件、makefile编写、进程间通信机制、内存泄露检测、动态链接和静态链接的区别、多线程和多进程的区别等...

    腾讯后台开发面试题及答案

    腾讯后台开发面试题及答案中涉及的知识点主要包括文件描述符(file descriptor)、网络状态查看工具(netstat)、数据包分析工具(tcpdump)、进程间通信(IPC)机制、系统性能调试命令、共享内存使用原理、系统参数配置等,...

    徐晓鑫后台开发技术实践——腾讯

    作者是在腾讯工作多年的后台开发工程师,不仅技术精湛,而且在处理大量实际业务的过程中积累了丰富的开发经验。在这本书中,她不仅首次为后台开发工程师勾勒出了完整的知识能力体系结构图,而且还对后台开发工程师所...

    《后台开发 核心技术与应用实践》 PDF

    《后台开发核心技术与应用实践》这本书是腾讯资深后台工程师基于多年的实战经验编撰而成的,旨在为读者构建全面的后台工程师能力体系。本书的核心内容涵盖了后台开发中的关键技术和实际操作方法,得到了业界多位专家...

    后台开发:核心技术与应用实践 书籍源代码

    后台开发:核心技术与应用实践 作者:徐晓鑫 著 出版日期:2016年08月06日 ...徐晓鑫,腾讯资深软件研发工程师,先后在腾讯游戏之洛克王国、QQ会员、QQ秀等项目工作,精通后台开发各种技术,实战经验丰富。

    腾讯后台开发实习生技能要求

    腾讯作为中国领先的互联网巨头,其后台开发实习生的招聘标准反映了行业内的高标准和高要求。对于应届生来说,除了基础的算法和数据结构知识,还需要掌握一系列与操作系统、网络、数据库以及Linux系统相关的技能。...

    微信技术总监分享架构设计高清完整PDF版

    微信技术总监周颢在腾讯大讲堂的演讲中分享了微信在技术架构上的独到之处。 - **核心理念**:“至简”不仅是微信的设计理念,也是其技术架构的核心。通过将复杂的问题拆解为简单、易于管理的部分,微信实现了高效且...

    后台开发 核心技术与应用实践

    作者是在腾讯工作多年的后台开发工程师,不仅技术精湛,而且在处理大量实际业务的过程中积累了丰富的开发经验。在这本书中,她不仅首次为后台开发工程师勾勒出了完整的知识能力体系结构图,而且还对后台开发工程师所...

    后台开发核心技术与应用实践

    作者是在腾讯工作多年的后台开发工程师,不仅技术精湛,而且在处理大量实际业务的过程中积累了丰富的开发经验。在这本书中,她不仅首次为后台开发工程师勾勒出了完整的知识能力体系结构图,而且还对后台开发工程师所...

    腾讯后台开发面试 微软雅黑4

    ### 腾讯后台开发面试知识点解析 #### 一、笔试知识点分析 ##### C/C++ - **宏展开**: 宏是C/C++语言中的预处理器指令,用于在编译前进行文本替换。理解宏的工作原理及其注意事项对于编写高质量的代码至关重要。 -...

    后台开发 核心技术与应用实践.zip

    腾讯公司资深研发工程师多年后台开发经验总结,藐腾讯、Facebook 、微软、阿里、百应多位资深技术专.高摩认可。 完整勾勒后台开发技术能力体系,多维度讲解了成为一名后台开发工程师所需掌握的核心技术、开发工具和...

    Flare 是腾讯开源的后台服务开发框架,旨在提供针对目前主流软硬件环境下的易用、高性能、平稳的服务开发能力.rar

    Flare是广泛投产于腾讯广告后台的现代化C++后台开发框架。 设计关注点主要在于长尾延迟低、接口易用。同时,在不影响长尾延迟的前提下,我们做了大量的架构及微观的性能优化以提升吞吐。 Flare主要包含了基础库、...

    腾讯后台开发面试题解答.pdf

    【腾讯后台开发面试题详解】 在腾讯的后台开发面试中,面试官会关注候选人的Linux系统操作能力,网络知识,进程间通信(IPC)的理解,以及C++编程基础。以下是一些关键知识点的详细说明: 1. **Linux系统管理命令*...

    【腾讯御安全】浅谈安卓开发代码混淆技术[归类].pdf

    【腾讯御安全】浅谈安卓开发代码混淆技术 在当今快速发展的移动互联网时代,应用程序的安全性成为了开发者关注的焦点。由于Java层的逆向分析工具日益成熟,许多开发者选择将核心代码迁移到Native层,以增强应用的...

    后台开发的一些源代码

    作者是在腾讯工作多年的后台开发工程师,不仅技术精湛,而且在处理大量实际业务的过程中积累了丰富的开发经验。在这本书中,她不仅首次为后台开发工程师勾勒出了完整的知识能力体系结构图,而且还对后台开发工程师所...

    后台开发 核心技术与应用实践-徐晓鑫

    这里给大家分享一下后台开发必看经典书籍。腾讯资深后台工程师多年经验结晶,完整勾勒后台工程师能力体系结构图,详细讲解后台开发所需核心技术、开发工具和实践方法,腾讯、阿里、百度、Facebook多位专家力荐!

    ( 腾讯游戏后台架构及开发介绍

    中国互联网的行业老大腾讯技术总监生动、详细的讲述了腾讯的后台架构是如何从几十万级,一步一步发展到现在的亿级大关的。

Global site tag (gtag.js) - Google Analytics