一、秒杀业务为什么难做
IM系统,例如QQ或者微博,每个人都读自己的数据(好友列表、群列表、个人信息)。
微博系统,每个人读你关注的人的数据,一个人读多个人的数据。
秒杀系统,库存只有一份,所有人会在集中的时间读和写这些数据,多个人读一个数据。
例如小米手机每周二的秒杀,可能手机只有1万部,但瞬时进入的流量可能是几百几千万。又例如12306抢票,票是有限的,库存一份,瞬时流量非常多,都读相同的库存。读写冲突,锁非常严重,这是秒杀业务难的地方。那我们怎么优化秒杀业务的架构呢?
二、优化方向
优化方向有两个:
将请求尽量拦截在系统上游(不要让锁冲突落到数据库上去)。传统秒杀系统之所以挂,请求都压倒了后端数据层,数据读写锁冲突严重,并发高响应慢,几乎所有请求都超时,流量虽大,下单成功的有效流量甚小。以12306为例,一趟火车其实只有2000张票,200w个人来买,基本没有人能买成功,请求有效率为0。
充分利用缓存,秒杀买票,这是一个典型的读多些少的应用场景,大部分请求是车次查询,票查询,下单和支付才是写请求。一趟火车其实只有2000张票,200w个人来买,最多2000个人下单成功,其他人都是查询库存,写比例只有0.1%,读比例占99.9%,非常适合使用缓存来优化。好,后续讲讲怎么个“将请求尽量拦截在系统上游”法,以及怎么个“缓存”法,讲讲细节。
三、常见秒杀架构
常见的站点架构基本是这样的(特别是流量上亿的站点架构):
浏览器端,最上层,会执行到一些JS代码
站点层,这一层会访问后端数据,拼HTML页面返回给浏览器
服务层,向上游屏蔽底层数据细节,提供数据访问
数据层,最终的库存是存在这里的,MySQL是一个典型(当然还有会缓存)
这个图虽然简单,但能形象的说明大流量高并发的秒杀业务架构,大家要记得这一张图。
后面细细解析各个层级怎么优化。
四、各层次优化细节
第一层,客户端怎么优化(浏览器层,APP层)
问大家一个问题,大家都玩过微信的摇一摇抢红包对吧,每次摇一摇,就会往后端发送请求么?回顾我们下单抢票的场景,点击了“查询”按钮之后,系统那个卡呀,进度条涨的慢呀,作为用户,我会不自觉的再去点击“查询”,对么?继续点,继续点,点点点……有用么?平白无故的增加了系统负载,一个用户点5次,80%的请求是这么多出来的,怎么整?
产品层面,用户点击“查询”或者“购票”后,按钮置灰,禁止用户重复提交请求;
JS层面,限制用户在x秒之内只能提交一次请求;
APP层面,可以做类似的事情,虽然你疯狂的在摇微信,其实x秒才向后端发起一次请求。这就是所谓的“将请求尽量拦截在系统上游”,越上游越好,浏览器层,APP层就给拦住,这样就能挡住80%+的请求,这种办法只能拦住普通用户(但99%的用户是普通用户)对于群内的高端程序员是拦不住的。
FireBug一抓包,HTTP长啥样都知道,JS是万万拦不住程序员写for循环,调用HTTP接口的,这部分请求怎么处理?
第二层,站点层面的请求拦截
怎么拦截?怎么防止程序员写for循环调用,有去重依据么?IP?cookie-id?…想复杂了,这类业务都需要登录,用uid即可。在站点层面,对uid进行请求计数和去重,甚至不需要统一存储计数,直接站点层内存存储(这样计数会不准,但最简单)。一个uid,5秒只准透过1个请求,这样又能拦住99%的for循环请求。
5s只透过一个请求,其余的请求怎么办?缓存,页面缓存,同一个uid,限制访问频度,做页面缓存,x秒内到达站点层的请求,均返回同一页面。同一个item的查询,例如车次,做页面缓存,x秒内到达站点层的请求,均返回同一页面。如此限流,既能保证用户有良好的用户体验(没有返回404)又能保证系统的健壮性(利用页面缓存,把请求拦截在站点层了)。
页面缓存不一定要保证所有站点返回一致的页面,直接放在每个站点的内存也是可以的。优点是简单,坏处是HTTP请求落到不同的站点,返回的车票数据可能不一样,这是站点层的请求拦截与缓存优化。
好,这个方式拦住了写for循环发HTTP请求的程序员,有些高端程序员(黑客)控制了10w个肉鸡,手里有10w个uid,同时发请求(先不考虑实名制的问题,小米抢手机不需要实名制),这下怎么办,站点层按照uid限流拦不住了。
第三层 服务层来拦截(反正就是不要让请求落到数据库上去)
服务层怎么拦截?大哥,我是服务层,我清楚的知道小米只有1万部手机,我清楚的知道一列火车只有2000张车票,我透10w个请求去数据库有什么意义呢?没错,请求队列!
对于写请求,做请求队列,每次只透有限的写请求去数据层(下订单,支付这样的写业务):
1w部手机,只透1w个下单请求去db:
3k张火车票,只透3k个下单请求去db。
如果均成功再放下一批,如果库存不够则队列里的写请求全部返回“已售完”。
对于读请求,怎么优化?Cache抗,不管是memcached还是redis,单机抗个每秒10w应该都是没什么问题的。如此限流,只有非常少的写请求,和非常少的读缓存mis的请求会透到数据层去,又有99.9%的请求被拦住了。
当然,还有业务规则上的一些优化。回想12306所做的,分时分段售票,原来统一10点卖票,现在8点,8点半,9点,...每隔半个小时放出一批:将流量摊匀。
其次,数据粒度的优化:你去购票,对于余票查询这个业务,票剩了58张,还是26张,你真的关注么,其实我们只关心有票和无票?流量大的时候,做一个粗粒度的 “有票”“无票”缓存即可。
第三,一些业务逻辑的异步:例如 下单业务与 支付业务的分离。这些优化都是结合 业务 来的,我之前分享过一个观点“一切脱离业务的架构设计都是耍流氓”架构的优化也要针对业务。
最后是数据库层
浏览器拦截了80%,站点层拦截了99.9%并做了页面缓存,服务层又做了写请求队列与数据缓存,每次透到数据库层的请求都是可控的。db基本就没什么压力了,闲庭信步,单机也能扛得住,还是那句话,库存是有限的,小米的产能有限,透这么多请求来数据库没有意义。
全部透到数据库,100w个下单,0个成功,请求有效率0%。透3k到数据,全部成功,请求有效率100%。
五、总结
上文应该描述的非常清楚了,没什么总结了,对于秒杀系统,再次重复下我个人经验的两个架构优化思路:
尽量将请求拦截在系统上游(越上游越好);
读多写少的常用多使用缓存(缓存抗读压力);
浏览器和APP:做限速。 站点层:按照uid做限速,做页面缓存。 服务层:按照业务做写请求队列控制流量,做数据缓存。 数据层:闲庭信步。 以及结合业务做优化
六、Q&A
问题1、按你的架构,其实压力最大的反而是站点层,假设真实有效的请求数有1000万,不太可能限制请求连接数吧,那么这部分的压力怎么处理?
答:每秒钟的并发可能没有1kw,假设有1kw,解决方案2个:
站点层是可以通过加机器扩容的,最不济1k台机器来呗。
如果机器不够,抛弃请求,抛弃50%(50%直接返回稍后再试),原则是要保护系统,不能让所有用户都失败。
问题2、“控制了10w个肉鸡,手里有10w个uid,同时发请求” 这个问题怎么解决哈?
答:上面说了,服务层写请求队列控制
问题3: 限制访问频次的缓存,是否也可以用于搜索?例如A用户搜索了“手机”,B用户搜索“手机”,优先使用A搜索后生成的缓存页面?
答:这个是可以的,这个方法也经常用在 “动态”运营活动页,例如短时间推送4kw用户app-push运营活动,做页面缓存。
问题4:如果队列处理失败,如何处理?肉鸡把队列被撑爆了怎么办?
答:处理失败返回下单失败,让用户再试。队列成本很低,爆了很难吧。最坏的情况下,缓存了若干请求之后,后续请求都直接返回“无票”(队列里已经有100w请求了,都等着,再接受请求也没有意义了)。
问题5:站点层过滤的话,是把uid请求数单独保存到各个站点的内存中么?如果是这样的话,怎么处理多台服务器集群经过负载均衡器将相同用户的响应分布到不同服务器的情况呢?还是说将站点层的过滤放到负载均衡前?
答:可以放在内存,这样的话看似一台服务器限制了5s一个请求,全局来说(假设有10台机器),其实是限制了5s 10个请求,解决办法:
加大限制(这是建议的方案,最简单)
在nginx层做7层均衡,让一个uid的请求尽量落到同一个机器上
问题6:服务层过滤的话,队列是服务层统一的一个队列?还是每个提供服务的服务器各一个队列?如果是统一的一个队列的话,需不需要在各个服务器提交的请求入队列前进行锁控制?
答:可以不用统一一个队列,这样的话每个服务透过更少量的请求(总票数/服务个数),这样简单。统一一个队列又复杂了。
问题7:秒杀之后的支付完成,以及未支付取消占位,如何对剩余库存做及时的控制更新 ?
答:数据库里一个状态,未支付。如果超过时间,例如45分钟,库存会重新会恢复(大家熟知的“回仓”),给我们抢票的启示是,开动秒杀后,45分钟之后再试试看,说不定又有票哟。
问题8:不同的用户 浏览同一个商品 落在不同的缓存实例 显示的库存完全不一样 请问老师怎么做缓存数据一致 或者是允许脏读?
答:目前的架构设计,请求落到不同的站点上,数据可能不一致(页面缓存不一样),这个业务场景能接受。但数据库层面真实数据是没问题的。
问题9:就算处于业务把优化考虑 “3k张火车票,只透3k个下单请求去db”那这3k个订单就不会发生拥堵了吗?
答:(1)数据库抗3k个写请求还是ok的;(2)可以数据拆分;(3)如果3k扛不住,服务层可以控制透过去的并发数量,根据压测情况来吧,3k只是举例;
问题10:如果在站点层或者服务层处理后台失败的话,需不需要考虑对这批处理失败的请求做重放?还是就直接丢弃?
答:别重放了,返回用户查询失败或者下单失败吧,架构设计原则之一是“fail fast”。
问题11:对于大型系统的秒杀,比如12306,同时进行的秒杀活动很多,如何分流?
答:垂直拆分
问题12:额外又想到一个问题。这套流程做成同步还是异步的?如果是同步的话,应该还存在会有响应反馈慢的情况。但如果是异步的话,如何控制能够将响应结果返回正确的请求方?
答:用户层面肯定是同步的(用户的HTTP请求是夯住的),服务层面可以同步可以异步。
问题13:秒杀群提问:减库存是在那个阶段减呢?如果是下单锁库存的话,大量恶意用户下单锁库存而不支付如何处理呢?
答:数据库层面写请求量很低,还好,下单不支付,等时间过完再“回仓”,之前提过了。
- 大小: 4 KB
分享到:
相关推荐
秒杀业务的难点在于同一时间大量用户同时读取和更新共享资源,如库存,导致读写冲突和数据库锁竞争。优化策略主要分为两方面:一是尽可能将请求拦截在系统上游,减少对数据库的直接影响;二是充分利用缓存,优化读写...
### 如何设计秒杀系统:秒杀系统架构优化思路 #### 一、为什么秒杀系统难做? 秒杀系统的难点在于其特殊的业务场景——在短时间内处理极大量的并发请求。例如小米手机每周二的秒杀活动,尽管备货可能只有1万台手机...
### 电商秒杀架构解析 #### 一、背景知识与基本概念 在深入了解电商秒杀架构之前,我们需要先掌握...从秒杀架构的设计到实施,每一步都需要精心规划和不断优化。未来,随着技术的进步,秒杀系统也将更加完善和高效。
### 秒杀系统架构设计知识点概述 #### 一、热点数据与...综上所述,秒杀系统架构设计不仅涉及到热点数据管理、流量控制等技术细节,还需要考虑整体架构的优化和演进策略,以确保在高并发环境下提供稳定高效的服务。
在实际搭建秒杀业务系统架构的过程中,我们要从高性能、高可用和高可靠性这三个核心出发,构建基础设施。通过购买和配置高性能硬件资源,搭建基础组件和微服务管理平台,实施微服务分层架构的设计,从而构建一个既...
其中重点的内容包括了千万级订单的业务处理,业务幂等性技术架构体系,每秒100W请求的秒杀架构体系,电商亿级数据如何设计数据库,海量数据如何提供毫秒级查询,电商系统持续集成实战及原理剖析,大促高并发系统下...
秒杀系统架构设计是互联网行业中一个非常重要的领域,特别是在电商、票务等高并发场景下,秒杀活动能够迅速清空库存,同时吸引大量用户流量。许大牛,作为一个在IT行业内具有较高知名度的人物,他的秒杀系统架构设计...
总的来说,Java高并发秒杀API的设计需要深入理解业务需求,合理规划系统架构,优化数据库访问,以及充分利用并发处理机制。通过对DAO层的精心设计和优化,我们可以有效地应对高并发挑战,提供稳定、高效的秒杀服务。
秒杀系统作为电商系统中一种特殊的业务场景,其核心功能是在短时间内处理大量并发请求,确保高并发下的商品抢购活动能够稳定、高效地进行。本文档《秒杀系统架构分享.pdf》将详细探讨秒杀系统架构设计的要点和实现...
1. **秒杀业务特性**: - **低廉价格**:秒杀商品价格极具吸引力,导致大量用户参与。 - **大幅推广**:通过广告和营销活动,引发大规模用户关注。 - **瞬时售空**:商品在短时间内被迅速抢购一空。 - **定时...
在当今互联网快速发展的背景下,高并发、高性能成为了考验系统架构的关键指标之一。特别是在电商领域中的“秒杀”活动,短时间内会有大量用户同时访问,这对系统的稳定性和响应速度提出了极高的要求。本文将深入探讨...
系统架构优化是IT领域中一个至关重要的议题,特别是在面对业务复杂性和系统负载增加时。本文档,"系统架构优化最佳实践.docx",探讨了如何通过系统拆分和结构演变来提升系统的容量和健壮性,以适应不断增长的需求。 ...
系统架构优化最佳实践是互联网行业中不可或缺的一环,随着业务发展和技术进步,原有的系统架构可能会变得过于庞大和复杂,影响系统的稳定性和效率。本实践指南主要围绕系统拆分和结构演变两大主题,旨在提升系统容量...
1. **秒杀业务流程**: - 商家提交秒杀商品信息,包括标题、价格、图片等。 - 运营商审核并发布秒杀活动。 - 秒杀商品在频道首页展示,用户点击进入详情页。 - 用户下单并扣除库存,若库存为0或活动结束,则无法...
首先,秒杀业务具有瞬时并发量大和库存量少的特点。在短时间内,大量用户同时发起抢购请求,导致系统面临巨大的并发压力。而商品库存有限,意味着只有少数用户能够成功购买,这对系统设计提出了严格的要求。 秒杀...
本课由360架构师亲授,以360真实秒杀系统为切入点, 从秒杀的功能入手,分层递进讲解,逐步让大家掌握系统的设计、架构以及优化,从容应对百万级、过亿级的秒杀活动及其它海量访问的互联网系统。1. Linux / Nginx / ...
本文将深入解析类似于淘宝的秒杀系统架构思想,探讨如何设计一个能够应对高并发、保证数据一致性的高效秒杀系统。 一、架构设计原则 1. **水平扩展**:通过增加服务器数量来提升系统的处理能力,而不是单一提升单...