瞬时响应:网站的高性能架构
什么叫高性能的网站?
两个网站性能架构设计方案:A方案和B方案,A方案在小于100个并发用户访问时,每个请求的响应时间是1秒,当并发请求达到200的时候,请求的响应时间将骤增到10秒。B方案不管是100个并发用户访问还是200个并发用户访问,每个请求的响应时间都差不多是1.5秒。哪个方案的性能好?如果老板说“我们要改善网站的性能”,他指的是什么?
同类型的两个网站,X网站服务器平均每个请求的处理时间是500毫秒,Y网站服务器平均每个请求的处理时间是1000毫秒,为什么用户却反映Y网站的速度快呢?
网站性能是客观的指标,可以具体体现到响应时间、吞吐量等技术指标,同时也是主观的感受,而感受则是一种与具体参与者相关的微妙的东西,用户的感受和工程师的感受不同,不同的用户感受也不同。
网站性能测试
性能测试是性能优化的前提和基础,也是性能优化结果的检查和度量标准。不同视角下的网站性能有不同的标准,也有不同的优化手段。
不同视角下的网站性能
软件工程师说到网站性能的时候,通常和用户说的不一样。
1.用户视角的网站性能
从用户角度,网站性能就是用户在浏览器上直观感受到的网站响应速度快还是慢。用户感受到的时间,包括用户计算机和网站服务器通信的时间、网站服务器处理的时间、用户计算机浏览器构造请求解析响应数据的时间,如图4.1所示。
图4.1 用户视角的网站性能
不同计算机的性能差异,不同浏览器解析HTML速度的差异,不同网络运营商提供的互联网宽带服务的差异,这些差异最终导致用户感受到的响应延迟可能会远远大于网站服务器处理请求需要的时间。
在实践中,使用一些前端架构优化手段,通过优化页面HTML式样、利用浏览器端的并发和异步特性、调整浏览器缓存策略、使用CDN服务、反向代理等手段,使浏览器尽快地显示用户感兴趣的内容、尽可能近地获取页面内容,即使不优化应用程序和架构,也可以很大程度地改善用户视角下的网站性能。
2.开发人员视角的网站性能
开发人员关注的主要是应用程序本身及其相关子系统的性能,包括响应延迟、系统吞吐量、并发处理能力、系统稳定性等技术指标。主要的优化手段有使用缓存加速数据读取,使用集群提高吞吐能力,使用异步消息加快请求响应及实现削峰,使用代码优化手段改善程序性能。
3.运维人员视角的网站性能
运维人员更关注基础设施性能和资源利用率,如网络运营商的带宽能力、服务器硬件的配置、数据中心网络架构、服务器和网络带宽的资源利用率等。主要优化手段有建设优化骨干网、使用高性价比定制服务器、利用虚拟化技术优化资源利用等。
性能测试指标
不同视角下有不同的性能标准,不同的标准有不同的性能测试指标,从开发和测试人员的视角,网站性能测试的主要指标有响应时间、并发数、吞吐量、性能计数器等。
1.响应时间
指应用执行一个操作需要的时间,包括从发出请求开始到收到最后响应数据所需要的时间。响应时间是系统最重要的性能指标,直观地反映了系统的“快慢”。表4.1列出了一些常用的系统操作需要的响应时间。
表4.1 常用系统操作响应时间表
操 作 |
响应时间 |
打开一个网站 |
几秒 |
在数据库中查询一条记录(有索引) |
十几毫秒 |
机械磁盘一次寻址定位 |
4毫秒 |
从机械磁盘顺序读取1MB数据 |
2毫秒 |
从SSD磁盘顺序读取1MB数据 |
0.3毫秒 |
从远程分布式缓存Redis读取一个数据 |
0.5毫秒 |
从内存中读取1MB数据 |
十几微秒 |
Java程序本地方法调用 |
几微秒 |
网络传输2KB数据 |
1微秒 |
测 试程序通过模拟应用程序,记录收到响应和发出请求之间的时间差来计算系统响应时间。但是记录及获取系统时间这个操作也需要花费一定的时间,如果测试目标操 作本身需要花费的时间极少,比如几微秒,那么测试程序就无法测试得到系统的响应时间。实践中通常采用的办法是重复请求,比如一个请求操作重复执行一万次, 测试一万次执行需要的总响应时间之和,然后除以一万,得到单次请求的响应时间。
2.并发数
指系统能够同时处理请求的数目,这个数字也反映了系统的负载特性。对于网站而言,并发数即网站并发用户数,指同时提交请求的用户数目。
与网站并发用户数相对应的还有网站在线用户数(当前登录网站的用户总数)和网站系统用户数(可能访问系统的总用户数,对多数网站而言就是注册用户数)。其数量比较关系为:
网站系统用户数>>网站在线用户数>>网站并发用户数
在网站产品设计初期,产品经理和运营人员就需要规划不同发展阶段的网站系统用户数,并以此为基础,根据产品特性和运营手段,推算在线用户数和并发用户数。这些指标将成为系统非功能设计的重要依据。
现实中,经常看到某些网站,特别是电商类网站,市场推广人员兴致勃勃地打广告打折促销,用户兴致勃勃地去抢购,结果活动刚一开始,就因为并发用户数超过网站最大负载而响应缓慢,急性子的用户不停刷新浏览器,导致系统并发数更高,最后以服务器系统崩溃,用户浏览器显示“Service is too busy”而告终。出现这种情况,有可能是网站技术准备不充分导致,也有可能是运营人员错误地评估并发用户数导致。
测试程序通过多线程模拟并发用户的办法来测试系统的并发处理能力,为了真实模拟用户行为,测试程序并不是启动多线程然后不停地发送请求,而是在两次请求之间加入一个随机等待时间,这个时间被称作思考时间。
3.吞吐量
指单位时间内系统处理的请求数量,体现系统的整体处理能力。对于网站,可以用“请求数/秒”或是“页面数/秒”来衡量,也可以用“访问人数/天”或是“处理的业务数/小时”等来衡量。TPS(每秒事务数)是吞吐量的一个常用量化指标,此外还有HPS(每秒HTTP请求数)、QPS(每秒查询数)等。
在系统并发数由小逐渐增大的过程中(这个过程也伴随着服务器系统资源消耗逐渐增大),系统吞吐量先是逐渐增加,达到一个极限后,随着并发数的增加反而下降,达到系统崩溃点后,系统资源耗尽,吞吐量为零。
而这个过程中,响应时间则是先保持小幅上升,到达吞吐量极限后,快速上升,到达系统崩溃点后,系统失去响应。系统吞吐量、系统并发数及响应时间之间的关系将在本章后面内容中介绍。
系 统吞吐量和系统并发数,以及响应时间的关系可以形象地理解为高速公路的通行状况:吞吐量是每天通过收费站的车辆数目(可以换算成收费站收取的高速费),并 发数是高速公路上的正在行驶的车辆数目,响应时间是车速。车辆很少时,车速很快,但是收到的高速费也相应较少;随着高速公路上车辆数目的增多,车速略受影 响,但是收到的高速费增加很快;随着车辆的继续增加,车速变得越来越慢,高速公路越来越堵,收费不增反降;如果车流量继续增加,超过某个极限后,任何偶然 因素都会导致高速全部瘫痪,车走不动,费当然也收不着,而高速公路成了停车场(资源耗尽)。
网站性能优化的目的,除了改善用户体验的响应时间,还要尽量提高系统吞吐量,最大限度利用服务器资源。
4.性能计数器
它是描述服务器或操作系统性能的一些数据指标。包括System Load、对象与线程数、内存使用、CPU使用、磁盘与网络I/O等指标。这些指标也是系统监控的重要参数,对这些指标设置报警阈值,当监控系统发现性能计数器超过阈值时,就向运维和开发人员报警,及时发现处理系统异常。
System Load即系统负载,指当前正在被CPU执行和等待被CPU执行的进程数目总和,是反映系统忙闲程度的重要指标。多核CPU的情况下,完美情况是所有CPU都在使用,没有进程在等待处理,所以Load的理想值是CPU的数目。当Load值低于CPU数目的时候,表示CPU有空闲,资源存在浪费;当Load值高于CPU数目的时候,表示进程在排队等待CPU调度,表示系统资源不足,影响应用程序的执行性能。在Linux系统中使用top命令查看,该值是三个浮点数,表示最近1分钟,10分钟,15分钟的运行队列平均进程数。如图4.2所示。
图4.2 在Linux命令行查看系统负载
性能测试方法
性能测试是一个总称,具体可细分为性能测试、负载测试、压力测试、稳定性测试。
性能测试
以系统设计初期规划的性能指标为预期目标,对系统不断施加压力,验证系统在资源可接受范围内,是否能达到性能预期。
负载测试
对系统不断地增加并发请求以增加系统压力,直到系统的某项或多项性能指标达到安全临界值,如某种资源已经呈饱和状态,这时继续对系统施加压力,系统的处理能力不但不能提高,反而会下降。
压力测试
超过安全负载的情况下,对系统继续施加压力,直到系统崩溃或不能再处理任何请求,以此获得系统最大压力承受能力。
稳定性测试
被测试系统在特定硬件、软件、网络环境条件下,给系统加载一定业务压力,使系统运行一段较长时间,以此检测系统是否稳定。在不同生产环境、不同时间点的请求压力是不均匀的,呈波浪特性,因此为了更好地模拟生产环境,稳定性测试也应不均匀地对系统施加压力。
性能测试是一个不断对系统增加访问压力,以获得系统性能指标、最大负载能力、最大压力承受能力的过程。所谓的增加访问压力,在系统测试环境中,就是不断增加测试程序的并发请求数,一般说来,性能测试遵循如图4.3所示的抛物线规律。
图4.3中的横坐标表示消耗的系统资源,纵坐标表示系统处理能力(吞吐量)。在开始阶段,随着并发请求数目的增加,系统使用较少的资源就达到较好的处理能力(a~b段),这一段是网站的日常运行区间,网站的绝大部分访问负载压力都集中在这一段区间,被称作性能测试,测试目标是评估系统性能是否符合需求及设计目标;随着压力的持续增加,系统处理能力增加变缓,直到达到一个最大值(c点),这是系统的最大负载点,这一段被称作负载测试。测试目标是评估当系统因为突发事件超出日常访问压力的情况下,保证系统正常运行情况下能够承受的最大访问负载压力;超过这个点后,再增加压力,系统的处理能力反而下降,而资源消耗却更多,直到资源消耗达到极限(d点),这个点可以看作是系统的崩溃点,超过这个点继续加大并发请求数目,系统不能再处理任何请求,这一段被称作压力测试,测试目标是评估可能导致系统崩溃的最大访问负载压力。
图4.3 性能测试曲线
性能测试反应的是系统在实际生产环境中使用时,随着用户并发访问数量的增加,系统的处理能力。与性能曲线相对应的是用户访问的等待时间(系统响应时间),如图4.4所示。
图4.4 并发用户访问响应时间曲线
在日常运行区间,可以获得最好的用户响应时间,随着并发用户数的增加,响应延迟越来越大,直到系统崩溃,用户失去响应。
性能测试报告
测试结果报告应能够反映上述性能测试曲线的规律,阅读者可以得到系统性能是否满足设计目标和业务要求、系统最大负载能力、系统最大压力承受能力等重要信息,表4.2是一个简单示例。
表4.2 性能测试结果报告
并 发 数 |
响应时间(ms) |
TPS |
错误率(%) |
Load |
内 存(GB) |
备 注 |
10 |
500 |
20 |
0 |
5 |
8 |
性能测试 |
20 |
800 |
30 |
0 |
10 |
10 |
性能测试 |
30 |
1000 |
40 |
2 |
15 |
14 |
性能测试 |
40 |
1200 |
45 |
20 |
30 |
16 |
负载测试 |
60 |
2000 |
30 |
40 |
50 |
16 |
压力测试 |
80 |
超时 |
0 |
100 |
不详 |
不详 |
压力测试 |
性能优化策略
如果性能测试结果不能满足设计或业务需求,那么就需要寻找系统瓶颈,分而治之,逐步优化。
1.性能分析
大型网站结构复杂,用户从浏览器发出请求直到数据库完成操作事务,中间需要经过很多环节,如果测试或者用户报告网站响应缓慢,存在性能问题,必须对请求经历的各个环节进行分析,排查可能出现性能瓶颈的地方,定位问题。
排查一个网站的性能瓶颈和排查一个程序的性能瓶颈的手法基本相同:检查请求处理的各个环节的日志,分析哪个环节响应时间不合理、超过预期;然后检查监控数据,分析影响性能的主要因素是内存、磁盘、网络、还是CPU,是代码问题还是架构设计不合理,或者系统资源确实不足。
2.性能优化
定位产生性能问题的具体原因后,就需要进行性能优化,根据网站分层架构,可分为Web前端性能优化、应用服务器性能优化、存储服务器性能优化3大类。
作者简介:
李智慧
曾在阿里巴巴担任技术专家,参与阿里巴巴基础技术平台开发和www.alibaba.com架构设计。目前就职英特尔亚太研发中心从事云计算与大数据方面的研发工作。
本文节选自《大型网站技术架构:核心原理与案例分析》一书,
李智慧 著
电子工业出版社出版。
相关推荐
4 瞬时响应:网站的高性能架构 5 万无一失:网站的高可用架构 6 永无止境:网站的伸缩性架构 7 随需应变:网站的可扩展架构 8 固若金汤:网站的安全架构 第3篇 案例 9 淘宝网的架构演化案例分析 10 维基百科...
瞬时响应:网站的高性能架构 网站的性能测试 不同的视角 用户的视角 开发人员的视角 运维人员的视角 性能测试指标 响应时间 并发数 吞吐量 性能测试方法 性能测试 负载测试 压力...
#### 四、瞬时响应:网站的高性能架构 1. **性能测试**: - 包括响应时间、并发数、吞吐量等性能指标的测试,确保系统在高并发情况下的稳定运行。 2. **Web前端性能优化**: - 例如减少HTTP请求、启用压缩、合理...
2. **非正常访问请求**:网站可能遭受攻击或恶意访问。 3. **突发流量冲击**:如“双十一”等活动期间的瞬时流量可高达20万QPS/s。 这些挑战要求系统必须具备更好的性能和更高的稳定性。 #### 四、淘宝前台系统的...
【架构设计复习】高性能设计方案是针对技术方案领域的一个重要文档,其主要目标是提供一套能够应对高并发、大数据量挑战的高性能系统设计方案。在本文档中,提到了多个关键策略和实践,旨在优化系统的响应速度、稳定...
在当今互联网快速发展的背景下,高并发、高性能成为了考验系统架构的关键指标之一。特别是在电商领域中的“秒杀”活动,短时间内会有大量用户同时访问,这对系统的稳定性和响应速度提出了极高的要求。本文将深入探讨...
网站性能测试是评估网站在高并发、大流量等极限条件下的稳定性和响应速度的重要手段。通过对网站的关键模块,如首页、注册、登录、后台订单查询和站内搜索等进行性能测试,可以有效地识别和优化系统的瓶颈,确保用户...
在IT行业中,大数据和高并发架构是两个至关重要的领域,它们是现代互联网企业处理海量数据和应对瞬时大规模用户访问的核心技术。本篇内容将基于提供的"大数据高并发架构实战案例分享-ppt资源",深入解析相关知识点,...
- **衡量标准**:高性能、一致性和高可用性,同时兼顾实际应用场景的需求平衡。 综上所述,秒杀系统架构设计不仅涉及到热点数据管理、流量控制等技术细节,还需要考虑整体架构的优化和演进策略,以确保在高并发环境...
亿级流量架构核心技术主要关注如何处理大规模用户访问,确保系统的高性能、高可用性和高可扩展性。以下是对亿级流量网站架构核心技术的详细解读: 1. **负载均衡**:在亿级流量场景下,单一服务器无法承受所有用户...
在互联网行业中,高并发是衡量系统性能的关键指标,特别是在大型互联网平台的设计中。...在实际项目中,需要根据业务特点和需求进行具体分析,灵活运用各种技术手段,实现系统的高性能和高可用性。
这份41页的PDF文档,旨在分享和解析如何通过高可用架构来应对瞬时流量激增带来的挑战。 【描述】:文档详细阐述了在面对如“双十一”、“黑五”等大型购物节,或者是互联网服务的日常高并发场景时,企业如何设计和...
2. **高并发访问**:面向大众的社区网站必须应对瞬时大量用户的访问,要求系统能够实时响应,这就需要强大的处理能力和缓存机制。 3. **需求快速更新**:为了满足用户的不断变化需求,网站需要具备快速的开发、测试...
《亿级流量网站架构核心技术——跟开涛学搭建高可用高并发系统》这本书深入探讨了在互联网行业中如何设计和构建能够处理亿级用户流量的高可用、高并发系统。作者开涛,作为业界资深专家,以其丰富的实战经验,为我们...
综上所述,银行业分布式数据库架构转型的核心在于解决传统集中式架构的局限性,通过采用分布式和微服务技术,实现系统的灵活伸缩、高并发处理、快速响应和弹性扩张。这不仅能够降低企业运维成本,还能提升业务系统的...
其中,STM32作为一款基于ARM Cortex-M内核的高性能单片机,在工业控制、消费电子等领域有着广泛的应用。而FPGA(Field-Programmable Gate Array)则以其高度灵活的硬件配置能力,在信号处理、通信系统等方面发挥着...
同时,淘宝也在探索Serverless架构,以函数计算应对瞬时流量高峰,降低运维成本。 总的来说,淘宝电商架构的发展历程是一个不断迭代、优化的过程,它从最初的PHP单体架构,逐步发展为分布式、微服务、云原生的复杂...
- **需求分析**:在大型促销活动中,电商系统面临的主要挑战包括但不限于:瞬时访问量激增、网络带宽占用过高导致用户响应缓慢、服务器负载过高乃至宕机、数据库压力过大导致服务不可用等问题。 #### 二、电商峰值...