`
天梯梦
  • 浏览: 13742200 次
  • 性别: Icon_minigender_2
  • 来自: 洛杉矶
社区版块
存档分类
最新评论

大型网站的灵魂——性能

 
阅读更多

 

前言

 

在前一篇随笔《大型网站系统架构的演化》中, 介绍了大型网站的演化过程,期间穿插了一些技术和手段,我们可以从中看出一个大型网站的轮廓,但想要掌握设计开发维护大型网站的技术,需要我们一步一步去 研究实践。所以我打算写一个系列,从理论到实践讲述大型网站的点滴,这也是一个共同学习的过程,希望自己能坚持下去。系列大概会分为两部分,理论和实践, 理论部分尽量通俗易懂,也要讲一些细节。实践部分会抽取一些技术做实践,将方法、解决问题过程分享出来。

 

本文将讲述大型网站中一个重要的要素,性能。

 

什么是性能

 

有人说性能就是访问速度快慢,这是最直观的说法,也是用户的真实体验。一个用户从输入网址到按下回车键,看到网页的快慢,这就是性能。对于我们来说,需要去挖掘这个过程,因为这决定我们怎么去做性能优化。

 

这中间发生了什么?

 

 

用户访问网站的整个流程:用户输入网站域名,通过DNS解析,找到目标服务器IP,请求数据经互联网达到目标服务器,目标服务器收到请求数据,进行 处理(执行程序、访问数据库、文件服务器等)。处理完成,将响应数据又经互联网返回给用户浏览器,浏览器得到结果进行计算渲染显示给用户。

 

我们把整个过程,分为三段路径:

 

1、第一段在用户和浏览器端,主要负责发出用户请求,以及接受响应数据进行计算渲染显示给用户;

2、第二段在网络上,负责对请求数据、响应数据的传输;

3、第三段在网站服务器端,负责对请求数据进行处理(执行程序、访问数据库、文件等),并将结果返回;

 

第一路径

 

第一路径花费的时间包括输入域名发起请求的时间和浏览器收到响应后计算渲染的时间。

 

输入域名发起请求,实质过程是:

1、用户在浏览器输入要访问的网站域名;

2、本地DNS请求网站授权的DNS服务器对域名进行解析,并得到解析结果即IP地址(并将IP地址缓存起来)。

3、向目标IP地址发出请求。

 

从这个过程我们可以看到,优化的地方主要是减少DNS解析次数,而如果用户浏览器设置了缓存,则再第二次访问相同域名的时候就不会去请求DNS服务 器,直接用缓存中的IP地址发出请求。因此这个过程主要取决于浏览器的设置。现在主流的浏览器默认设置了DNS的预取功能(DNS Prefetch),当然你也可以主动告知浏览器我的网站需要做DNS预取:

 

<meta http-equiv=”x-dns-prefetch-control” content=”on” />

浏览器将数据进行计算渲染的过程:

1、浏览器解析响应数据;

2、浏览器创建DOM树;

3、浏览器下载CSS样式,并应用到DOM树,进行渲染;

4、浏览器下载JS文件,开始解析执行;

5、显示给用户。

 

从这个过程,我们可以找出不少可以优化的地方。首先我们可以尽量控制页面大小,使得浏览器解析的时间更短;并且将多个CSS文件、JS文件文件合并 压缩减少文件下载的次数和大小;另外注意将CSS放在页面前面,JS访问页面后面,这样便于页面首先能渲染出来,再执行js脚本,对于用户来说有更好的体 验。最后我还可以设置浏览器缓存,下次访问时从缓存读取内容,减少http请求。

 

<meta http-equiv=”Cache-Control” content=”max-age=5″ />

该代码说明了浏览器启用了缓存并在5秒内不会再次访问服务器。注意缓存的设置需要结合你的业务特性来适当配置。

 

以下是京东商城的HTML简图:

css样式放在html前面,并且进行了合并。

 

 

大多数的JS文件放在页尾。

 

 

第二路径

 

第二路径在网络上,花费的时间同样包括请求数据的传输时间和响应数据的传输时间,这个两个时间取决于数据传输的速度,这里我们要讲一个名词“带 宽”。什么是带宽,我们经常说带宽10M,20M是什么意思?我的带宽20M,这意味着什么?我们知道带宽速度分为上行、下行速度,也就是上传和下载的速 度。带宽20M对于用户来说则是下载速度20M(20×1024×1024比特率),换算成字节20M/8=2.5M。也就是说20M的带宽下载速度理论 可达2.5M/s,而对于家庭用户而言上传速度一般比下载速度小的多,大约是不到十分之一。而对于网站服务器(企业用户)来说,则不然,一般上行速度等于 下载速度。这也是运营商根据实际需求分配的,毕竟用户的主要需求是下载数据,而不是上传数据。

 

整个流程从传输方式看就是:用户发送请求数据(上传),网站服务器接受请求数据(下载),网站服务器返回响应数据(上传),用户接受响应数据(下 载)。对于用户来说,上传数据是很小的(Url参数),而下载数据是较大的(响应数据);对于服务器来说,下载数据是很小的(url参数),上传数据是较 大(响应数据)。理解了这个,我们可以解释为什么有时用户反映为什么自己的带宽足够,但打开某些网站仍然很慢,就是因为尽管用户的下载速度很快,但网站服 务器的上传速度很慢,这就像一个抽水管和一个出水管,不管抽水管再大,但出水管很小,同样抽到的水量是有限的。了解了这个原理我们来看怎么提高数据传输的 速度,首先用户的上传、下载速度我们是无法决定的,我们能决定的是网站服务器的上传、下载速度,所以我们可以做的是适当的增加服务器带宽(带宽是很贵的, 盲目的增加只会增加不必要成本)。购买合适的带宽需要根据网站业务特性、规模以及结合运维人员的经验来选择。通常可以考虑的算法,即根据一次响应数据的大 小,乘以PV数,除以对应的高峰时间段,从而大致估算出网站带宽的需求。

 

下面我们继续进一步研究第二路径:

 

 

上图表示用户访问网站服务器时网络的大致情况,从图上可以看出假设网站服务器从电信网络接入,而用户A作为电信的宽带用户,则可以通过电信骨干网快速的访问到网站服务器。用户B,用户C作为移动和联通用户需要通过运营商的互联互通经过较长路径才能访问到服务器。

 

针对这种情况,我们可以采取以下方法来优化:

 

1、在各运营商发达的地区的IDC(互联网数据中心,可以理解成机房)部署网站服务器,各运营商的用户即可通过各自的骨干网访问服务器。

2、购买代理服务,也就是原来联通用户需要通过联通骨干网——>联通互联互通路由器——>电信骨干网——>网站服务器的过程。通过代理服务,代理服务器直连到电信骨干网,访问网站服务器。

3、在主要地区城市购买CDN服务,缓存对应的数据,用户可先从最近的CDN运营商获取请求数据。

 

第三路径

 

第三路径主要是网站服务器内部处理的过程,当中包括执行程序、访问文件、数据库等资源。

 

这是对于我们来说最可以发挥的地方:

1、使用缓存,根据需要使用本地缓存或分布式缓存;

2、使用异步操作,这种方式不仅可以提高性能,也提高了系统的扩展性;

3、代码优化;

4、存储优化;

 

缓存

 

如果缓存数据较少,可以利用OSCache实现本地缓存:

 

当缓存数据过多时,利用Memcached实现分布式缓存:

 

 

Memcached实现分布式缓存,缓存服务器之间是互不通信的,也就是我们可以方便的通过增加Memcached服务器对系统进行扩展。

 

异步操作

 

 

使用同步请求的方式,在高并发的情况下,会对数据库造成很大的压力,也会让用户感觉响应时间过长。异步请求方式,则可以快速的对用户做出响应,而具 体的数据库操作请求,则通过消息队列服务器发送给数据库服务器,做具体的插入操作。插入操作的结果则已其他方式通知客户端。例如一般在订票系统当中,出票 行为就是异步完成,最终的出票结果会以邮件或其他方式告知用户。

 

代码优化

 

这里就不在详细描述,另一篇随笔《怎样编写高质量的java代码》对代码质量和风格做过大致的介绍,有兴趣可以看一下。

 

存储优化

 

大型网站中海量的数据读写对磁盘造成很大压力,系统最大的瓶颈还是在磁盘的读写。可以考虑使用磁盘阵列、分布式储存来改善存储的性能。

 

性能的指标和测试

 

上面通过解析用户访问网站的过程来思考怎么提高用户感知的性能,对于用户来言性能就是快和慢。但对于我们来说,不能这样简单描述,我们需要去量化他,用一些数据指标去衡量它。这里讲到几个名词:响应时间、并发量、吞吐量。

 

响应时间:就是用户发出请求到收到响应数据的时间;

并发量:就是系统同时能处理多少用户请求;

吞吐量:就是单位时间内系统处理的请求数量;

 

为了通俗的了解这三个概念,我们以高速公路的收费站为例子:响应时间是指一辆车经过收费站的时间,也就是车辆从进入收费站、付钱、开闸、离开收费站 的时间;并发量是指这个收费站同时能通行多少辆车,可以理解为收费站的出口数量。吞吐量是指:在一段时间内,这个收费站通往了多少了车。

 

这个例子不晓得恰不恰当。

 

对于性能测试来说,基本也是围绕这些方面来测试,下图说明了性能测试的过程:

 

 

左图表示响应时间和并发用户量的二维坐标图,从图上可以看出,并发用户量在一定量增加时,响应时间很短,并且没有太大的起伏,这表示系统目前处于日 常运行期,可以很快处理用户请求(A点之前);随着并发量的增加,系统处于请求高峰期,但仍然可以有序的处理用户请求,响应时间较日常有所增加(A、B之 间);当并发量增加到一定数量时,超过了系统的负载能力,系统处于濒临崩溃的边缘(B、C之间),响应时间严重过长,直到系统崩溃。

 

右图表示吞吐量与并发用户量的二维坐标图,可以看出,随着并发用户量的增加,吞吐量逐渐增加;在并发量到达一定量时,由于系统处理能力达到最大,吞吐量增加放缓;当并发量超过系统负载时(E点),系统处理能力开始下降,不能再请求增加的用户请求,吞吐量反而降低。

 

小结

 

本文通过用户访问网站的过程,分析了三个路径过程中提高性能的想法和手段,最后介绍了描述性能的指标,并对性能测试做了简要说明。

 

参考资料:

 

《海量运维运营规划》

《大型网站技术架构》

《构建高性能web站点》

 

原文出处: 李平的博客  

分享到:
评论

相关推荐

    《计算机应用技术基础》第一章.pptx

    学习目标 通过本章的学习,了解计算机的主要硬件配置和组装技术,知道如何选购合适的计算机。... 主板的灵魂——芯片组,其性能决定主板优劣。分为Intel和AMD两个平台,选购时须与CPU平台相同。 选购考虑因素:

    程序设计——24学时学习教程.rar

    8. **软件调试与优化**:学习如何优化代码性能,减少内存占用,提升程序运行速度,以及如何使用性能分析工具进行代码调试。 9. **编程规范与文档**:理解编写清晰、规范的代码的重要性,学习注释的编写和代码风格...

    Oracle优化日记-一个金牌dba的故事

    SQL是数据库的灵魂,高效的SQL可以显著提升系统性能。作者详细阐述了如何通过分析执行计划、使用 Explain Plan 工具、调整SQL语句、应用绑定变量等方式来优化查询。同时,他强调了索引的合理设计和使用,以及如何...

    算力革命:泛在、绿色与生态.pdf

    泛在算力是指“云—边—端”的共存,算力需求百倍增长下,处理器单核性能与多核提升边际递减存在,大型数据中心的算力提升有限。边与端的设备将迎来从“功能机”向“智能机”的升级。 绿色算力是指通过芯片和算法...

    MongoDB_two_MongoDB_

    在学习MongoDB的过程中,理解其设计理念——为大数据和实时应用提供灵活且高性能的解决方案,是非常重要的。MongoDB的易用性和丰富的功能使其成为现代Web应用程序、物联网(IoT)项目、实时分析和大数据处理的首选...

    计算机基础知识笔记(个人整理).docx

    大型机在初期是计算机的典型代表,性能强大但价格昂贵;小型机则是在大型机的基础上体积和成本都大幅减少的产物;微型机的出现则标志着个人计算机时代的开启,它让计算机走进了普通家庭;客户机/服务器模式的发展,...

    门幅式定型机V15.1程序备份.rar

    而其背后的灵魂——"门幅式定型机V15.1程序备份.rar"压缩包文件,则是确保该设备能够持续稳定运转的关键所在。 压缩包内所存储的程序备份,基于西门子S7-300系列PLC系统,这一系统在工业自动化控制领域内享有盛誉。...

    StarvalCity-Server:StarvalCity的心脏和灵魂

    《星际城市服务器——Java编程构建的心脏与灵魂》 在当今的数字时代,服务器作为互联网应用的核心组成部分,扮演着至关重要的角色。而“StarvalCity-Server”则是一款基于Java技术构建的高效、稳定的服务器软件,它...

    钢结构施工组织设计-报业集团施工组织设计方案

    在这个特定的案例——"钢结构施工组织设计-报业集团施工组织设计方案"中,我们可以深入探讨以下几个关键知识点: 1. **钢结构的特点与应用**:钢结构因其高强度、重量轻、施工速度快、抗震性能好等特点,在建筑行业...

    config.sys

    总结来说,CONFIG.SYS是DOS时代的灵魂配置文件,它负责初始化系统环境,优化硬件性能,对于那个时代的计算机用户而言,理解和掌握它的使用至关重要。随着技术的进步,虽然它的角色有所淡化,但在特定场景下,CONFIG....

    数据结构大纲 (2).docx

    随着信息技术的快速发展,数据结构的重要性日益凸显,无论是处理海量数据的大型数据库,还是开发高效运行的网络应用,都离不开对数据结构的深入理解和恰当运用。 在数据结构的研究中,逻辑结构是指数据元素之间的...

    便携式信息终端.zip

    《便携式信息终端——移动计算的未来》 在当今数字化时代,便携式信息终端,如智能手机、平板电脑和二合一本等设备,已经深入到我们生活的各个角落,成为工作、学习和娱乐的重要工具。这些设备以其轻便、易携带、...

    Quake2Source_04.12.2002

    《Quake2Source_04.12.2002——揭示游戏编程的源代码奥秘》 在IT行业中,源代码是程序员的灵魂,它揭示了软件内部的工作机制。当我们谈论"Quake2Source_04.12.2002"时,我们实际上在探讨的是著名的第一人称射击游戏...

    [详细完整版]路由器技术.doc

    交换通常发生在OSI模型的第二层——数据链路层,而路由则是在第三层——网络层。这一区别导致了二者在控制信息的使用上、功能实现方式上的差异。 路由技术的诞生可追溯到40年前,但直到80年代才开始进入商业化应用...

    钢结构工程设计CAD图纸_福建某公司细木工板车间钢结构CAD.zip

    钢结构工程在建筑行业中占据着重要的地位,特别是在工业厂房和大型公共设施建设中,因其高效、经济、灵活等特性而被广泛采用。本资料包"钢结构工程设计CAD图纸_福建某公司细木工板车间钢结构CAD.zip"是针对福建某...

    老虎触摸珍珠控台----详细简介.docx

    无论是大型演唱会、剧场演出还是电视直播,都能展现出卓越的性能。 总的来说,老虎触摸珍珠控台结合了创新的触控技术、强大的操作系统和丰富的功能,为专业灯光设计领域树立了新的标准。无论是初学者还是经验丰富的...

    C语言程序设计大全【入门到精通】.zip

    随着对基础知识的掌握,你将逐步探索更复杂的主题,如指针——C语言的灵魂所在。指针允许直接操作内存,理解并熟练运用指针是提升编程技能的关键。资料会详细介绍指针的声明、使用以及动态内存管理,包括malloc和...

    实验六实验六实验六实验六

    【实验六】——前端开发实践 在这个实验六中,我们将深入探讨前端开发的重要知识点,主要集中在构建用户交互界面、网页布局、数据动态加载以及响应式设计等方面。前端开发是现代互联网应用的核心部分,它决定了用户...

Global site tag (gtag.js) - Google Analytics