`
backend-develop
  • 浏览: 24867 次
社区版块
存档分类
最新评论

每分钟访问10万+,11种策略教你保持亿级流量网站稳定性!

阅读更多

稳定性在大型网站运行中至关重要,面对每分钟 10 万次的网络访问,稍有不慎就会引起重大故障。今天这篇文章一起讨论下亿级流量网站在稳定性方面的一些做法,希望对您有帮助。本文已发布在公众号和网站。

 

基础策略

 

配置化

配置化就是把很多业务流程相关的数据统一放在一个配置平台上,从代码中抽离出来,使得代码仅处理通用的业务逻辑。配置化之后,代码拥有处理所有场景的能力,通过配置数据来决定线上运行时具体操作什么样的数据。

 

 

配置化的设计使得我们能够对线上进行快速更改,做到实时的增加、变更和删除,对于快速处理问题有很好的效果。

 

业务开关

业务开关就是针对具体一个流程的开关,通过开关的打开和关闭可以实时控制处理逻辑。开关可以有多种类型,常用的有以下几种。

Boolean 类型:是否使能某个流程,如开启和关闭某个校验;

Number 类型:业务对应的数字配置;

String 类型:业务对应的文本配置;

Collection 类型:业务对应的集合开关,如指定特定类型的业务启动或关闭流程;

Map 类型:业务对应的映射开关,如指定特定类型的业务进行特定类型的处理。

 

 

部署策略

面对每分钟达 10 万次的访问流量,系统的部署是个很大的挑战。我们采用按机房、按机器分组进行分批次的部署策略,也就是在部署过程中,新版本与老版本共存,同时提供服务,整个的部署过程是一个逐步替换的过程。

 

 

灰度部署逐步提高新版本在服务中的比例,分流线上用户进行灰度测试。如果发现机器日志有异常或有用户反馈服务问题,可以第一时间进行新版本回滚,避免产生更大范围的影响。

 

错误处理

在软件架构中要对错误处理有一套统一的流程和规范,对错误码进行分类处理,做到根据统计到的错误码能够快速判断错误类型。要做到这一点,错误码需要约定好统一的格式,比如 CHK 开头表示校验失败、THD 开头表示第三方服务错误、SYS 表示当前系统错误,REQUIRED 结尾表示必填项未填、INVALID 结尾表示数据错误、EXCEPTION 结尾则表示出现异常。

 

日志收集

程序运行一定会产生日志,日志是排查线上问题的第一手原始资料。准确完整地记录下有意义的日志,才能进行有效的分析。比如基于日志,我们可以统计服务调用量并分析成功率,可以明确地看到错误信息,包括哪些用户出错、出错的原因是什么,并可以建立线上问题报警机制。

 

日志需要按照统一的格式打印,存储在一个统一的日志分析服务中,做到实时记录、实时搜索。

 

线上监控策略

 

链路跟踪

分布式系统的一个难题,就是如何跟踪处理链路。通常情况下,我们会在链路的起点为每一个请求生成一个唯一识别码,比如 UUID,并在以后的每一个处理节点都记录下识别码并传播给下一个处理节点。

 

基于这样的唯一识别码,我们可以从海量日志中完整地还原出一个请求在链路上的处理过程,以及输入输出数据,进行全链路分析。

 

异常监控

对 Java 抛出的异常进行处理,打印到日志中,可以建立起异常监控。在异常监控中,我们重点关注异常发生的次数、栈信息、变化趋势。

 

通过异常监控,可以快速定位线上问题,直接根据栈信息找到异常发生的地点。如果是第三方服务的异常,比如分布式调用超时,也能够快速分析并定位。

 

机器监控

机器监控则是重点关注机器的 CPU、内存、网络使用情况,JVM 的线程数量、内存使用、Full GC 次数等。流量洪峰到来时,服务器承压,很可能出现 CPU、内存不足等情况,也可能导致 JVM 内存不足进行 Full GC,进而引起服务崩溃。服务器运行状况如此重要,不能不重视。

 

面对流量洪峰的策略

 

服务降级

服务降级是指在特定情况下,比如双十一、双十二期间,当流量超过系统服务能力时,跳过特定的处理流程。比如在一个卖家下单后,我们可能需要进行风险评估、数据校验等一系列流程,当发生服务降级时,就跳过了数据校验逻辑,来保证服务的稳定性。

 

 

服务降级是面对流量洪峰保证用户体验和预防系统崩溃的有效手段。比如图片内容的校验通常都是比较耗时的操作,面对流量洪峰取消这样的校验可以避免用户的长时间等待、降低对下游链路的冲击,确保服务稳定。

 

服务限流

服务限流是指,根据服务的处理能力提前预估出一个阈值,当流量大于该阈值时直接放弃处理直接返回错误。服务限流是应对流量峰值时,系统进行自我保护的重要措施。比如双十一零点下单峰值、余额宝九点抢购峰值、活动结束商品编辑峰值,都需要进行相应的限流来保护系统。

 

 

在分布式部署中,基于 dubbo、Spring cloud 或 HSF 的数据统计功能,很容易推算出系统平时的流量压力。借助于全链路压测,可以很容易看到系统在流量峰值下的具体表现。因此,服务限流的实施并不困难。

 

故障容灾

单机系统的容灾能力几乎为零,一旦服务崩溃就马上变成不可用。分布式系统通过服务多活,可以不间断提供服务;借助于 nginx、Apache 进行负载均衡可以进一步提高可用性。

 

实际上,即便进行了负载均衡和服务分布式部署,系统仍然面临容灾问题。现在的大型服务,比如淘宝、天猫、微信、京东都进行了异地多活的部署。异地多活部署的主要目的,在于通过多机房提供服务,来降低单机房故障带来的影响,提高容灾能力。

 

 

总结

这篇文章大概整理了一个亿级流量网站在稳定性方面需要注意和做好的点,关于稳定性还有很多问题值得探讨和深思。您有什么观点和看法呢?欢迎留言交流。

 

本文为原创文章,首发于 程序之心 公众号和网站,转载请注明作者及原文链接。

分享到:
评论

相关推荐

    《运算放大器稳定性分析》 作者: Tim Green

    《运算放大器稳定性分析》是资深工程师Tim Green的著作,他专注于模拟与混合信号电路板/系统设计,具有24年的经验。这本书分为15个部分,专门针对电子工程师提升运算放大器(运放)电路设计能力和进行稳定性分析。...

    GS+操作简介/教程(中文)PDF格式

    GS+是一款功能强大的工具,主要用于处理各种数据和执行高级计算任务。这个教程是为初学者设计的,旨在帮助用户快速掌握...无论你是科研工作者还是工程技术人员,都可以利用这个教程快速上手GS+,开启你的高效计算之旅。

    C#快速导出Excel文件(3秒可导10万行数据)

    C#快速导出Excel文件,3秒可导10万行数据

    c# 网络流量监测源码

    在IT领域,网络流量监测是一项重要的任务,它可以帮助开发者、系统管理员和网络安全专家了解网络活动,检测潜在的问题,如带宽滥用、攻击或性能瓶颈。本文将深入探讨使用C#进行网络流量监控的相关知识点。 首先,C#...

    驱动级进程管理器(内核级进程无敌咔嚓工具!)

    驱动级进程管理器,顾名思义,是一种专门针对操作系统内核层的进程进行管理和控制的工具。在计算机科学中,驱动程序是操作系统与硬件设备之间的桥梁,它们运行在内核模式下,拥有比普通用户应用程序更高的权限。而...

    OMnet++教程中文版

    11. **案例研究**:教程可能包含一些实际的网络仿真案例,如简单的局域网模型、无线通信网络模型,以帮助读者更好地理解OMnet++的使用。 12. **进阶主题**:可能还包括更高级的主题,如并行仿真、动态网络调整、...

    多用户远程访问Access数据库--通讯录示例(VB+ASP+ACCE)

    在IT领域,数据库管理和远程访问是关键组成部分,尤其是在企业级应用中。本示例"多用户远程访问Access数据库--通讯录示例(VB+ASP+ACCE)"展示了一个多用户可以同时操作的远程数据库系统,这突破了Access数据库通常只...

    IE11离线升级包+所需补丁 win7 32位

    标题中的“IE11离线升级包+所需补丁 win7 32位”指的是针对32位Windows 7操作系统的Internet Explorer 11 (IE11)的离线升级解决方案。这个包包含了升级到IE11所需的所有关键组件,包括离线安装程序和一系列必要的...

    Suse11 Enterprise SP3 安装Oracle 12c RAC 图文详细教程

    Oracle RAC 是一种高可用性解决方案,它允许多个数据库实例同时访问同一个物理数据库,从而提供近乎零停机时间的数据服务。以下将详细介绍各个步骤和关键知识点。 **1. 系统准备** 首先,确保你的SLES 11 SP3系统...

    Python+Mysql教务管理系统

    系统分为系统管理员、教职工和学生三级,每级用户拥有不同的权限。这涉及到权限控制的设计,通常可以采用角色基础访问控制(RBAC)模型,将用户分配到不同角色,每个角色对应特定的权限集。 4. **注册与登录功能**...

    JSP版流量统计系统

    【JSP版流量统计系统】是一个基于Java Server Pages(JSP)技术开发的系统,用于收集、处理和展示网站的访问流量数据。JSP是一种在服务器端运行的动态网页技术,它结合了HTML、CSS、JavaScript等前端技术,并且利用...

    win11安装ie11浏览器

    在Windows 11操作系统中,由于Microsoft Edge成为了默认的浏览器,并且微软官方已经停止了对Internet Explorer 11(简称IE11)的更新和支持,许多用户可能在使用某些特定的网页或企业应用时遇到问题,因为这些应用...

    Python教程2020版 完全入门 达到Python工程师水平 笔记+代码+课件+资料

    10. **单元测试**:了解如何编写和执行单元测试,以确保代码的质量和稳定性,使用unittest或pytest库进行测试。 11. **项目实战**:通过实际的项目案例,例如Web开发(使用Flask或Django框架)、数据分析、自动化...

    MyEclipse10使用教程 .doc

    MyEclipse 10 使用教程 MyEclipse 10 是一个功能强大且流行的集成开发环境(IDE),它支持多种技术栈,包括 Struts2.x、Hibernate4.x 和 Spring3.x。在本教程中,我们将学习 MyEclipse 10 的基本使用和高级特性。 ...

    NiuTrans中英平行语料库10万句

    《NiuTrans中英平行语料库10万句:机器翻译训练的宝贵资源》 在人工智能领域,尤其是在自然语言处理(NLP)分支中,机器翻译(Machine Translation, MT)是一个重要的研究方向。它旨在利用计算机程序自动将一种语言...

    J-LINK V10 V11固件.rar

    - 修复已知错误和漏洞,提高设备稳定性。 - 提升J-Link的通信速度和响应时间,提升调试效率。 - 添加对新处理器和SoC的支持,扩展其兼容性。 - 增加新的调试特性,如增强的内存访问、断点管理等。 2. **J-Link ...

    Oracle9i+10g+11g+jdbc驱动包下载

    用例: driver = "oracle.jdbc.driver.OracleDriver"; url = "jdbc\:oracle\:thin\:@192.168.1.202\:1521\:cxhis";

    java实现csv导出千万级数据实例

    本实例聚焦于“java实现csv导出千万级数据实例”,旨在提供一个高效、稳定的解决方案,避免因数据量过大而导致的性能问题,如Java中的栈溢出(Stack Overflow)。CSV(Comma Separated Values)格式因其简单、通用性...

    圈圈教你玩USB

    USB(通用串行总线)技术是计算机领域中用于连接外部设备的一种标准接口技术。在个人计算机上,USB技术由于其便于使用、数据传输速度快、扩展性好以及支持热插拔等特点而变得尤为重要。如今,USB接口已经成为计算机...

Global site tag (gtag.js) - Google Analytics