`
smallvq123
  • 浏览: 36791 次
  • 性别: Icon_minigender_1
  • 来自: 苏州
社区版块
存档分类
最新评论

高可用系统要点

阅读更多

参考方腾飞大神所写的

《如何建设高可用系统》

整理出对应思维导图,稍微些许改动,帮助大家更好地理解。


 -----------------------------------------------------------------------   割   ---------------------------------------------------------------

“高可用性”(High Availability)通常来描述一个系统经过专门的设计,从而减少停工时间,而保持其服务的高度可用性。以下是高可用系统的设计建议:

 

设计建议

  • 减少单点 – 去单点首先要识别整个系统所有主链路的单点,如机房(同城异地双机房),应用服务器,DNS服务器,SFTP服务器,LBS,缓存服务器,数据库,消息服务器,代理服务器和专线等,如系统通过专线调用对方服务,需要考虑同时拉联通和电信的专线,联通或电信的专线还是有一定概率会出现问题的,但是同时出问题的概率会小非常多。优先使用软负载,使用硬负载兜底。
  • 减少依赖 – 减少DNS依赖,减少远程服务依赖,DNS依赖可以尝试设置本地host,用工具给所有服务器推送最新的域名映射关系,通过本地缓存或近端服务减少RPC调用。
  • 限制循环 – 避免无限死循环,导致CPU利用率百分百,可以设置for循环的最大循环次数,如最大循环1000次。
  • 控制流量 – 避免异常流量对应用服务器产生影响,可以对指定服务设置流量限制,如QPS,TPS,QPH(每小时总请求量)和QPD(每天总请求量)。
  • 精准监控 – 对CPU利用率,load,内存,带宽,系统调用量,应用错误量,PV,UV和业务量进行监控,避免内存泄露和异常代码对系统产生影响,配置监控一定要精准,如平时内存利用率是50%,监控可以配置成60%进行报警,这样可以提前感知内存泄露问题,避免应用无响应。
  • 无状态 – 服务器不能保存用户状态数据,如在集群环境下不能用static变量保存用户数据,不能长时间把用户文件存放在服务器本地。服务器有状态会难以扩容,且出现单点问题。
  • 容量规划 – 定期对容量进行评估。如大促前进行压测和容量预估,根据需要进行扩容。
  • 功能开关 – 打开和关闭某些功能,比如消息量过大,系统处理不了,把开关打开后直接丢弃消息不处理。上线新功能增加开关,如果有问题关闭新功能。
  • 设置超时 – 设置连接超时和读超时设置,不应该太大,如果是内部调用连接超时可以设置成1秒,读超时3秒,外部系统调用连接超时可以设置成3秒,读超时设置成20秒。
  • 重试策略 – 当调用外部服务异常时可以设置重试策略,每次重试时间递增,但是需要设置最大重试次数和重试开关,避免对下游系统产生影响。
  • 隔离 – 应用隔离,模块隔离,机房隔离和线程池隔离。可以按照优先级,不变和变几个维度来隔离应用和模块,如抽象和不变的代码放在一个模块,这个模块的代码几乎不会修改,可用性高,经常变的业务逻辑放在一个模块里,这样就算有问题,也只会影响到某一个业务。不同的业务使用不同的线程池,避免低优先级任务阻塞高优先级,或高优先级任务过多时影响低优先级任务永远不会执行。
  • 异步调用 – 同步调用改成异步调用,解决远程调用故障或调用超时对系统的影响。
  • 热点缓存 – 对热点数据进行缓存,降低RPC调用。如B系统提供名单服务,B系统可以提供一个client SDK提供近端缓存服务,定期去服务器端取数据,减少RPC调用。
  • 缓存容灾 – 当数据库不可用时可以使用缓存的数据。并设置分级缓存,如优先读本地缓存,其次读分布式缓存。
  • 分级缓存 – 优先读本地缓存,其次读分布式缓存。通过推模式更新本地缓存。
  • 系统分级 – 对系统进行分级,如ABC三个等级,高级别系统不依赖于低级别系统,并且高级别系统比底级别系统高可用率要高。
  • 服务降级 – 如果系统出现响应缓慢等状况,可以关闭部分功能,从而释放系统资源,保证核心服务的正常运行。需要识别哪些服务可以降级,比如突然有大量消息流入,导致服务不可用,我们会把消息直接丢弃掉。或通过设置流控,拒绝为低级别系统提供服务。
  • 流量蓄洪 – 当流量陡增时,可以将请求进行蓄洪,如把请求保存在数据库中,再按照指定的QPS进行泄洪,有效的保护下游系统,也保证了服务的可用性。当调用对方系统,对方系统响应缓慢或无响应时,可采取自动蓄洪。
  • 服务权重 – 在集群环境中,可自动识别高性能服务,拒绝调用性能低的服务。如在集群环境中,对调用超时的服务器进行权重降低,优先调用权重高的服务器。
  • 依赖简化– 减少系统之间的依赖,比如使用消息驱动,A和B系统通过消息服务器传递数据,A和B系统使用数据库进行读写分离,A系统负责往数据库中写数据,B系统负责读数据,因为数据存放在数据库中,当A不可用时,短时间内不影响B系统提供服务。
  • 弹性扩容 – 根据资源的使用率自动或手动进行扩容。如带宽不够用时,快速增加带宽。
  • 灰度和回滚 – 发布新功能只让部分服务器生效,且观察几天逐渐切流,如果出现问题只影响部分客户。出现问题快速回滚,或者直接下线灰度的机器。
  • 减少远程调用 – 优先调用本地JVM内服务,其次是同机房服务,然后是同城服务,最后是跨城服务。如A调用B,B调用互联网的C系统获取数据,B系统可以把数据缓存起来,并设置数据的保鲜度,减少B对C的依赖。配置中心把注册服务的地址推送到调用服务的系统本地。参数中心把参数配置信息推送到系统的本地内存,而不是让系统去远程服务器获取参数信息。
  • 熔断机制 – 增加熔断机制,当监控出线上数据出现大幅跌涨时,及时中断,避免对业务产生更大影响。如我们做指标计算时,指标可以计算慢,但是不能算错,如果发现某个用户的指标环比或同比增长一倍或跌零,会考虑保存所有消息,并中止该用户的指标计算。
  • 运行时加载模块 – 我们会把经常变的业务代码变成一个个业务模块,使用Java的ClassLoader在运行时动态加载和卸载模块,当某个模块有问题时候,可以快速修复。
  • 代码扫描 – 使用IDEA代码分析等工具进行代码扫描,识别出程序中的BUG,如空指针异常,循环依赖等。
  • 自动备份 – 程序,系统配置和数据定期进行备份。可使用linux命令和shell脚本定时执行备份策略,自动进行本地或异地。出现问题时能快速重新部署。
  • 线上压测 – 系统的对外服务需要进行压测,知道该服务能承受的QPS和TPS,从而做出相对准确的限流。

参考资料

 

  • 分布式系统稳定性模式
  • 大小: 286 KB
分享到:
评论

相关推荐

    基于Linux的高可用集群系统的设计与实现毕业论文.docx

    六、高可用集群系统的设计要点 * 高可用集群系统的设计需要考虑到服务器的高可用性、可扩展性和可维护性等方面的要求。 * 高可用集群系统的设计需要考虑到系统的可靠性、实时性和可维护性等方面的要求。 本文讨论...

    美河制作.六个月成为网络专家.可用性管理.存储系统高可用性

    高可用性存储系统设计有以下几个要点: 1. **RAID(Redundant Array of Independent Disks)**:通过磁盘冗余实现数据保护,常见的RAID级别有RAID 0、RAID 1、RAID 5、RAID 6等。 2. **双活/多活数据中心**:在...

    大连理工大学高级操作系统的考试要点(1).pdf

    在深入探讨大连理工大学高级操作系统考试要点之前,首先需要了解高级操作系统课程的核心概念与范畴。高级操作系统课程通常是在普通操作系统课程的基础之上,进一步探讨操作系统的设计、实现以及相关高级特性的课程。...

    基于分布式高可用集群的网购系统优化.docx

    "基于分布式高可用集群的网购系统优化" 本文主要讨论了基于分布式高可用集群的网购系统优化,旨在解决传统单机部署式网购系统无法承受高并发量的问题。通过对分布式计算技术、Nginx 负载均衡策略、Redis 缓存技术的...

    MongoDB 高可用 安装部署

    对于副本集和分片集群,部署工作则更加复杂,需要精心设计网络和节点配置,以保证系统的高可用性和扩展性。 最后,关于MongoDB的安装和部署,需要明确几个要点: 1. MongoDB支持在多种操作系统上安装和运行,包括...

    【27】基于MyCat的MySQL高可用读写分离集群实战课程下载【No215】基于MyCat的MySQL高可用读写分离集群实战课程下载 .txt

    通过对基于MyCat的MySQL高可用读写分离集群进行深入探讨,我们不仅了解了其基本原理和技术要点,还掌握了一套完整的部署实施流程。在实际应用过程中,还需要根据具体的业务场景和技术需求,灵活调整配置策略,以达到...

    Elasticsearch+Kibana+HA高可用部署

    本文详细介绍了如何进行Elasticsearch+Kibana+HA高可用部署的操作步骤和技术要点。通过对全文检索技术、HA部署原理以及具体部署实践的学习,读者可以更好地理解和掌握这套系统的搭建与维护。此外,通过Python语言...

    高可用性解决方案荟萃 使用SQL Server 2005提高系统、数据库和数据的可用性.pdf

    下面详细阐述了文中提及的高可用性技术与数据处理要点。 首先,SQL Server 2005中引入了四项高可用性技术:故障转移群集、数据库镜像、日志传送和复制。故障转移群集是技术上的一种领先解决方案,其本质在于提供一...

    BizTalk Server高可用性部署实施方案

    为了确保业务系统的稳定运行,提高BizTalk Server系统的可用性,本方案旨在通过微软的MSCS(Microsoft Cluster Service)和NLB(Network Load Balancing)技术实现BizTalk Server的高可用性部署。 #### 二、方案...

    基于ARM的嵌入式系统程序开发要点_一_嵌入式程序开发基本概念

    嵌入式系统的初始化过程是指系统启动后执行的一系列操作,以确保硬件处于可用状态,并为后续的应用程序运行做好准备。这个过程通常包括但不限于: - **复位**:系统启动时,首先会复位所有硬件组件。 - **时钟配置*...

    oracle系统管理和开发技术要点

    ### Oracle系统管理和开发技术要点详解 #### 一、Oracle数据库安装与配置 ##### 1.1 修改重要参数 - **背景介绍**:在Oracle数据库安装过程中,为了优化性能及兼容性,经常需要调整某些关键参数。例如,在设置`db...

    利用xenon实现MySQL的高可用切换

    对于希望为自己的MySQL数据库部署高可用解决方案的管理员来说,本文提供了一系列步骤和知识要点,有助于更好地理解和实现高可用MySQL集群的构建。通过这些详细的步骤,管理员可以配置和运行一个能够监控MySQL数据库...

    构建SQL SERVER 2005高可用数据库.pdf

    以下是一些关于构建高可用数据库的要点和知识点: 1. 高可用性的定义:高可用性(High Availability,简称HA)指的是数据库系统能够保持其服务持续可用的能力。在数据库领域,这通常涉及到故障转移、备份与恢复等...

    基于电商业务中台最佳实践:交易中台技术要点设计之高性能

    接着继续讲,接下来主要介绍交易总体设计的技术要点设计,对于电商中台来说,交易系统是核心中的核心,一开始就需要围绕高性能,高可用,和高扩展三个方面来重点设计。本篇主要介绍高性能设计。 对于高性能的定义,...

    消防广播与背景音乐系统集成设计要点可用.pdf

    本文主要介绍了这类系统的设计要点、功能需求以及基本工作原理。 首先,系统的构成包括节目源设备、放大和处理设备、传输线路以及场声器(扬声器)。在设计时,要考虑不同区域的扬声器配置。例如,公共区域如走廊、...

    K8SR6 高可用高可用最佳部署实践

    - 在系统启动时自动加载数据库服务,确保服务的高可用性。 - 可以通过编写systemd服务文件等方式实现。 通过细致的数据库配置,可以进一步提升数据库的性能和安全性。 ##### 1.3 监控指标 为了确保KingbaseES的...

    HIVE HA高可用性及详细使用

    ### HIVE HA高可用性及详细使用 #### HIVE简介 Hive是一种基于Hadoop的...同时,还简要讨论了Hive HA高可用性的基本原理和实现要点。通过这些步骤,可以构建一个稳定可靠的Hive环境,以便高效地进行数据分析和处理。

    藏经阁-解密跨地域大规模分布式文件系统.pdf

    1. 高可用性:系统设计要点之一是高可用性,通过Multiple AZ、Local AZ、Specify AZ等机房级流量控制机制,确保系统的高可用性。同时,系统还采用了数据智能路由和自动化运维管控机制,以确保系统的可靠性。 2. 配置...

Global site tag (gtag.js) - Google Analytics