来自: https://yq.aliyun.com/articles/7443
微服务近年来很火很热,相关的文章汗牛充栋,关于架构设计本文就不作叙述了,只谈谈在分布式服务的容错方面怎么做。
1 什么是微服务
对于微服务,我们可以简单的理解成对一个服务解耦,以降低业务系统的复杂性,将服务系统中的功能进行拆分成多个轻量的子服务,各个自服务间通过RPC实现服务间的关联,这样做的好处是将业务简单化,每个子服务可以有自己独立的编程语言,模式等且能够独立维护,独立部署,功能复用。
2 为什么需要做服务隔离与熔断
由于微服务间通过RPC来进行数据交换,所以我们可以做一个假设:在IO型服务中,假设服务A依赖服务B和服务C,而B服务和C服务有可能继续依赖其他的服务, 继续下去会使得调用链路过长,技术上称1->N扇出。如果在A的链路上某个或几个被调用的子服务不可用或延迟较高,则会导致调用A服务的请求被堵住,堵住的请求会消耗占用掉系统的线程、io等资源,当该类请求越来越多,占用的计算机资源越来越多的时候,会导致系统瓶颈出现,造成其他的请求同样不可用,最终导致业务系统崩溃,又称:雪崩效应。
1->N扇形
雪崩效应
3 服务雪崩的原因
(1)某几个机器故障:例如机器的硬驱动引起的错误,或者一些特定的机器上出现一些的bug(如,内存中断或者死锁)。
(2)服务器负载发生变化:某些时候服务会因为用户行为造成请求无法及时处理从而导致雪崩,例如阿里的双十一活动,若没有提前增加机器预估流量则会造服务器压力会骤然增大二挂掉。
(3)人为因素:比如代码中的路径在某个时候出现bug
4 解决或缓解服务雪崩的方案
一般情况对于服务依赖的保护主要有3中解决方案:
(1)熔断模式:这种模式主要是参考电路熔断,如果一条线路电压过高,保险丝会熔断,防止火灾。放到我们的系统中,如果某个目标服务调用慢或者有大量超时,此时,熔断该服务的调用,对于后续调用请求,不在继续调用目标服务,直接返回,快速释放资源。如果目标服务情况好转则恢复调用。
(2)隔离模式:这种模式就像对系统请求按类型划分成一个个小岛的一样,当某个小岛被火少光了,不会影响到其他的小岛。例如可以对不同类型的请求使用线程池来资源隔离,每种类型的请求互不影响,如果一种类型的请求线程资源耗尽,则对后续的该类型请求直接返回,不再调用后续资源。这种模式使用场景非常多,例如将一个服务拆开,对于重要的服务使用单独服务器来部署,再或者公司最近推广的多中心。
(3)限流模式:上述的熔断模式和隔离模式都属于出错后的容错处理机制,而限流模式则可以称为预防模式。限流模式主要是提前对各个类型的请求设置最高的QPS阈值,若高于设置的阈值则对该请求直接返回,不再调用后续资源。这种模式不能解决服务依赖的问题,只能解决系统整体资源分配问题,因为没有被限流的请求依然有可能造成雪崩效应。
5 熔断设计
在熔断的设计主要参考了hystrix的做法。其中最重要的是三个模块:熔断请求判断算法、熔断恢复机制、熔断报警
(1)熔断请求判断机制算法:使用无锁循环队列计数,每个熔断器默认维护10个bucket,每1秒一个bucket,每个blucket记录请求的成功、失败、超时、拒绝的状态,默认错误超过50%且10秒内超过20个请求进行中断拦截。
(2)熔断恢复:对于被熔断的请求,每隔5s允许部分请求通过,若请求都是健康的(RT<250ms)则对请求健康恢复。
(3)熔断报警:对于熔断的请求打日志,异常请求超过某些设定则报警
6 隔离设计
隔离的方式一般使用两种
(1)线程池隔离模式:使用一个线程池来存储当前的请求,线程池对请求作处理,设置任务返回处理超时时间,堆积的请求堆积入线程池队列。这种方式需要为每个依赖的服务申请线程池,有一定的资源消耗,好处是可以应对突发流量(流量洪峰来临时,处理不完可将数据存储到线程池队里慢慢处理)
(2)信号量隔离模式:使用一个原子计数器(或信号量)来记录当前有多少个线程在运行,请求来先判断计数器的数值,若超过设置的最大线程个数则丢弃改类型的新请求,若不超过则执行计数操作请求来计数器+1,请求返回计数器-1。这种方式是严格的控制线程且立即返回模式,无法应对突发流量(流量洪峰来临时,处理的线程超过数量,其他的请求会直接返回,不继续去请求依赖的服务)
7 超时机制设计
超时分两种,一种是请求的等待超时,一种是请求运行超时。
等待超时:在任务入队列时设置任务入队列时间,并判断队头的任务入队列时间是否大于超时时间,超过则丢弃任务。
运行超时:直接可使用线程池提供的get方法
8 隔离与熔断代码实现
后续会放到github上
9 性能损耗测试
由于存在计数统计和线程切换等的开销,所以对每个请求会有一定的性能损耗,测试结果表明在线程池隔离模式中,平均一个请求的损耗在0.5ms以内。
测试方法:顺序请求,记录业务运行时间和隔离器运行业务的时间,请求数量500次。
变量解释:
单个请求耗时:为业务的运行时间(使用Thread.sleep()模拟);
隔离消耗=请求总用时-业务用时;
隔离评价消耗=隔离消耗/请求次数/
测试时间统计(单位ms):
单个请求耗时 |
请求总用时 |
业务用时 |
隔离消耗 |
隔离平均消耗 |
1 |
586 |
510 |
76 |
0.152 |
5 |
2637 |
2514 |
124 |
0.248 |
10 |
5248 |
5136 |
112 |
0.024 |
50 |
25261 |
25111 |
150 |
0.3 |
100 |
50265 |
50130 |
135 |
0.27 |
200 |
100657 |
100284 |
373 |
0.746 |
10 参考
在设计和实现的过程中参考了一些现有的设计和一些文章:
1、Hystrix官方文档:https://github.com/Netflix/Hystrix/wiki
2、Hystrix使用与分析:http://hot66hot.iteye.com/blog/2155036
3、Facebook文章:http://queue.acm.org/detail.cfm?id=2839461
4、Facebook文章:http://queue.acm.org/detail.cfm?id=2209336
4、 分布式服务容错模式和实践: http://www.atatech.org/articles/31559
相关推荐
在这个场景中,我们主要关注的是“自定义微服务熔断处理机制”,这涉及到对服务间通信异常情况的处理,以防止系统整体性能受到负面影响。 首先,让我们了解一下什么是熔断机制。熔断机制源自电力系统,当电流过载时...
- Spring Cloud:Java领域的微服务框架,提供服务发现、配置中心、负载均衡、熔断等组件。 - Docker:容器化技术,使得服务可以轻松地在不同环境之间迁移和部署。 - Kubernetes (K8s):容器编排工具,用于管理...
6. **微服务设计原则**:单一职责原则、开闭原则、接口隔离原则等,以及如何设计可复用和可维护的服务。 7. **微服务实践案例**:可能包含一些实际项目中的微服务架构设计和实施经验分享。 通过阅读该PDF文档并结合...
- Hystrix是用于实现服务降级、熔断和隔离的工具。当服务出现故障时,Hystrix能够快速失败并提供备选方案,防止服务雪崩效应。 5. **Spring Cloud Config配置中心**: - 在分布式系统中,配置管理是一项挑战。...
- Hystrix:断路器,防止服务雪崩效应,提供降级、熔断和隔离机制。 - Zuul:边缘服务/ API网关,作为所有请求的入口,负责路由、过滤和安全控制。 - Config:分布式配置管理,允许在运行时更新服务配置。 - Sleuth...
1. Spring Cloud作为微服务的主流框架,提供了一套微服务解决方案,包括服务发现、配置中心、负载均衡、熔断机制等组件。 2. Spring Cloud基于Spring Boot,简化了微服务的开发过程,允许开发者快速构建分布式系统。...
为了成功地实施微服务架构,企业需要采用适当的工具和技术来解决这些问题,比如使用API网关、事件驱动架构、服务注册与发现、熔断机制以及集中式的日志和监控系统等。通过这些手段,企业可以在享受微服务带来的灵活...
与SOA相比,微服务更倾向于使用JSON作为数据交换格式,提高了通信效率。例如,SpringCloud作为流行的微服务框架,提供了服务注册、服务发现、负载均衡、分布式会话等一系列功能,简化了微服务的构建和管理。 Spring...
通过Hystrix,我们可以实现熔断、降级、隔离等策略,保障系统整体的稳定性。 4. **API网关**:Zuul是Spring Cloud的一个边缘服务和动态路由服务,它提供过滤功能,如安全、监控、限流等。作为微服务架构的入口,...
Hystrix是Netflix提供的一个实现此模式的库,它提供了熔断、降级和隔离功能,确保系统在部分服务故障时仍能保持整体运行。 5. **路由网关GetWay**:路由网关是微服务架构中的一个核心组件,它负责路由请求到正确的...
书中提到,微服务治理的四个阶段分别对应马斯洛需求模型的五个层次:基本通信、服务交付与运维、分布式跟踪与可观测性,以及全面的微服务治理。随着微服务架构复杂性的增加,高效治理成为必然需求,以解决开发调试、...
它集成了众多优秀的开源项目,如Nacos(服务注册与发现)、Sentinel(流量控制与熔断)、Dubbo(高性能RPC框架)、Seata(分布式事务处理)等,构建出一套完整的微服务生态体系。这些组件不仅在功能上相互补充,还在...
2. **服务治理**:包括服务注册与发现、负载均衡、熔断和降级策略等,这些都是确保服务高可用和容错性的重要手段。快手可能详细介绍了他们使用的具体服务治理框架和技术实践。 3. **数据一致性**:在微服务环境下,...
通过以上步骤,你可以构建一个具有服务发现、负载均衡、故障隔离、请求追踪等能力的企业级微服务框架。这个框架适合有一定微服务基础的开发者进一步学习和研究,帮助他们更好地理解和掌握微服务架构的实践应用。同时...
为了解决这个问题,Netflix开源了Hystrix,一个用于处理服务间调用失败、延迟和过载的库,通过隔离请求、熔断和降级策略,提高了系统的容错性和稳定性。本文将深入探讨Hystrix的核心功能——熔断和降级,并结合实际...
10. **故障隔离与容错**:Hystrix、熔断、降级策略等,保证系统在部分服务失败时仍能正常运行。 11. **数据一致性与事务**:在微服务架构中,如何处理分布式事务,比如Saga、补偿事务等方案。 12. **安全性**:...
- **高可用设计**:通过监控、负载均衡、限流与降级、故障转移、集群、自动扩缩容和熔断等手段,确保网关在面对高并发时仍能保持高可用性。 4. **架构设计与实现** - **负载均衡**:Spring Cloud 的 Ribbon 是...
- **熔断降级**:能够及时发现并隔离故障服务,防止错误放大。 - **负载保护**:通过对系统CPU负载、RT和QPS等指标的监控,动态调整防护策略。 #### 四、Sentinel防护手段详解 ##### 4.1 流量控制 - **直接拒绝...