集群服务调用失败后,服务框架需要能够再底层自动容错,容错策略有很多,分别适用于不同场景。
一.容错场景
分为三大类:
- 通信链路发生故障;
- 服务端超时;
- 服务端调用失败;
二.容错策略
集群容错和服务路由的关系。
消费者根据路由策略选择某个目标地址之后,发起远程服务调用,如果远程服务调用发生异常,则框架需要进行集群容错,重新进行选路和调用。
1. 失败自动切换(Failover)
服务调用失败自动切换策略:指的是当发生RPC调用异常时,重新选路,查找下一个可用的服务提供者。
- 设计思想:
消费者路由操作完成之后,获得目标地址,调用通信框架发送请求,监听服务端应答。如果返回的RPC调用异常,根据消费者集群容错的策略进行容错路由。如果是Failover,则重新返回到路由的Handler入口,从路由节点继续执行。注意:选路完成之后,对目标地址进行比对,防止重新路由到故障服务掉,过滤掉上次故障服务提供者之后,再次发送请求。 - 应用场景
- 读操作,因为通常是幂等的。
- 幂等性服务,保证调用1次和N次的效果相同。
注意:失败重试会增加服务调用时延,因此框架需要设定最大的失败重试次数,通常默认为3,防止无限制重试导致服务调用时延不可控。
2.失败通知(Failback)
在很多业务场景中,消费者需要能够获得调用失败的具体信息,通过对失败错误码等异常信息的判断,决定后续的执行策略。例如:非幂等性的服务调用。
- 设计思想:
服务框架获取到服务提供者返回的RPC异常响应之后,根据策略进行容错。如果是Failback模式,则不再重试其他服务提供者,而是将RPC义仓的消息通知给消费者,由消费者捕获异常,进行后续处理。
3.失败缓存(Failcache)
Failcache策略是失败自动恢复的一种,应用场景如下:
- 服务是状态路由,必须定点发送到制定的服务提供者。当发生链路中断、流控等导致服务暂时不可用时,服务框架将消息临时缓存起来,等待周期T,重新发送,知道服务提供者能够正常处理该消息。
- 对时延要求不敏感的服务。
- 通知类服务:对服务调用的实时性要求不高,可以容忍自动恢复带来的时延增加。
注意:为了保证可靠性,Failcache策略再设计的时候需要考虑如下几个因素: - 缓存时间、缓存对象上限需要做出限制,防止内存溢出。
- 缓存淘汰算法的选择
- 定时重试的周期T、重试最大次数等限制。
4.快速失败(Failfast)
在业务高峰期,对于一些非核心的服务,希望只调用一次,失败也不再重试,位重要的核心服务节约宝贵的运行资源。
- 设计思想:
快速失败策略的设计比较简单,获取到服务调用异常之后,直接忽略异常,记录异常日志。