SLI/SLO衡量系统的稳定性的监控展示

SLI,全名Service Level Indicator,是服务等级指标的简称,它是衡定系统稳定性的指标。 SLO,全名Sevice Level Objective,是服务等级目标的简称,也就是我们设定的稳定性目标,比如4个9,5个9等。 SRE通常通过这两个指标来衡量系统的稳定性,其主要思路

SLI,全名Service Level Indicator,是服务等级指标的简称,它是衡定系统稳定性的指标。

SLO,全名Sevice Level Objective,是服务等级目标的简称,也就是我们设定的稳定性目标,比如"4个9","5个9"等。

SRE通常通过这两个指标来衡量系统的稳定性,其主要思路就是通过SLI来判断SLO,也就是通过一系列的指标来衡量我们的目标是否达到了"几个9"。

如何选择SLI

在系统中,常见的指标有很多种,比如:

系统层面:CPU使用率、内存使用率、磁盘使用率等

应用服务器层面:端口存活状态、JVM的状态等

应用运行层面:状态码、时延、QPS等

中间件层面:QPS、TPS、时延等

业务层面:成功率、增长速度等

这么多指标,应该如何选择呢?只要遵从两个原则就可以:

选择能够标识一个主体是否稳定的指标,如果不是这个主体本身的指标,或者不能标识主体稳定性的,就要排除在外。

优先选择与用户体验强相关或用户可以明显感知的指标。

通常情况下,可以直接使用谷歌的VALET指标方法。

V:Volume,容量,服务承诺的最大容量

A:Availability,可用性,服务是否正常

关于作者: dawei

【声明】:石家庄站长网内容转载自互联网,其相关言论仅代表作者个人观点绝非权威,不代表本站立场。如您发现内容存在版权问题,请提交相关链接至邮箱:bqsm@foxmail.com,我们将及时予以处理。

为您推荐