站点图标 兰玉磊的个人博客

互联网公司SLA服务等级协议详解

SLA简介

服务级别协议(英语:service-level agreement,缩写SLA)也称服务等级协议服务水平协议,是服务提供商与客户之间定义的正式承诺。服务提供商与受服务用户之间具体达成了承诺的服务指标——质量、可用性,责任。SLA最常见的组成部分是以合同约定向客户提供的服务。例如,互联网服务供应商(ISP)和电信公司通常在与客户的合同条款内包含简单定义的服务级别协议。

在此事例下,SLA通常定义有平均故障间隔(MTBF)、平均修复时间平均修复时间(MTTR);哪一方负责报告错误与支付费用;吞吐量抖动;或类似的可衡量细节。

构成

一份典型的 SLA 通常应定义以下 4 方面活动。

  1. 衡量各项动态指标满足 SLA 的定义
  2. 检査各项被衡量的指标,并进行问题诊断和根源分析
  3. 采取适当的行动解决问题
  4. 为满足 SLA 而持续维护及改进服务行为。

除了服务活动的定义外,定义淸晰、简明、一致性的数据点也是签定 SLA 双方避免风险,确保协议执行的必要条件。对于每一条服务级别的定义通常都包括以下数据点。

除了上述技术性的描述外,作为条款性文件,SLA 还应包含例外情况、奖惩措施及计算方法。

SLA计算方法

互联网公司技术部门每年都会设定SLA目标,对负责的业务作出稳定性承诺。我们今年一定要做到3个9、4个9,即99.9%、99.99%等,5个9相当难,待过的公司还没看到过。

这么多9代表什么意思呢?

首先,SLA的概念,对互联网公司来说就是网站服务可用性的一个保证。9越多代表全年服务可用时间越长服务更可靠,停机时间越短,反之亦然。

这么多9是怎么计算的呢?

全年拿365天做计算吧,看看几个9要停机多久时间做能才能达到!

1年 = 365天 = 8760小时
99.9 = 8760 * 0.1% = 8760 * 0.001 = 8.76小时
99.99 = 8760 * 0.0001 = 0.876小时 = 0.876 * 60 = 52.6分钟
99.999 = 8760 * 0.00001 = 0.0876小时 = 0.0876 * 60 = 5.26分钟

从以上看来,全年停机5.26分钟才能做到99.999%,即5个9。依此类推,要达到6个9及更多9,可说是非常难了。

计算公式:可用性 = 可用时长 / (可用时长 + 不可用时长),例如:(8760 – 0.876) / 8760 * 100

可用性全年故障时长
99.9%8.76小时 – 525.6分钟
99.95%4.38小时 – 262.8分钟
99.96%3.504小时- 210.24分钟
99.97%2.628小时 – 157.68分钟
99.98%1.752小时 – 105.12分钟
99.99%0.876小时 – 52.6分钟
99.999%0.0876小时 – 5.26分钟
99.9999%0.00876小时 – 0.5256分钟 
退出移动版