指标是IT服务管理的核心,提供对运营的洞察,并帮助确定持续改进的领域。通常的服务台指标有助于展示内部运营效率。例如,衡量在指定时间内解决的票证数量的SLA是展示服务台效率的一个关键因素。另一方面,失败度量帮助团队识别IT基础设施中的薄弱环节,并帮助评估对失败事件的响应。这有助于IT团队最大限度地减少故障对关键系统造成的连锁效应。

要跟踪的关键故障指标是什么?在本文中,我们将讨论以下三个KPI:

  • 平均故障间隔时间
  • 平均失效前时间
  • 平均修复时间

平均故障间隔时间(MTBF)

Mean Time Between Failures (MTBF)  meaning

当IT基础设施资产(如网络、服务器、工作站等)频繁出现故障时,它们会对IT和业务服务的可用性产生连锁影响。这些中断会导致收入和声誉的损失。如果某项IT资产频繁停机,通常需要维修或更换。在此之前,它有助于调查和理解为什么资产经常宕机,以及在什么情况下宕机。这有助于计划资产维护和提高系统可用性。MTBF是一种指标,有助于确定停机原因并帮助减少停机时间,或者规划IT系统的快速恢复和更好的可用性。

MTBF metrics and calculation

图一平均故障间隔时间

如果特定IT资产的MTBF较低,这意味着该资产频繁停机,导致IT和业务中断。

MTBF示例

在一个组织中,每当应用新的Windows固件更新时,对存储驱动器的更新总是失败。这种情况发生了几次,MTBF变得更差。分析问题后,团队确定第三方驱动程序导致执行更新所需的API要么未实现,要么有问题。当安排新的更新时,如果第三方驱动程序没有实现必要的API,有两种可能的解决方案可供探讨。将API与SATA和NVMe存储协议的Windows替代产品进行交换,或者从OEM获得新的、更受支持的驱动程序版本,都有助于实现更新、修复错误和弥补安全漏洞。监控和跟踪驱动程序升级和停机时间有助于提高存储驱动器的可用性。

如何提高MTBF

  • 实施一个流程来观察资产健康状况,以跟踪和监控故障。这有助于确定中断的原因。
  • 分析问题的根本原因以提高认识,解决长期问题,并提高资产绩效。
  • 创建快速响应策略,以有效解决和减少影响运营的停机时间。目标是实现越来越少的中断间隔时间。

平均失效前时间
(MTTF)

Mean time to failure (MTTF) meaning

资产经常发生故障会中断您组织的IT运营,并导致IT基础架构的恶化和性能下降。MTTF指标有助于确定资产、设备或组件的典型寿命。对于MTTF较低的IT资产和组件,更换IT组件而不是修复组件通常更省时,并可最大限度地降低运营影响和成本。

这尤其适用于与基础架构的关键运营要素相关的IT组件,如大型机服务器堆栈或网络接入点。

MTTF formula and calculation

图二平均失效前时间

如果一项资产的MTTF是不利的,并且经常发生故障,这表明该IT资产是不可靠的,需要频繁更换,以避免影响IT运营。

MTTF的例子

在一家IT软件开发公司中,当电缆与数据和网络服务器堆栈中的交换机连接或断开时,网络电缆会变松、断开或损坏。这导致文件因数据传输中断而损坏。网络团队的进一步分析显示,6类RJ45跳线上的无钩塑料盖不断断裂。这是因为电缆是从使用廉价材料的制造商处采购的。然后,IT团队用质量更好的电缆替换了旧电缆,以确保将来移动电缆时不会出现数据丢失或损坏等问题。这是一个典型的例子,但定期跟踪电缆的MTTF有助于IT团队了解关键资产(如组件)的影响,以便他们能够做出有关维修和更换的明智决策。

如何增加MTTF

  1. 通过采购高质量的资产和淘汰低质量低成本的资产来延长资产寿命。
  2. 通过安排对与关键资产相关的组件进行定期检查,防止大规模业务运营中断。
  3. 实施即时库存流程,估计资产的运行时间,从而降低资产存储的管理费用。

平均修复时间
(MTTR)

Mean Time to Repair (MTTR) meaning

当一个关键的IT系统出现故障时,IT团队必须尽快让系统运行起来。恢复IT系统的延迟会导致收入损失并影响关键业务运营。一个组织良好的恢复和响应系统可以帮助IT团队应对计划外停机,并有效地恢复运营。MTTR衡量对资产进行维修或故障排除并使其恢复运营能力所需的平均时间。

MTTR calculation

图3平均修复时间

停机时间的成本随着MTTR的增加而增加。高MTTR表明你的恢复和反应行动不是快速和有效的。系统故障是不可避免的,但是MTTR使团队能够及时地、战略性地对资产故障做出反应。

MTTR的例子

由于代码中的漏洞,一家软件公司正在开发的视频游戏面临零日攻击。这次攻击中断了无线网络和监控系统等操作。这导致攻击者访问组织的网络域和机密业务文件。网络安全团队向员工通报了零日攻击以及他们可以向哪里报告。组织中的每项IT资产都配备了下一代防病毒软件(NGAV)。攻击使局域网和员工自助服务门户瘫痪,严重影响了组织的运营。在攻击发生后的一个小时内,网络安全团队得到了NGAV能力的通知和帮助,该能力利用威胁分析和用户行为模式,并识别出可疑活动。网络安全团队立即运行补丁管理脚本来纠正代码中的漏洞,并锁定其内部网络,以避免进一步影响运营和数据窃取。

如何减少MTTR

  1. 一个有效的资产管理策略通过识别瓶颈,并指定要修复或替换的资产,有助于推动更好的决策。这样既省钱又节省存储空间。
  2. 定义技术人员的职责和角色,以简化事件检测和解决流程。
  3. 为技术人员提供详细的标准操作程序,以减少停机期间的误解和混乱。
  4. 使用集中资产维护和监控信息的企业资产管理解决方案来衡量MTTR。这也有助于优化资产利用率、收集资产数据和预测可能的停机时间。

结语

MTBF and MTTR

这些故障指标有助于团队识别运营中的瓶颈及其对事故的响应能力。它们通过查明持续事件的根本原因,使IT团队能够实现更高的运营效率。IT团队可以清楚地了解IT运营受到影响的领域,从而改进他们的事件响应策略。通过将这些指标用作KPI而不仅仅是绩效目标,可以在组织中实施这些指标。这些指标指出了流程简化和运营改进的领域,而不仅仅是要达到的目标。

每个指标的快速摘要:

  • 故障平均间隔时间让您更好地了解服务台在防止未来中断方面的有效性。
  • 平均失效前时间帮助您了解资产的生命周期及其可靠性。
  • 平均修复时间表明修复花费的时间以及您的IT团队诊断中断的速度。
Saket

关于作者

ManageEngine ServiceDesk Plus的产品专家Saket Pasumarthy是一名ITSM爱好者,他非常想了解IT领域的最新进展。Saket撰写文章和博客,帮助全球IT服务管理团队应对服务管理挑战。他还在ServiceDesk Plus Masterclass系列中介绍了用户培训课程。Saket的空闲时间是踢足球和在飞行模拟器上驾驶飞机。

返回页首