随着IT服务台软件报告功能的发展,现在可以测量和监控的帮助台KPI和指标多达数百个。但是,应该衡量什么?怎么才能确切地衡量?
不是所有的帮助台指标都需要衡量,您应该衡量对您IT帮助台至关重要的指标,并改进提供的服务。
本文描述了对每个IT服务台至关重要的8个KPI。这些KPI有助于实现基本的IT服务台目标,如业务连续性、组织生产力以及按时在预算内提供服务。关键绩效指标如下:
由于IT帮助台不可用而导致业务中断的小时数。
目标
尽量把服务中断损失降到最低限度。
大部分IT团队通过跟踪服务可用性,来查看IT帮助台的总体性能。但服务中断损失并不总是反映在服务可用性级别上,即使这些级别很高。例如,如果服务可用性为99.9%,公司每年仍然会有8小时以上的服务中断损失。追踪服务中断损失可以突出损失及其对业务的影响。
2010年9月,Virgin Blue遇到了对于航空公司来说噩梦般的情况。大约5万名顾客100个航班停飞。由于托管Virgin Blue应用程序的固态磁盘服务器基础设施出现故障,在接下来的几天里,又有400多个航班被推迟或重新安排。这影响了Virgin Blue的在线登记和预订系统。
尽管SLA要求立即恢复服务,但恢复服务需要11个小时,而完全恢复操作则需要10个小时。因为,试图修复一个有故障的设备,延迟了切换到应急硬件平台的时间。到那时,已经造成了破坏。尽管这11个小时在Virgin Blue的服务可用性方面花费不多,但业务损失方面,Virgin Blue损失了约1000万美元。
行业标准 - 服务中断损失
指标 (n-208) | 较好的 | 平均的 | 较差的 |
过去12个月内的停机次数 | 0.56 | 2.26 | 3.92 |
过去12个月内每次平均停机时间 | 0.16 小时 | 1.49 小时 | 17.82 小时 |
最长停机时间 | 0.21 小时 | 4.78 小时 | 43.71 小时 |
关键应用程序可用性 | 99.90% | 99.62% | 99.58% |
从上次停机事件中恢复的时间 | 1.13 小时 | 5.18 小时 | 27.11 小时 |
也就是说,很多因素都会对服务中断损失产生负面影响。在2010年Gartner就表示,“影响关键业务服务的停机中,80%由人员和流程问题造成,而超过50%的停机由更改/配置/发布集成以及移交问题造成。”
给定时间内,成功变更的数量与变更总数的比率。
目标
实现更高比例的成功变更实施。
对于失败的变更意味着什么,人们仍然存在分歧。它基本上是指变更没有达到目标或没有按计划进行。
2011年10月27日,澳大利亚证券交易所(ASX)的交易因未能实施变更而被迫暂停4小时。ASX内部网络的升级(为了改善交易平台的延迟)导致交易系统的支持组件和传播网关出现了前所未有的连接问题。ASX不得不从他们的一个灾难恢复站点启动交易服务。最后,为了恢复正常,这一变更不得不在当晚撤销。
变更成功率无法达到预期标准通常是由于以下原因导致的变更实施失败:
为实现有效的变更管理过程,另一个应该跟踪的帮助台指标是计划外变更的数量。计划外变更一般为紧急变更。
尽管,对于IT基础架构中允许的计划外变更数量没有行业标准或确切的数字,但此报告指标非常重要,特别是在计划外变更数量不断增加的情况下。
计划外变更数量的增加趋势表明对变更的规划不足,是对变更管理过程的效率提出的质疑。因此,必须改进变更管理流程,以确保变更的正确规划和执行。
计划外变更增加趋势
计划外变更数量的突然增加可能是由于意外的重大事件,这就需要紧急改变以恢复服务。这种情况可能是由于基础设施不稳定造成的,这可能会影响服务可用性,并最终影响业务。
计划外变更的不连续峰值
高度稳定的基础设施具备很高的可用性和较少的服务中断。
目标
保持基础设施的高度稳定。
为了有效衡量和监控基础设施的稳定性,IT服务台需要监控以下内容:
基础设施稳定性
如果一个基础设施,路由器每天必须重新启动多次、服务器经常停机或工作站时不时重新启动,那么这样的基础设施无法提供高度的可用性和更好的服务。因此,要查明并更换这些有问题的资产,以确保业务的连续性。
有问题的资产可能会反复导致服务中断,并且处于报告的目的,这些资产可能有多起与之相关的事件。问题资产数量减少的百分比可使用以下公式计算:
在有限时间内问题资产更换的数量。
在时间框架开始时确定的问题资产数量
稳定性的另一个主要表现是IT基础设施上的重大事件再次发生,这可能导致服务中断或服务级别下降。重大事件,顾名思义,是一个影响很大、紧急程度很高的事件,它会影响到大量用户,使企业失去一两项关键服务。
我们的目标是减少重大事件的数量,这可以通过高效和减少问题积压来实现。确定根本原因和解决问题可以减少重大事件的重复发生,并随后减少向IT帮助台提交的问题数量。
团队还可以评估这些行动项目,详细说明问题识别后启动根本原因分析所需的时间,以及完成根本原因分析所需的时间。
世界领先的金融机构之一能够通过减少重大事故来改善其稳定性。事故数量的减少是通过改进根本原因分析过程实现的。
减少重大事件有助于提高IT稳定性
大量问题积压的主要原因可能是:
如果不查明和纠正根本原因,重大事件再次发生的可能性相当大。不过,值得庆幸的是,问题积压可以通过以下方式减少:
处理这两个简单的ITSM服务台指标(问题资产数量减少的百分比和重大事故数量减少的百分比)可以帮助您维护高度稳定的IT基础架构。
在指定时间内,IT服务台处理的故障单总数及其模式。
目标
优化事件和服务请求的数量,为IT团队为处理工单做好准备。
IT服务台在工单数量方面应注意一些趋势,例如:
工单数量趋势中的离散峰值
工单数量突然上升的原因可能是:
下图表示美国一所大学的IT服务台处理的工单数量。该图清楚地表明2012年9月和2013年9月的工单高峰。这是由于秋季入学的学生人数增加。因此,IT团队确保将这个额外的负载平均分配给整个团队,并且每个成员都需要加班来处理这些突发事件。
美国大学的工单数量
工单数量持续上升趋势
上升趋势可能是由于以下原因:
企业组织规模扩大
随着业务的增长,IT服务台必须支持更多的用户,这通常会导致工单量的增加。可以根据业务的增长,通过有效的人员配备计划来解决工单数量逐渐增加的情况。此外,可以将用户细分到部门和用户组,来更有效地处理工单。
支持更多业务职能
随着IT开始支持更多业务功能,故障单数量(事件和服务请求)都在增加。此类情况可以通过了解用户的要求和期望,和配备IT服务台团队,来解决工单数量的提升。
基础设施稳定性下降
随着IT网络中有问题和过时资产数量的增加,工单的数量也必将增加。此类情况可以通过将事件和问题与资产相关联,帮助IT团队决定撤回资产,升级资产等来解决。
由第一级支持解决的事件百分比(首次致电或与IT服务台联系)。
目标
具有较高的首次呼叫解决率。
一项客户关系指标的研究证实,较高的首次呼叫解决率通常与较高的客户满意度相关。此外,服务质量衡量小组进行的一项研究还表明,首次呼叫解决每提高1%,客户或用户的满意度就会提高1%。
首次呼叫解决还与每个工单的成本有关。下图表示每个级别的每个工单成本。
各种支持级别的工单平均成本
有时,即使没有准确的解决方案,IT服务台技术人员也会在第一次通话时急于关闭故障单。如下图所示,这种情况可能会导致首次呼叫解决率上升,而用户满意度会急剧下降。
首次通话解决率VS用户满意度
首次通话解决率的技巧
以下是简单的三阶段技术,可让IT服务台团队在第一通电话中解决故障单。
阶段1:了解环境
阶段2:微调
生成报告以确定第一阶段的工作已经展开,并确定需要改进的地方。以下是一些示例报告的指标,可帮助您。
阶段3:优化
建立明确定义的流程,以不断提高首次呼叫解决率。
此技术不仅可以帮助您提高首次呼叫解决率,而且还可以确保工单得到正确解决,而不仅仅是关闭而已。
另一个可能的趋势是首次呼叫解决率不断降低,如下图所示。
不断降低首次呼叫解决率
发生这种情况的原因有很多,但主要的原因如下:
根据MetricNet的基准测试水平,全球服务台的首次呼叫解决率范围在41%到74%之间,最高值为74%。这之中,取得高首次呼叫解决率服务的最普遍因素是:支持代理的训练有素,知识管理工具的可用性,工具(例如:远程桌面管理等工具)的使用。
在商定的SLA时间内事件解决的百分比。
目标
保持最大的SLA合规率。
跟踪SLA合规性级别有助于IT服务台:
有时,仅仅是为了避免违反SLA, IT服务台技术人员会在没有适当解决方案的情况下关闭故障单。发生这种情况时,尽管SLA合规率很高,但是用户满意度肯定会降低,如下图所示。
SLA合规率VS用户满意度
出于其他原因,SLA遵从性级别可能会下降,以下可能性很重要,请记住:
在这种情况下,IT服务台团队必须了解业务需求,并适当地重新定义其SLA。
SLA和SLA合规性对于确保业务连续性至关重要。对于一家水泥制造公司而言,设置合适的 SLA相当重要。IT服务台未能及时响应卡车调度的问题,但是仍能够在其设定的SLA所规定的范围内,解决问题。
然而对于制造的水泥而言,需要在一个小时内运送至施工现场,否则就会因硬化问题,影响施工品质,甚至公司业务。但服务台对此一无所知,尽管有SLA的设置,但其可能并未实际考虑到业务的需求因素,从而对公司业务产生负面响应。
SLA合规率呈下降趋势
另一个值得关注的惊人趋势是SLA合规率不断降低。
工单平均成本是指:IT支持每月总运营成本除以工单数量。
目标
保持每张工单的成本在最低水平。
根据MetricNet,以下是2014年每张工单的基准成本。
行业标准-高密度环境下的每张工单成本
行业标准-中密度环境下的每张工单成本
从这两种情况中可以看出,服务请求的成本通常高于事件的成本。这是因为事件通常比服务请求花费的时间更少。因此,每张工单的成本在很大程度上受事件和服务请求的混合影响。
在大多数企业组织中,IT支持被视为成本中心,并且在财务低迷期间,IT支持往往首先被削减预算。但即便是这样,IT支持也必须保持高效。每个工单的成本是一项关键的服务台性能指标,可帮助IT支持人员分析其在给定预算内处理工单的效率。目标始终是保持每个工单的最佳成本水平。
请记住,每个工单的平均成本高于平均水平未必是一件坏事,而低于每个工单的平均成本也未必总是好事,如下图所示。
该图中描绘的场景可能意味着IT服务台团队正在折衷服务质量以降低每个工单的成本,这通常会导致客户满意度降低。
工单成本与用户满意度
上图中,每个工单成本的增加伴随着客户满意度水平的增加。这可能意味着每个工单的增加获得了更好的服务交付,证明了额外成本的合理性。
优化每个工单成本的一个关键因素是能够快速解决工单并减少任何不必要的升级。通过遵循以下几点,可以控制每个工单的成本:
企业实际使用的软件产品对于所购许可证的百分比。
目标
获得最大化软件投资的ROI(投资回报率)。
由于购买软件许可证是IT部门支出主要部分之一,因此跟踪软件利用率非常重要。但不幸的是,这也是讨论最少的服务台指标之一。为了便于管理,可以将软件分类如下:
以下服务台指标可用于跟踪软件利用率:
此度量标准有助于确定那些没有为组织带来任何价值的软件购买支出。理想情况下,这个比率应接近1,这意味着所有已购买软件都已得到了有效利用,从而确保了购买软件许可证的最大投资回报率。如对于使用率非常低的软件,第一类软件数量很多,这意味着大部分软件资产支出都是闲置软件。
该指标有助于分析特定软件的许可证使用情况,帮助IT团队提前计划购买许可证。为了获得最大的投资回报率,该比例应尽可能小。高比率可能意味着某些软件应用程序被过度授权,存在没有投资回报率的的闲置投资。
一家全球领先的制药公司在软件许可支持费用上节省了约一百万美元。这家制药公司在全球50多个国家/地区提供服务,并使用多种Microsoft产品。而这些软件应用主要是根据Microsoft批量许可协议获得的,但是由于缺乏对这些软件资产的可见性/可视性,以及控制该企业在许可证的购买上,是在不了解业务需求的情况下进行的。
实际上,该公司关于软件资产以及组织实际需要的资产数量和类型是有限的。这个情况增加了组织对于许可过度授权,授权不足以及合规性支出方面的风险。
IT部门首先通过IT服务台的数据进行了简单分析,通过将已安装的Microsoft软件与其持有的Microsoft许可证进行比较,获得了相关基础数据, 同时,IT部门努力理解业务需求,重新设计了Microsoft许可证的采购,例如,在满足业务需求的情况下,将微软Office专业版调整成更便宜的标准版。
此外,该企业还替换了其他几个批量许可证,从而削减了成本,为公司节省了大约100万美元的软件许可证购买费用。
可能对组织产生成本的另一个重要软件资产管理指标是许可证合规率。保持最大的合规性可以让您的组织免受罚款风险。以下是取得最大合规性的一些技巧:
通过三步式预审核实现最大合规性
简单的三步式预审核,百分百的许可证合规率将不再是神话。
步骤1:差距分析
第2步:合规性分析
检查每个软件应用程序的软件安装总数与购买的许可证总数,以识别许可过度和许可不足的软件。
步骤3:软件许可优化
利用从步骤1和步骤2获得的所有见解,重新设计您的软件购买需求,以优化合规性并接近或达到100%的许可证合规率。
这8个关键绩效指标,以及各自的指标,将帮助您建立一个衡量引擎,以不断衡量和持续改进您的服务台绩效。建立此度量引擎的第一步是了解IT帮助台所支持的业务,并将IT帮助台的目标与业务目标保持一致。下一步是确定对这些帮助台目标至关重要的KPI和指标,并不断地对其进行度量。
这里讨论的8个服务台KPI对于确保业务连续性、提高组织生产力、在预算内按时提供服务这三个IT服务台基本目标至关重要,这突出表明,这8个KPI是您的IT服务台最应该关心的。