OpManager中的自适应阈值

自适应阈值使用户能够通过使用OpManager基于机器学习的预测算法动态修改关键监视器的阈值来优化接收告警的效率。它消除了手动干预确定阈值的需要,并完全自动化了研究复杂数据集和为每个监视器得出可行阈值的过程。

以下是OpManager的自适应阈值如何帮助简化确定阈值的过程:

  1. 启用自适应阈值后,OpManager会从所有监视器收集必要的性能数据,并将其输入到我们的高级预测算法中。
  2. 这些算法开始读取记录数据中的模式并生成相关的阈值,每个值和每个模式都会被考虑在内。
  3. 一旦OpManager准备好了特定监视器的数据(过去三天的数据),它就会最终确定数据模式,并开始将预测阈值应用于相关监视器。

启用自适应阈值后,我们会从用户那里收集所谓的“偏差值”,以确定在引发告警之前轮询值可以变化多少。三个偏差值 - 需要关注的、有问题的和严重,按百分比递增顺序收集,因为OpManager有三个级别的告警。

在自适应阈值模式下如何计算阈值?

对于每小时,OpManager的预测算法会根据先前观察到的数据模式和行为提供预测值,并且用户配置的偏差值将基于该值进行应用。例如,请考虑以下偏差值。

需要关注的 有问题的 严重的
5 8 15

如果设备在一天中的第一个小时 (0:00 - 1.00) 的 CPU 使用率的预测值为 34,则引发严重性为“需要关注的”的告警的相应值将为 34+5=39(预测 + 注意偏差)。同样,故障和临界值也每小时计算一次。不同预测值连续 5 小时的计算值如下:

时间 预测值 需要关注的值 有问题的值 严重的值
0:00 - 1:00 34 39 42 49
1:00 - 2:00 36 41 44 51
2:00 - 3:00 44 49 52 59
3:00 - 4:00 58 63 66 73
4:00 - 5:00 54 59 62 69

启用自适应阈值

在启用“自适应阈值”选项之前,请注意:

  1. 此功能目前仅适用于OpManager中的CPU利用率、内存利用率和响应时间监视器。我们将很快逐步推出对其他监视器的支持。
  2. OpManager至少需要三天的性能数据才能成功建立数据模式并实现模型。如果要添加新设备并希望立即开始监视它,则可以在此期间使用手动阈值。
  3. 必须首先全局启用自适应阈值功能,才能在所有其他页面中将其作为选项启用。如果全局禁用,则只能在整个OpManager中配置手动阈值。此外,启用后,默认情况下,使用支持的监视器发现的所有设备都将为这些监视器启用自适应阈值。
  4. 每当在任何地方禁用自适应阈值时,该监视器的阈值都将恢复为该监视器上次配置的手动阈值(如果之前已配置)。

适用监视器的自适应阈值(CPU利用率、内存利用率和响应时间)可以在OpManager中从设置->监控>监视器设置中全局启用。导航到此页面,选择“自适应阈值”选项卡,启用复选框,然后单击保存。您还可以通过单击每个监视器旁边的小交换机按钮并禁用其他监视器类型,在全局级别单独启用每种监视器类型。

 

Setting Adaptive Thresholds in OpManager

启用后,可以根据您的要求在各个级别上对其进行控制:

  1. 在OpManager的监控级别启用:
  2. Setting Adaptive Thresholds in OpManager

    • 您还可以为OpManager中使用的特定监视器启用自适应阈值。只需转到“设置>监视”下的“性能监视器”页面,找到要为其启用的监视器,然后单击“编辑”。
    • 启用“自适应阈值”选项,然后单击“确定”将其保存。
  3. 通过设备模板启用:
  4. Setting Adaptive Thresholds in OpManager

    • 我们还可以从设备模板为监视器启用自适应阈值,其过程与在监视器级别进行配置类似,如上所述。
    • 转到设置->配置->设备模板,选择合适的模板,然后单击任何支持的监视器以启用自适应阈值。完成后,单击“确定”以保存更改。
    • 若要将此更改直接应用于模板下的设备,请单击“保存并关联”。您可以选择要应用这些更改的设备,然后单击“关联”和“覆盖”以应用这些更改。
    • 如果要将此阈值更改应用于将来将发现的设备,只需单击“保存”。
  5. 在设备级别本地启用(设备快照):
  6. Setting Adaptive Thresholds in OpManager

    • 当只需要为少数设备启用/禁用自适应阈值时,此方法将很有用。
    • 只需转到设备的“设备快照”页面,导航到任何支持的监视器,单击“编辑”并启用“自适应阈值”选项。
    • 单击“保存”将更改应用于监视器。一旦有足够的数据可供算法使用,OpManager将开始预测阈值(至少3天)。