故障监控和升级


 

来自设备的陷阱和其他通知由软件接收,并转换为事件和告警。根据故障情况的严重性,每个事件和告警的严重性范围从严重到正常。每个严重性都被赋予特定的颜色,以便于视觉识别。

OpManager主动监控故障事件,并通过电子邮件或短信向用户、管理员或任何其他人报表或上报故障。

告警大致分为两种类型:基于设备状态的告警和基于阈值的告警。

本节涵盖的主题包括:

查看告警

您可以在单个控制台的“告警”选项卡下查看所有告警。在这里,可以通过单击“按类别排序”窗格中的过滤→存储告警来找到与存储相关的告警。

此选项卡显示所有告警及其来源、状态、日期和时间以及消息。它在一个页面中最多显示 500 个告警,您可以使用页面底部的导航按钮查看其他告警。每个列标题都是一个链接,单击该链接后,会根据该列对告警进行排序。

您只需单击一下即可进入闹钟详情页面。要查看引起告警的设备的详细信息,请单击告警的源链接。要查看告警的详细信息,请单击告警的消息。

在右上角的表格正上方,有用于确认、正常或删除告警的选项。要执行任何这些操作,请选择特定的告警,然后单击相应的链接。

您甚至可以根据严重性、类别或特定时间段之间生成的告警等条件查看告警。为此,您只需单击告警窗格上的相关标题,告警将根据该条件进行排序。

如果需要,您可以将其导出为 HTML、PDF、Excel 工作表和 CSV 格式。

查看告警详细信息

单击告警中的消息链接将带您进入告警详细信息页面。

告警详情页面显示:

  • 消息 - 指定告警中的警告消息。
  • 状态 - 该告警的状态(需要关注的、故障、严重或正常)。
  • 日期和时间 - 触发告警的日期和时间。
  • 要查看引起告警的设备的详细信息,请单击源链接。

在表格的正上方,有用于确认、正常、删除和注释告警的选项。

  • 要获得告警的所有权,请单击“确认”。您也可以使用“取消确认”按钮恢复确认。
  • 要向闹钟添加注释,请单击“添加注释”(加号图标)。
  • 要手动 ping 和测试相关设备,请单击“Ping”(同步图标)。
  • 要在设备上执行跟踪路由,请单击“跟踪路由”。
  • 要清除告警,请单击“清除”(勾选图标)。
  • 要删除该图标,请单击“删除”(垃圾桶图标)。

告警操作

确认告警 :

OpManager为用户提供了一个选项,让他们可以选择并拥有他们正在处理的告警。这有助于避免多个用户处理单个告警。

可以通过两种方式确认告警。

  1. 在“告警”选项卡中,选中特定告警前的复选框,然后单击“确认”。此选项仅适用于管理员用户。

  2. 在告警详情页面中,点击“确认”。

通过执行上述两个操作之一,用户将成为特定告警的所有者。

要取消确认告警,请单击特定告警详细信息页面中的“取消确认”。告警所有权将被删除。

注释告警:

如果用户想要在特定告警上添加更多详细信息,则可以在告警中对其进行注释。这对以后的参考很有用。

要对告警进行注释,请单击特定告警详细信息页面中的“添加注释”链接,然后在文本框中添加内容。注释将添加到告警注释表中。

清除告警 :

修复设备中的故障情况后,用户可以清除特定的告警,使其状态变得清晰。

要清除告警,请单击特定告警详细信息页面中的“清除”链接。告警的严重性将更改为正常。

删除告警:

在修复设备中的故障情况后,如果用户认为不需要维护记录,则可以删除特定告警。

要删除告警,请单击特定告警详细信息页面中的“删除”链接。告警及其相关事件将被永久删除。

上报无人值守告警

当某些告警在特定时间段内无人值守时,需要将其上报给管理员或 IT 经理(根据需要)。例如,您收到磁带库的严重告警,并且故障情况在 6 小时内未得到解决,这可能会导致存储基础结构的运行出现重大问题。此类告警可以升级,并可以采取快速行动以避免任何重大问题。

要添加告警升级规则,请执行以下操作:

  • 从 Web 客户端转到设置→配置→告警升级规则。

  • 点击“添加规则”。
  • 输入新规则的名称。

  • 提供升级规则的所有详细信息。
  • 最后,提供必须通知的人员的联系方式。您可以提供其中任何一个。

  • 输入必须检查上述规则的持续时间。

  • 点击“添加规则”。

该规则将添加到页面的表中。您可以通过单击修改规则窗口中的绿色图标来禁用规则。

修改告警升级规则:

  • 单击需要修改的规则的名称链接。

  • 配置的值如下表所示。

  • 您可以编辑所需的值,然后单击“保存”。

删除告警升级规则:

  • 单击升级规则表中特定规则的垃圾桶图标。