使用OPManager进行基于IPMI的监控

IPMI (智能平台控制接口) 监视器监控使用户能够无缝观察和管理服务器的状态,而不依赖于设备的状态(主机系统的CPU/固件/操作系统)。用户可以使用IPMI持续全面地监视设备的硬件健康状况。管理员能够通过IPMI接收告警和通知从而对潜在问题做出快速响应。

此文档是OpManager支持的IPMI监控的供应商和协议的全面列表。

支持的供应商和协议

目前, OpManager支持以下供应商协议组合进行IPMI监控:

  1. Dell iDrac:
    1. SNMP: 使用 MIB IDRAC-MIB-SMIv2.mib
    2. API: 使用version 8 或上述协议
  2. HP iLo: 使用 API
  3. IBM IMM: 使用SNMP MIB IMM.mib
  4. Supermicro: 使用 API
  5. Huawei:
    1. SNMP: 使用 MIB HUAWEI-SERVER-IBMC-MIB.mib
    2. 使用 API
  6. H3C: 使用 SNMP MIB HH3C-SERVER-AGENT-MIB

用于数据收集的OIDs/APIs:

  1. Dell iDrac:
    • SNMP:

      这是IDRAC-MIB-SMIv2.mib中用于硬件数据收集的OIDs:

      • 供应商 - .1.3.6.1.4.1.674.10892.5.1.1.4
      • 模型 - .1.3.6.1.4.1.674.10892.5.1.3.12
      • 服务编号 - .1.3.6.1.4.1.674.10892.5.1.3.2
      • OS - .1.3.6.1.4.1.674.10892.5.1.3.6
      • OS Version - .1.3.6.1.4.1.674.10892.5.1.3.14
      类别 单位 传感器名称  传感器状态 传感器值
      风扇 转每分 .1.3.6.1.4.1.674.10892.5.4.700.12.1.8 .1.3.6.1.4.1.674.10892.5.4.700.12.1.5 .1.3.6.1.4.1.674.10892.5.4.700.12.1.6
      温度 摄氏度 .1.3.6.1.4.1.674.10892.5.4.700.20.1.8 .1.3.6.1.4.1.674.10892.5.4.700.20.1.5 .1.3.6.1.4.1.674.10892.5.4.700.20.1.6
      功率 瓦特 .1.3.6.1.4.1.674.10892.5.4.600.12.1.8 .1.3.6.1.4.1.674.10892.5.4.600.12.1.5 .1.3.6.1.4.1.674.10892.5.4.600.12.1.6
      电压 伏特 .1.3.6.1.4.1.674.10892.5.4.600.20.1.8 .1.3.6.1.4.1.674.10892.5.4.600.20.1.5 NIL
      处理器 兆赫 .1.3.6.1.4.1.674.10892.5.4.1100.30.1.8 .1.3.6.1.4.1.674.10892.5.4.1100.30.1.5 .1.3.6.1.4.1.674.10892.5.4.1100.30.1.12
      内存 MB .1.3.6.1.4.1.674.10892.5.4.1100.50.1.8 .1.3.6.1.4.1.674.10892.5.4.1100.50.1.5 .1.3.6.1.4.1.674.10892.5.4.1100.50.1.14
      电池 -NA- .1.3.6.1.4.1.674.10892.5.4.600.50.1.7 .1.3.6.1.4.1.674.10892.5.4.600.50.1.5 .1.3.6.1.4.1.674.10892.5.4.600.50.1.6
      磁盘阵列数据 MB .1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.55 .1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.4 .1.3.6.1.4.1.674.10892.5.5.1.20.130.4.1.17
    • API:

      用于监视iDrac设备的基本API调用是:

      /redfish/v1/systems/system.embedded.1/

      根据需要监控的传感器集,修改API的最后一部分。

      类别 单位 获取传感器详细信息的API
      风扇,温度 转每分 (风扇), 摄氏度 (温度) /redfish/v1/Chassis/System.Embedded.1/Thermal/
      功率, 电压 瓦特 (功率), 伏特 (电压) /redfish/v1/Chassis/System.Embedded.1/Power/
      处理器 兆赫 /redfish/v1/Systems/System.Embedded.1/Processors/
      内存 MB /redfish/v1/Systems/System.Embedded.1/Memory/
      磁盘阵列数据 MB /redfish/v1/Systems/System.Embedded.1/Storage/
  2. HP iLO (使用API):

    HP iLO设备中的IPMI硬件监控使用基本API调用执行:

    /redfish/v1/systems/1/

    HP设备中用于硬件系统的不同API如下所示:

    类别 单位 获取传感器详细信息的API
    风扇,温度 百分比 (风扇), 摄氏度(温度) /redfish/v1/Chassis/1/Thermal/
    功率 瓦特 /redfish/v1/Chassis/1/Power/
    处理器 兆赫 /redfish/v1/Systems/1/Processors/
    内存 MB /redfish/v1/Systems/1/Memory/
    磁盘阵列数据 MB /redfish/v1/Systems/1/Storage/ - 获取SSD详细数据
    /redfish/v1/Systems/1/SmartStorage/ArrayControllers/ - 获取HDD详细数据
  3. IBM IMM (使用SNMP):

    用于IMM.mib下基于IPMI硬件监控的OID如下所示:

    1. 模型 - .1.3.6.1.4.1.2.3.51.3.1.5.2.1.2
    2. 序列号 - .1.3.6.1.4.1.2.3.51.3.1.5.2.1.3
    3. UUID - .1.3.6.1.4.1.2.3.51.3.1.5.2.1.4
    类别 单位 Sensor Name Sensor Status Sensor Value
    风扇 百分比 .1.3.6.1.4.1.2.3.51.3.1.3.2.1.2 .1.3.6.1.4.1.2.3.51.3.1.3.2.1.10 .1.3.6.1.4.1.2.3.51.3.1.3.2.1.3
    温度 摄氏度 .1.3.6.1.4.1.2.3.51.3.1.1.2.1.2 .1.3.6.1.4.1.2.3.51.3.1.1.2.1.11 .1.3.6.1.4.1.2.3.51.3.1.1.2.1.3
    功率 瓦特 .1.3.6.1.4.1.2.3.51.3.1.11.2.1.2 .1.3.6.1.4.1.2.3.51.3.1.11.2.1.6 NIL
    电压 伏特 .1.3.6.1.4.1.2.3.51.3.1.2.2.1.2 .1.3.6.1.4.1.2.3.51.3.1.2.2.1.11 .1.3.6.1.4.1.2.3.51.3.1.2.2.1.3
    处理器 兆赫 .1.3.6.1.4.1.2.3.51.3.1.5.20.1.2 .1.3.6.1.4.1.2.3.51.3.1.5.20.1.11 .1.3.6.1.4.1.2.3.51.3.1.5.20.1.3
    内存 MB .1.3.6.1.4.1.2.3.51.3.1.5.21.1.2 .1.3.6.1.4.1.2.3.51.3.1.5.21.1.8 .1.3.6.1.4.1.2.3.51.3.1.5.21.1.7
    磁盘阵列数据 MB .1.3.6.1.4.1.2.3.51.3.1.12.2.1.2 .1.3.6.1.4.1.2.3.51.3.1.12.2.1.3 NIL
  4. SuperMicro (使用 API):

    SuperMicro设备通过使用基本API调用设备进行监控: /redfish/v1/Systems/1

    根据需要监控的传感器集,API最后一部分修改如下所示:

    类别 获取传感器详细信息的API
    风扇, 温度 转每分(风扇), 摄氏度(温度) /redfish/v1/Chassis/1/Thermal
    功率, 电压 瓦特(功率), 伏特(电压) /redfish/v1/Chassis/1/Power
    处理器 瓦特 /redfish/v1/Systems/1/Processors
    内存 MB /redfish/v1/Systems/1/Memory (适用于高版本)
    /redfish/v1/Systems/1 (适用于低版本)
    磁盘阵列数据 MB /redfish/v1/Systems/1/SimpleStorage
  5. Huawei:
    • SNMP:

      这是来自HUAWEI-SERVER-IBMC-MIB.mib的OID,用于硬件数据收集:

      • 服务编号 - .1.3.6.1.4.1.2011.2.235.1.1.1.7
      • UUID - .1.3.6.1.4.1.2011.2.235.1.1.1.22
      类别 单位 传感器名称  传感器状态 传感器值
      风扇 转每分 .1.3.6.1.4.1.2011.2.235.1.1.8.50.1.7 .1.3.6.1.4.1.2011.2.235.1.1.8.50.1.4 .1.3.6.1.4.1.2011.2.235.1.1.8.50.1.2
      温度 摄氏度 .1.3.6.1.4.1.2011.2.235.1.1.26.50.1.2 Nil .1.3.6.1.4.1.2011.2.235.1.1.26.50.1.3
      功率 瓦特 .1.3.6.1.4.1.2011.2.235.1.1.6.50.1.13 .1.3.6.1.4.1.2011.2.235.1.1.6.50.1.7 .1.3.6.1.4.1.2011.2.235.1.1.6.50.1.8
      处理器 兆赫 .1.3.6.1.4.1.2011.2.235.1.1.15.50.1.10 .1.3.6.1.4.1.2011.2.235.1.1.15.50.1.6 .1.3.6.1.4.1.2011.2.235.1.1.15.50.1.5
      内存 MB .1.3.6.1.4.1.2011.2.235.1.1.16.50.1.10 .1.3.6.1.4.1.2011.2.235.1.1.16.50.1.6 .1.3.6.1.4.1.2011.2.235.1.1.16.50.1.4
      磁盘阵列数据 MB .1.3.6.1.4.1.2011.2.235.1.1.18.50.1.6 .1.3.6.1.4.1.2011.2.235.1.1.18.50.1.3 .1.3.6.1.4.1.2011.2.235.1.1.18.50.1.12
    • API:

      用于Huawei设备监控的基础API调用:

      /redfish/v1/Systems/1

      根据需要监控的传感器集,最后需要修改的API如下所示:

      类别 单位 获取传感器详细信息的API
      风扇, 温度 转每分 (风扇), 摄氏度 (温度) /redfish/v1/Chassis/1/Thermal
      功率, 电压 瓦特 (功率), 伏特 (电压) /redfish/v1/Chassis/1/Power
      处理器 兆赫 /redfish/v1/Systems/1/Processors
      内存 MB /redfish/v1/Systems/1/Memory
  6. H3C:

    用于 HH3C-SERVER-AGENT-MIB 下基于IPMI硬件监控的OID如下所示:

    1. 供应商 - .1.3.6.1.4.1.25506.13.1.2.2.8.2
    2. UUID - .1.3.6.1.4.1.25506.13.1.2.2.8.3
    类别 单位 传感器名称 传感器状态 传感器值
    风扇 转每分 .1.3.6.1.4.1.25506.13.1.2.1.1.10.1.1.2 .1.3.6.1.4.1.25506.13.1.2.1.1.10.1.1.8 .1.3.6.1.4.1.25506.13.1.2.1.1.10.1.1.5
    温度 摄氏度 .1.3.6.1.4.1.25506.13.1.2.1.1.11.3.1.3 .1.3.6.1.4.1.25506.13.1.2.1.1.11.3.1.6 .1.3.6.1.4.1.25506.13.1.2.1.1.11.3.1.4
    功率 瓦特 .1.3.6.1.4.1.25506.13.1.2.1.1.7.1.1.1.14 .1.3.6.1.4.1.25506.13.1.2.1.1.7.1.1.1.13 .1.3.6.1.4.1.25506.13.1.2.1.1.7.1.1.1.10
    处理器 兆赫 .1.3.6.1.4.1.25506.13.1.2.1.1.1.1.1.15 .1.3.6.1.4.1.25506.13.1.2.1.1.1.1.1.14 .1.3.6.1.4.1.25506.13.1.2.1.1.1.1.1.3
    内存 MB .1.3.6.1.4.1.25506.13.1.2.1.1.2.2.1.4 .1.3.6.1.4.1.25506.13.1.2.1.1.2.2.1.16 .1.3.6.1.4.1.25506.13.1.2.1.1.2.2.1.6
    磁盘阵列数据 MB .1.3.6.1.4.1.25506.13.1.2.1.1.9.3.1.12 .1.3.6.1.4.1.25506.13.1.2.1.1.9.3.1.11 .1.3.6.1.4.1.25506.13.1.2.1.1.9.3.1.9

基于硬件状态码的告警

下面的列表涵盖了对应于每个供应商协议组合的状态代码,并指定了基于这些代码触发的告警的严重性。

  1. Dell iDrac (SNMP)

    磁盘阵列数据:

    • 未知 - 1, 4, 8
    • 正常 - 2, 3, 10
    • 注意 - 5, 9
    • 故障 - 6
    • 临界 - 7

    其他传感器:

    • 未知 - 1, 2
    • 正常 - 3, 4
    • 临界 - 5
    • 故障 - 6
  2. Dell iDrac (API)
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  3. IBM IMM (SNMP)

    状态消息在IMM中作为字符串传递,因此在相关告警中只能提出以下严重情况:

    • 未知 - 状态字符串包含 "Unknown"
    • 正常 - 状态字符串包含 "Normal"
    • 注意 -状态字符串包含 "Warning"
    • 临界 -状态字符串包含 "Error" or "Critical"
  4. HP iLO (API)
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
    HP iLO4 (DIMM)

    HP iLO4是iLO系列中的第四代产品,下面是与其各自的内存状态对应的状态字符串:

    • 未知 - 状态字符串包含以下几种:
      • "Other"
      • "NotPresent"
      • "NotSupported"
      • "DoesNotMatch"
    • 正常 - 状态字符串包含以下几种:
      • "GoodInUse"
      • "AddedButUnused"
      • "GoodPartiallyInUse"
      • "PresentSpare"
      • "PresentUnused"
      • "UpgradedButUnused"
    • 注意 - 状态字符串包含以下几种:
      • "ConfigurationError"
      • "Degraded"
      • "ExpectedButMissing"
  5. SuperMicro
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  6. SuperMicro
    • 未知 - 状态字符串包含 "null"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  7. Huawei (SNMP)
    • 未知 - 5, 6
    • 正常 - 1
    • 临界 - 4
    • 注意 - 2
    • 故障 - 3
  8. Huawei (API)
    • 未知 - 状态字符串包含 "null" or "Unknown"
    • 正常 - 状态字符串包含 "OK"
    • 临界 - 状态字符串包含 "Critical"
    • 注意 - 状态字符串包含 "Warning"
  9. H3C
    • 未知 - 0, 1
    • 正常 - 2
    • 临界 - 5
    • 注意 - 3
    • 故障 - 4