硬件监视的先决条件

必须监控网络中各种关键设备的硬件组件,以确保持续的服务可用性和网络正常运行时间。OpManager是先进的硬件监控解决方案,支持监控来自Cisco、Juniper、HP和Dell等供应商的服务器和网络设备的硬件状态。它通过网络和服务器设备(包括 HyperV 主机)的 SNMP 和 VMware ESX/ESXi 主机的 vSphere 监控各种重要的硬件参数,例如电压、温度、功率、风扇速度、处理器等。OpManager为您的网络提供深入的服务器和硬件监控功能。

HP/戴尔服务器的先决条件:

惠普:

如果未显示硬件传感器监视器,请确保在该服务器上安装了以下工具:

  • HP Insight 服务器代理
  • HP Insight Foundation 代理
  • HP Insight 存储代理

 Dell:

如果未显示硬件传感器监视器,请确保该服务器上已安装 Dell OpenManage

对于 Supermicro:

Supermicro 的 SuperDoctor 代理必须安装在被监控的服务器上,以监控硬件指标。

硬件选项卡在哪里?

如果发现缺少硬件选项卡,请按照以下步骤操作:

1. 检查以下设备类型的传感器信息
3. 检查硬件状态

1. 如果设备是 VMware ESX/ESXi 主机:

OpManager的硬件监控使用VMware API中的hardwareStatusInfonumericSensorInfo方法来轮询VMware环境中设备的硬件状态和统计信息。为确保硬件监视正常工作,请使用以下 MOB 链接检查传感器信息在 MOB 上是否可用:

  • 如果发现 ESX:
    • 对于 numericSensorInfo:

    https://<<hostname/IPAddress>>/mob/?moid=ha-host&doPath=runtime.healthSystemRuntime.systemHealthInfo.numericSensorInfo

    • 对于hardwareStatusInfo (cpuStatusInfo / memoryStatusInfo / storageStatusInfo):

      https://<<hostname/IPAddress>>/mob/?moid=ha-host&doPath=runtime.healthSystemRuntime.hardwareStatusInfo

  • 如果发现 vCenter,请执行以下操作:

    https://<<vcentrename/IPAdress>>/mob/?

    登录 MOB 后,导航到下面给出的路径,并检查是否为这两种方法输入值:
    • 对于 numericSensorInfo:content → rootFolder → childEntity → hostFolder → childEntity [选择适当的主机] → host →运行时 → healthSystemRuntime → systemHealthInfo → numericSensorInfo
    • 对于 hardwareStatusInfo: content → rootFolder → childEntity → hostFolder → childEntity [选择适当的主机] → 主机→运行时 → healthSystemRuntime → hardwareStatusInfo → cpuStatusInfo(或) memoryStatusInfo(或) storageStatusInfo
    请注意,OpManager会根据可用的颜色值发出告警(如果颜色不是“绿色”,则会发出告警)。如果传感器不可用,请在该主机上安装 VMware 工具。

2. 如果设备是 HP/Dell/Cisco/Juniper/Palo Alto 设备:

查询以下 OID,并检查它是否响应所有 OID,如果响应,则重新发现设备。如果它没有响应,则OpManager将不会显示选项卡。

    <
  • >HP(仅限服务器):
    OID 参数
    .1.3.6.1.4.1.232.11.2.2.1.0 Operating System
    .1.3.6.1.4.1.232.11.2.2.2.0 OS Version
    .1.3.6.1.4.1.232.2.2.4.2.0 Model
    .1.3.6.1.4.1.232.2.2.2.6.0 Service tag
    .1.3.6.1.4.1.232.2.2.2.1.0 Serial number
  • Dell:

    OID 参数
    .1.3.6.1.4.1.674.10892.1.300.10.1.8.1 Manufacturer
    .1.3.6.1.4.1.674.10892.1.300.10.1.9.1 Model
    .1.3.6.1.4.1.674.10892.1.300.10.1.11.1 Service Tag
    .1.3.6.1.4.1.674.10892.1.400.10.1.6.1 Operating System
    .1.3.6.1.4.1.674.10892.1.400.10.1.7.1 OS Version
  • Cisco / HP交换机:

    OID 参数
    .1.3.6.1.2.1.47.1.1.1.1.13.1 Hardware Model
    .1.3.6.1.2.1.47.1.1.1.1.11.1 Serial number
  • Juniper:

    OID 参数
    .1.3.6.1.4.1.2636.3.1.2.0 Model
    .1.3.6.1.4.1.2636.3.1.3.0 Serial Number
  • Huawei switches:

    OID 参数
    .1.3.6.1.2.1.47.1.1.1.1.10 OS version
    .1.3.6.1.2.1.47.1.1.1.1.11 Serial Number
    .1.3.6.1.4.1.2011.5.25.31.6.5.0 Model
    .1.3.6.1.2.1.47.1.1.1.1.12 Manufacturer
  • Palo Alto firewalls:

    OID 参数
    .1.3.6.1.4.1.25461.2.1.2.1.1.0 OS version
    .1.3.6.1.4.1.25461.2.1.2.1.3.0 Serial Number
    .1.3.6.1.2.1.47.1.1.1.1.13.1 Model
    .1.3.6.1.2.1.47.1.1.1.1.12.1 Manufacturer

1. 检查是否在硬件→监控→监控设置下启用了硬件监控。

2. 在设备快照→硬件选项卡中检查是否为各个设备启用了硬件监控(导航到清单->设备,然后单击设备以打开其快照页面。

3. 抑制硬件告警:

  1. 检查相应设备的硬件告警是否已在OpManager中被禁止。
  2. 要抑制所有设备的所有硬件告警:转到硬件选项卡→监控→监控设置然后单击硬件部分下的抑制告警
  3. 您还可以转到“设备快照”页面中的硬件选项卡,并禁止特定设备的硬件告警。

4. 检查硬件状态是否未更新:

为了让OpManager监控设备的硬件,请检查以下OID是否正确响应。

  • 对于Cisco设备:

    支持的 MIB:Cisco-envmon-mib |ENTITY-MIB MIB
    (所有使用这些MIB的Cisco设备都可以使用OpManager进行监控)

    .1.3.6.1.2.1.47.1.1.1.1.13.1 - HW_MODEL
    .1.3.6.1.2.1.47.1.1.1.1.11.1 - HW Serial num

    指标类型 对应指标名称的 OID 相应指标状态的 OID 对应指标值的 OID
    温度 .1.3.6.1.4.1.9.9.13.1.3.1.2
    (TemperatureStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.3.1.3
    (TemperatureStatusValue)
    .1.3.6.1.4.1.9.9.13.1.3.1.6
    (TemperatureState)
    电压 .1.3.6.1.4.1.9.9.13.1.2.1.2
    (VoltageStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.2.1.3
    (VoltageStatusValue)
    .1.3.6.1.4.1.9.9.13.1.2.1.7
    (VoltageState)
    风扇 .1.3.6.1.4.1.9.9.13.1.4.1.2
    (FanStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.4.1.3
    (FanState)
    NA
    电源 .1.3.6.1.4.1.9.9.13.1.5.1.2
    (SupplyStatusDescr)
    .1.3.6.1.4.1.9.9.13.1.5.1.3
    (SupplyState)
    NA
  • 对于 Cisco Nexus 设备:

    支持的MIB:CISCO-ENTITY-FRU-CONTROL-MIB
    (可以使用OpManager监控所有使用此MIB的Cisco Nexus设备)

    指标类型 OID
    电源 .1.3.6.1.4.1.9.9.117.1.1.2.1.1
    {FRUPowerAdminStatus)
    .1.3.6.1.4.1.9.9.117.1.1.2.1.2
    (FRUPowerOperStatus)
    .1.3.6.1.4.1.9.9.117.1.1.2.1.3
    (FRUCurrent)
    风扇 .1.3.6.1.4.1.9.9.117.1.4.1.1.1
    (FanTrayOperStatus)

    Cisco Nexus 设备中的温度: 对于温度,这里也使用了不同的MIB(CISCO-ENTITY-SENSOR-MIB.php)。

    要检查温度传感器是否响应正常,请按照下列步骤操作:

    1. 对以下 OID 执行 SNMP 遍历:.1.3.6.1.4.1.9.9.91.1.1.1.1.1 (entPhySensorType)
    2. 在收到的响应列表中,找到哪个 OID 回复了Celsius(8)并记下。这是温度传感器的实例 ID。例如,假设 OID .1.3.6.1.4.1.9.9.91.1.1.1.1.1.X 已响应Celsius(8)
    3. 实例 ID X现在可用于从设备查询与温度相关的数据:
      1. .1.3.6.1.2.1.47.1.1.1.1.7.X - entPhysicalName ( ENTITY-MIB)
      2. .1.3.6.1.4.1.9.9.91.1.1.1.1.5.X - entSensorStatus (CISCO-ENTITY-SENSOR-MIB.php)
      3. .1.3.6.1.4.1.9.9.91.1.1.1.1.4.X - entSensorValue (CISCO-ENTITY-SENSOR-MIB.php)
    4. 示例:
    5. 在 .1.3.6.1.4.1.9.9.91.1.1.1.1.1 (entPhySensorType) 上执行遍历。
    6. OID .1.3.6.1.4.1.9.9.91.1.1.1.1.1.A 已回复Celsius(8)。现在 A 是我们的实例 ID。
    7. 现在,我们可以使用此实例 ID 从设备获取相应实例的数据:

      OID 描述 正在使用的 MIB 获得的响应
      .1.3.6.1.2.1.47.1.1.1.1.7.A entPhysicalName ENTITY-MIB module-1 FRONT
      .1.3.6.1.4.1.9.9.91.1.1.1.1.5.A entSensorStatus CISCO-ENTITY-SENSOR-MIB.php ok(1)
      .1.3.6.1.4.1.9.9.91.1.1.1.1.4.A entSensorValue CISCO-ENTITY-SENSOR-MIB.php 37
  • 对于 Cisco ASA 和 Palo Alto 设备:

    支持的MIB:ENTITY-MIB、ENTITY-SENSOR-MIB

    对于Cisco ASA和Palo Alto设备,OpManager主要监控电源、温度和风扇速度。类型 OID .1.3.6.1.2.1.99.1.1.1.1) 返回传感器的类型,以下是相应类型的响应:

    Temperature - 8 | Power - 6 | Fan - 10

    通过执行类型 OID(.1.3.6.1.2.1.99.1.1.1.1.X) 接收的实例 ID 稍后可用于获取其他硬件指标的值

    • .1.3.6.1.2.1.47.1.1.1.1.7.X - Name
    • .1.3.6.1.2.1.99.1.1.1.5.X - Status
    • .1.3.6.1.2.1.99.1.1.1.4.X - Value

    例如,假设在设备上对 OID 类型 (.1.3.6.1.2.1.99.1.1.1.1.1) 执行 SNMP 遍历,并返回以下响应:

      .1.3.6.1.2.1.99.1.1.1.1.A → 10
    .1.3.6.1.2.1.99.1.1.1.1.B → 2
    .1.3.6.1.2.1.99.1.1.1.1.C → 6
    .1.3.6.1.2.1.99.1.1.1.1.D → 8
    .1.3.6.1.2.1.99.1.1.1.1.E → 6

    由于OpManager的硬件监控仅支持Cisco ASA和Palo Alto设备的风扇、电源和温度传感器,因此会记录仅返回6、8和10作为响应的实例ID。这些是必须查询才能检索数据的实例。OpManager允许您查询实例ID,以获取每个实例的名称、状态和值。若要在给定设备上执行硬件监视,以下 OID 必须在查询时做出响应:

    响应 指标类型 实例 ID 相应指标标识符的 OID 相应指标状态的 OID 对应指标值的 OID
    6 电源 C .1.3.6.1.2.1.47.1.1.1.1.7.C .1.3.6.1.2.1.99.1.1.1.5.C .1.3.6.1.2.1.99.1.1.1.4.C
    6 电源 E .1.3.6.1.2.1.47.1.1.1.1.7.E .1.3.6.1.2.1.99.1.1.1.5.E .1.3.6.1.2.1.99.1.1.1.4.E
    8 温度 D .1.3.6.1.2.1.47.1.1.1.1.7.D .1.3.6.1.2.1.99.1.1.1.5.D .1.3.6.1.2.1.99.1.1.1.4.D
    10 风扇 A .1.3.6.1.2.1.47.1.1.1.1.7.A .1.3.6.1.2.1.99.1.1.1.5.A .1.3.6.1.2.1.99.1.1.1.4.A
  • 对于 Cisco ASR/ISR 设备:

    支持的MIB:ENTITY-MIB、CISCO-ENTITY-SENSOR-MIB

    对于Cisco ASR/ISR设备,OpManager主要监控电源、温度和风扇速度。类型 OID (.1.3.6.1.4.1.9.9.91.1.1.1.1.1) 返回传感器的类型,以下是相应类型的响应:

    Temperature - 8 | Power - 6 | Fan - 10

    通过执行类型 OID (.1.3.6.1.4.1.9.9.91.1.1.1.1.1.X) 收到的实例 ID 稍后可用于获取其他硬件指标的值。

    • .1.3.6.1.2.1.47.1.1.1.1.7.- 名称
    • .1.3.6.1.4.1.9.9.91.1.1.1.1.5.- 状态
    • .1.3.6.1.4.1.9.9.91.1.1.1.1.4.- 值

    例如,考虑在 Cisco ASA 设备上以 OID 类型 (.1.3.6.1.4.1.9.9.91.1.1.1.1.1.1) 执行 SNMP 遍历,并返回以下响应:

      .1.3.6.1.4.1.9.9.91.1.1.1.1.1.A → 10
    .1.3.6.1.4.1.9.9.91.1.1.1.1.1.B → 2
    .1.3.6.1.4.1.9.9.91.1.1.1.1.1.C → 6
    .1.3.6.1.4.1.9.9.91.1.1.1.1.1.D → 8
    .1.3.6.1.4.1.9.9.91.1.1.1.1.1.E → 6

    要在给定的 Cisco ISR/ASR 设备上执行硬件监控,以下 OID 必须在查询时做出响应:

    响应 指标类型 实例 ID 相应指标标识符的 OID 相应指标状态的 OID 对应指标值的 OID
    6 电源 C .1.3.6.1.2.1.47.1.1.1.1.7.C .1.3.6.1.4.1.9.9.91.1.1.1.1.5.C .1.3.6.1.4.1.9.9.91.1.1.1.1.4.C
    6 电源 E .1.3.6.1.2.1.47.1.1.1.1.7.E .1.3.6.1.4.1.9.9.91.1.1.1.1.5.E .1.3.6.1.4.1.9.9.91.1.1.1.1.4.E
    8 温度 D .1.3.6.1.2.1.47.1.1.1.1.7.D .1.3.6.1.4.1.9.9.91.1.1.1.1.5.D .1.3.6.1.4.1.9.9.91.1.1.1.1.4.D
    10 风扇 A .1.3.6.1.2.1.47.1.1.1.1.7.A .1.3.6.1.4.1.9.9.91.1.1.1.1.5.A .1.3.6.1.4.1.9.9.91.1.1.1.1.4.A
  • 对于 HP 交换机:

    通过以下两种方式从 HP 交换机检索数据:

    - I) 使用 HP-ICF-CHASSIS MIB

    思科设备和HP交换机使用相同的OID来获取序列号和型号等静态信息。

    支持的MIB:HP-ICF-CHASSIS (仅向我们提供传感器的状态,不提供任何值。因此,无法获得任何图形。

    对于HP交换机,OpManager主要监控电源、温度和风扇速度。类型 OID .1.3.6.1.4.1.11.2.14.11.1.2.6.1.2) 返回传感器的类型,以下是相应类型的响应中将包含的值:

    "icfTemperatureSensor" or "2.3.7.8.3.3" - Temperature
    "icfPowerSupplySensor"
    or "2.3.7.8.3.1" - Power
    "icfFanSensor"
    or "2.3.7.8.3.2" - Fan 

    通过执行类型 OID (.1.3.6.1.4.1.11.2.14.11.1.2.6.1.2.X) 收到的实例 ID X 稍后可用于获取其他硬件指标的值。

    • .1.3.6.1.4.1.11.2.14.11.1.2.6.1.7.X - Name
    • .1.3.6.1.4.1.11.2.14.11.1.2.6.1.4.X - Status

    例如,考虑在 HP 交换机上执行的 SNMP 遍历,类型为 OID (.1.3.6.1.4.1.11.2.14.11.1.2.6.1.2),响应包含以下值:

    .1.3.6.1.4.1.11.2.14.11.1.2.6.1.2.A ->.1.3.6.1.4.1.11.2.3.7.8.3.2
     .1.3.6.1.4.1.11.2.14.11.1.2.6.1.2.B ->.1.3.6.1.4.1.11.2.3.7.8.3.3
    .1.3.6.1.4.1.11.2.14.11.1.2.6.1.2.C ->.1.3.6.1.4.1.11.2.3.7.8.3.1

    返回上述响应的实例 ID 将被记录和查询,以便检索数据。OpManager允许您查询实例ID,以获取每个实例的名称和状态。要在给定的 HP 交换机上执行硬件监控,以下 OID 必须在查询时做出响应:

    响应包含 指标类型 实例 ID 相应指标标识符的 OID 相应指标状态的 OID
    "icfPowerSupplySensor" or "2.3.7.8.3.1" 电源 C .1.3.6.1.4.1.11.2.14.11.1.2.6.1.7.C .1.3.6.1.4.1.11.2.14.11.1.2.6.1.4.C
    "icfTemperatureSensor" or "2.3.7.8.3.3" 温度 B .1.3.6.1.4.1.11.2.14.11.1.2.6.1.7.B .1.3.6.1.4.1.11.2.14.11.1.2.6.1.4.B
    "icfFanSensor" or "2.3.7.8.3.2" 风扇 A .1.3.6.1.4.1.11.2.14.11.1.2.6.1.7.A .1.3.6.1.4.1.11.2.14.11.1.2.6.1.4.A

    - II) 对每个传感器类别使用来自不同 MIB 的 OID:

    支持的MIB:FAN-MIB、HP-ICF-CHASSIS-MIB(hpSystemAirTempEntry 树)、POWERSUPPLY-MIB

    指标类型 对应指标名称的 OID 相应指标状态的 OID 对应指标值的 OID
    电源 .1.3.6.1.4.1.11.2.14.11.5.1.55.1.1.1.5 .1.3.6.1.4.1.11.2.14.11.5.1.55.1.1.1.2 .1.3.6.1.4.1.11.2.14.11.5.1.55.1.1.1.6
    温度 .1.3.6.1.4.1.11.2.14.11.1.2.8.1.1.2 .1.3.6.1.4.1.11.2.14.11.1.2.8.1.1.6 .1.3.6.1.4.1.11.2.14.11.1.2.8.1.1.3
    风扇 .1.3.6.1.4.1.11.2.14.11.5.1.54.2.1.1.3 .1.3.6.1.4.1.11.2.14.11.5.1.54.2.1.1.4 NA
  • Checkpoint设备:

    支持的MIB:CHECKPOINT-MIB
    (所有使用这些MIB的检查点设备都可以使用OpManager进行监控)

    指标类型 对应指标名称的 OID 相应指标状态的 OID 对应指标值的 OID
    电压 .1.3.6.1.4.1.2620.1.6.7.8.3.1.2
    (voltageSensorName)
    1.3.6.1.4.1.2620.1.6.7.8.3.1.6
    (voltageSensorStatus)
    .1.3.6.1.4.1.2620.1.6.7.8.3.1.3
    (voltageSensorValue)
    风扇 .1.3.6.1.4.1.2620.1.6.7.8.2.1.2
    (fanSpeedSensorName )
    1.3.6.1.4.1.2620.1.6.7.8.2.1.6
    (fanSpeedSensorStatus)
    1.3.6.1.4.1.2620.1.6.7.8.2.1.3
    (fanSpeedSensorValue)
    温度 .1.3.6.1.4.1.2620.1.6.7.8.1.1.2
    (tempertureSensorName)
    .1.3.6.1.4.1.2620.1.6.7.8.1.1.6
    (tempertureSensorStatus )
    1.3.6.1.4.1.2620.1.6.7.8.1.1.3
    (tempertureSensorValue)
  • 对于 HP 服务器:

    支持的 MIB:CPQHOST-MIB |CPQHLTH-MIB |CPQSINFO-Mib
    (所有使用这些MIB的HP服务器都可以使用OpManager进行监控)

    指标类型 对应指标名称的 OID 相应指标状态的 OID 对应指标值的 OID
    温度 .1.3.6.1.4.1.232.6.2.6.8.1.8
    (TemperatureHwLocation)
    (或者)
    .1.3.6.1.4.1.232.6.2.6.8.1.3
    (TemperatureLocale)
    .1.3.6.1.4.1.232.6.2.6.8.1.6 .1.3.6.1.4.1.232.6.2.6.8.1.4
    风扇 .1.3.6.1.4.1.232.6.2.6.7.1.11
    (FanHwLocation)
    (或者)
    .1.3.6.1.4.1.232.6.2.6.7.1.3
    (FanLocale)
    .1.3.6.1.4.1.232.6.2.6.7.1.9
    (FanCondition)
    .1.3.6.1.4.1.232.6.2.6.7.1.12
    (FanCurrentSpeed)
    处理器 .1.3.6.1.4.1.232.1.2.2.1.1.3
    (CpuName)
    .1.3.6.1.4.1.232.1.2.2.1.1.6
    CpuStatus)
    .1.3.6.1.4.1.232.1.2.2.1.1.4
    (CpuSpeed)
    电源 .1.3.6.1.4.1.232.6.2.9.3.1.11
    (PowerSupplySerialNumber)
    .1.3.6.1.4.1.232.6.2.9.3.1.4
    (PowerSupplyCondition)
    .1.3.6.1.4.1.232.6.2.9.3.1.8
    (PowerSupplyCapacityMaximum)
    分区详情 .1.3.6.1.4.1.232.11.2.4.1.1.2
    (FileSysDesc)
    .1.3.6.1.4.1.232.11.2.4.1.1.8
    (FileSysStatus)
    .1.3.6.1.4.1.232.11.2.4.1.1.5
    FileSysPercentSpaceUsed)
    内存 .1.3.6.1.4.1.232.6.2.14.12.1.3
    (BoardCpuNum)
    .1.3.6.1.4.1.232.6.2.14.12.1.11
    (BoardCondition)
    .1.3.6.1.4.1.232.6.2.14.12.1.9
    (BoardOsMemSize)
  • 对于戴尔服务器:

    支持的MIB:DELL-RAC-MIB公司 |存储管理-MIB.mib |MIB-Dell-10892.mib
    (所有使用这些MIB的戴尔服务器都可以使用OpManager进行监控)

    标类型 对应指标名称的 OID 相应指标状态的 OID 对应指标值的 OID
    温度 .1.3.6.1.4.1.674.10892.1.700.20.1.8
    (ProbeLocationName)
    .1.3.6.1.4.1.674.10892.1.700.20.1.5
    (ProbeStatus)
    .1.3.6.1.4.1.674.10892.1.700.20.1.6
    (ProbeReading)
    风扇 .1.3.6.1.4.1.674.10892.1.700.12.1.8
    (DeviceLocationName)
    .1.3.6.1.4.1.674.10892.1.700.12.1.5
    (DeviceStatus)
    .1.3.6.1.4.1.674.10892.1.700.12.1.6
    (DeviceReading)
    处理器 .1.3.6.1.4.1.674.10892.1.1100.30.1.23
    (DeviceBrandName)
    .1.3.6.1.4.1.674.10892.1.1100.30.1.5
    (DeviceStatus)
    .1.3.6.1.4.1.674.10892.1.1100.30.1.11
    (DeviceMaximumSpeed)
    电源 .1.3.6.1.4.1.674.10892.1.600.60.1.6
    (EntityName)
    .1.3.6.1.4.1.674.10892.1.600.60.1.5
    (Status)
    .1.3.6.1.4.1.674.10892.1.600.60.1.9
    (PeakWatts)
    电压 .1.3.6.1.4.1.674.10892.1.600.20.1.8
    (ProbeLocationName)
    .1.3.6.1.4.1.674.10892.1.600.20.1.5
    (ProbeStatus)
    .1.3.6.1.4.1.674.10892.1.600.20.1.6
    (ProbeReading)
    磁盘阵列数据 .1.3.6.1.4.1.674.10893.1.20.130.4.1.2
    (arrayDiskName)
    .1.3.6.1.4.1.674.10893.1.20.130.4.1.4
    (arrayDiskStatus)
    .1.3.6.1.4.1.674.10893.1.20.130.4.1.17
    (arrayDiskUsedSpaceInMB)
    电池 .1.3.6.1.4.1.674.10892.1.600.50.1.7
    (LocationName)
    .1.3.6.1.4.1.674.10892.1.600.50.1.5
    (Status)
    .1.3.6.1.4.1.674.10892.1.600.50.1.4
    (StateSettings)
  • 华为交换机

    支持MIB:HUAWEI-ENTITY-EXTENT-MIB

    指标类型 相应指标状态的 OID 对应指标值的 OID
    风扇 .1.3.6.1.4.1.2011.5.25.31.1.1.10.1.7 .1.3.6.1.4.1.2011.5.25.31.1.1.10.1.5
    电源 .1.3.6.1.4.1.2011.5.25.31.1.1.18.1.6 -

  • 对于JUNIPER网络设备:

    支持的MIB:JUNIPER-MIB
    (所有使用这些MIB的JUNIPER网络设备都可以使用OpManager进行监控)

    • 对于Juniper网络设备,在 OID 1.3.6.1.4.1.2636.3.1.15.1.6 上执行遍历会为我们提供Juniper网络设备中存在的所有硬件组件或“现场可更换单元”(FRU) 的列表。OpManager主要监控电源、温度和风扇速度,以下是相应FRU类型的响应:

      Temperature - 6 | Power - 7 | Fan - 13

    • 将记录使用这些值响应的实例,并且实例的后缀可用于获取该 FRU 的数据。

      例如,假设在Juniper网络设备上的 FruType OID (1.3.6.1.4.1.2636.3.1.15.1.6) 上执行 SNMP 遍历,并返回以下响应:

       

      1.3.6.1.4.1.2636.3.1.15.1.6.A → 13
      1.3.6.1.4.1.2636.3.1.15.1.6.B → 6
      1.3.6.1.4.1.2636.3.1.15.1.6.C → 7
      1.3.6.1.4.1.2636.3.1.15.1.6.D → 2
      1.3.6.1.4.1.2636.3.1.15.1.6.E → 6

      注意:A、B、C、D、E 的值可以是 1 到 4 个八位字节之间的任何值,即它们的值可以是 'z'、'z.y'、'z.y.x' 或 'z.y.x.w'

       

    • 现在,我们将返回 6(或)7(或)13的实例作为响应,并记下它们的实例 ID。此处,A、B、C 和 E 是提供所需响应的实例。因此,这些是OpManager应该能够查询的实例,以便在该设备上执行硬件监控。

    • 现在我们知道了实例 ID,我们可以使用它们来检查是否可以从该实例查询所需的参数。
      OpManager查询每个实例的名称、状态和值。因此,如果要在给定的Juniper网络设备上执行硬件监视,则在查询时必须响应以下 OID:

       

      FruType 的响应 指标类型 实例 ID 相应指标标识符 (OperatingDescr) 的 OID 相应指标状态的 OID (OperatingState) 相应指标值 (OperatingTemp) 的 OID
      6 温度 B .1.3.6.1.4.1.2636.3.1.13.1.5.B .1.3.6.1.4.1.2636.3.1.13.1.6.B .1.3.6.1.4.1.2636.3.1.13.1.7.B
      6 温度 E .1.3.6.1.4.1.2636.3.1.13.1.5.E .1.3.6.1.4.1.2636.3.1.13.1.6.E .1.3.6.1.4.1.2636.3.1.13.1.7.E
      7 电源 C .1.3.6.1.4.1.2636.3.1.13.1.5.C .1.3.6.1.4.1.2636.3.1.13.1.6.C NA
      13 风扇 A .1.3.6.1.4.1.2636.3.1.13.1.5.A .1.3.6.1.4.1.2636.3.1.13.1.6.A NA
  • 对于Supermicro设备(OpManager v12.5.216支持):

    支持的MIB: SUPERMICRO-SSM-MIB

    先决条件:必须安装 Supermicro 的 Superdoctor 代理才能通过 OpManager 监控硬件指标。

    Hardware Manufacturer - .1.3.6.1.4.1.10876.100.1.6.1.10.1
    OS - .1.3.6.1.4.1.10876.100.1.7.1.6.1
    OS Version - .1.3.6.1.4.1.10876.100.1.7.1.7.1

      • 对于 Supermicro 设备,该过程与上面提到的瞻博网络设备类似。
      • 最初,必须在此 OID 上执行 SNMP 遍历:.1.3.6.1.4.1.1.10876.2.1.1.1.1.3。下面记下了提供以下任一响应的 OID:

        0 - Fan | 1 - Voltage | 2 - Temperature | 8 - Power

      • 提供任何这些响应的 OID 中的实例 ID X (.1.3.6.1.4.1.1.10876.2.1.1.1.1.3.然后,X) 可用于获取该硬件指标的值。
        • .1.3.6.1.4.1.10876.2.1.1.1.1.2.X - smHealthMonitorName - 名称
        • .1.3.6.1.4.1.10876.2.1.1.1.1.4.X - smHealthMonitorReading -值
        • .1.3.6.1.4.1.10876.2.1.1.1.1.10.X - smHealthMonitorMonitor -状态
        • .1.3.6.1.4.1.10876.2.1.1.1.1.5.X - smHealthMonitorHighLimit - 最大阈值
        • .1.3.6.1.4.1.10876.2.1.1.1.1.6.X - smHealthMonitorLowLimit - 最小阈值
    例:
    • 考虑在 smHealthMonitorType OID (.1.3.6.1.4.1.1.10876.2.1.1.1.1.3.) 上执行 SNMP 遍历。现收到以下答复:
    • .1.3.6.1.4.1.10876.2.1.1.1.1.3.A → 0
    • .1.3.6.1.4.1.10876.2.1.1.1.1.3.B → 8
    • .1.3.6.1.4.1.10876.2.1.1.1.1.3.C → 7
    • .1.3.6.1.4.1.10876.2.1.1.1.1.3.D → 2
    • .1.3.6.1.4.1.10876.2.1.1.1.1.3.E → 1
    • 将采用以 0(风扇)、1(电压)、2(温度)或 8(电源)响应的 OID,并记录其实例 ID。在本例中,实例为 A(表示风扇)、B(表示电源)、D(表示温度)和 E(表示电压)
    • 现在,这些实例 ID 可用于从设备轮询该传感器的相关信息。

      响应 / 指标类型 / 实例 ID 指标名称的 OID 指标值的 OID 指标状态的 OID 指标最大阈值的 OID 指标最小阈值的 OID
      0 / Fan / A .1.3.6.1.4.1.10876.2.1.1.1.1.2.A .1.3.6.1.4.1.10876.2.1.1.1.1.4.A .1.3.6.1.4.1.10876.2.1.1.1.1.10.A .1.3.6.1.4.1.10876.2.1.1.1.1.5.A .1.3.6.1.4.1.10876.2.1.1.1.1.6.A
      8 / Power / B .1.3.6.1.4.1.10876.2.1.1.1.1.2.B .1.3.6.1.4.1.10876.2.1.1.1.1.4.B .1.3.6.1.4.1.10876.2.1.1.1.1.10.B .1.3.6.1.4.1.10876.2.1.1.1.1.5.B .1.3.6.1.4.1.10876.2.1.1.1.1.6.B
      2 / Temp / D .1.3.6.1.4.1.10876.2.1.1.1.1.2.D .1.3.6.1.4.1.10876.2.1.1.1.1.4.D .1.3.6.1.4.1.10876.2.1.1.1.1.10.D .1.3.6.1.4.1.10876.2.1.1.1.1.5.D .1.3.6.1.4.1.10876.2.1.1.1.1.6.D
      1 / Voltage / E .1.3.6.1.4.1.10876.2.1.1.1.1.2.E .1.3.6.1.4.1.10876.2.1.1.1.1.4.E .1.3.6.1.4.1.10876.2.1.1.1.1.10.E .1.3.6.1.4.1.10876.2.1.1.1.1.5.E .1.3.6.1.4.1.10876.2.1.1.1.1.6.E

    • 对于功率和电压,我们将获得的值除以 1000 以显示正确的值。
    • 状态指标通常只响应两个值 - 1 - 管理/正常状态2 - 未管理/未知状态,因此OpManager无法确定设备是否关键。为了显示设备的关键状态,OpManager使用Max Threshold和Min Threshold值来确定性能是否异常。不同传感器类型的阈值违规标准如下:
      1. 风扇:如果状态为 1(管理)且风扇传感器值小于最小阈值,则状态将被视为严重。例如,如果 FV是风扇的当前值:

        if (smHealthMonitorMonitor == 1 && (FV < smHealthMonitorLowLimit) )
        {
          Status = "Critical"
        }
        else
        {
          Status = "Clear"
        }

      2. 温度:如果状态为 1(管理)且温度传感器值大于最大阈值,则状态将被视为严重。例如,如果 TV是温度的当前值:

        if (smHealthMonitorMonitor == 1 && (TV > smHealthMonitorHighLimit) )
        {
          Status = "Critical"
        }
        else
        {
          Status = "Clear"
        }

      3. 电压和功率:如果状态为 1(管理),并且传感器值小于 最小阈值Val 或大于最大阈值Val,则将其视为严重。例如,如果 PV是功率/电压的当前值:

        if( (smHealthMonitorMonitor == 1) && ((PV < Min threshold value) || (PV > Max threshold value)) )
        {
          Status = "Critical"
        }
        else
        {
          Status = "Clear"
        }

    注意:

    以下是来自各种支持供应商的设备的硬件传感器状态响应(VMware 主机不适用):

    HP: 1 - 未知 | 2 - 正常 | 3 - 有问题的 | 4 - 危急的

    Dell: 1 - 未知 | 2- 未知 | 3 - 正常 | 4 - 有问题的 | 5 - 危急的 | 6 - 服务停止

    Cisco: 1 - 正常的 | 2 - 有问题的 | 3 - 危急的 | 4 - 服务停止 | 5- 未知 | 6- 未知

    Cisco Nexus: 2 - 正常的 | 3 - 危急的 | 4 - 有问题的 (任何其他响应都被视为“未知”)

    Cisco Nexus (温度): 1 - 正常的 | 2 - 需要关注的 (不可用) | 3 - 危急的 (不可操作) | 任何其他响应都被视为“未知”

    Cisco ASA/ ISR/ ASR: 1 - 正常的 | 2 - 有问题的 | 3 - 危急的

    HP 交换机: 

    Flow - I) 1 - 未知 | 2 - 危急的 | 3 - 需要关注的 | 4 - 正常 | 5- 未知

    Flow - II) a) Fan: 0 - 危急的 | 1 - 未知 | 2 - 服务停止 | 4 - 需要关注的 | 6 - 有问题的 | 剩余值 - 正常

    b) Temperature: 1 - 危急的 | 2 - 正常

    c) Power: 1 - 未知 | 2- 未知 | 4 - 危急的 | 5 - 需要关注的 | 6 - 有问题的 | 剩余值 - 正常

    Checkpoint: 1 - 正常 | 2 - 有问题的 | 3 - 危急的 | 4 - 服务停止 | 5- 未知 | 6- 未知

    Palo Alto firewalls: 1 - 正常 | 2 - 有问题的 | 3 - 危急的

    Huawei 交换机: 

    a) Fan: 1 - 正常 | 2 - 危急的

    b) Power: 1 - 正常 | 2 - 危急的 | 3 - 需要关注的 | 4- 未知

    Juniper: 1 - 未知 | 2 - 正常 | 3 - 正常 | 4 - 正常 | 5 - 正常 | 6 - 危急的 | 7 - 需要关注的

    Supermicro: 1 -管理/正常 | 2 - 未管理/未知状态

5. 检查是否安装了SNMP:

必须在相应的设备中启用SNMP,因为OpManager主要使用SNMP来查询设备状态和指标。若要在 Linux 设备中安装 SNMP 代理,请按照以下步骤操作。