Ceph存储监控


Ceph存储监控 - 概述

Ceph是一个开放源代码软件平台,旨在从单个分布式计算机集群中提供高度可扩展的基于对象,块和文件的存储。Ceph的主要目标是完全分布而不会出现单点故障,可扩展到EB级,并且可自由使用。

Applications Manager的Ceph存储监视器可帮助监控性能并维护分布式Ceph集群的整体健康状况,确保OSD节点的可用性,主动跟踪放置组的状态和存储可用性。

创建一个新的Ceph存储监视器

支持的Ceph存储版本: v0.66及更高版本,Luminous版本12.2.0及更高版本(我们使用Ceph status命令并以JSON格式获取输出。Ceph v0.66版本支持以JSON返回输出)

监控Ceph存储集群的前提条件:要收集Ceph存储监视器的性能统计信息,应为用户提供ceph.keyring 文件的读取特权。阅读更多

使用REST API添加新的Ceph 存储监视器:点击此处

要创建Ceph 存储监视器,请按照以下步骤操作:

  1. 指定Ceph存储监视器的显示名称
  2. 输入在Ceph的存储集群运行的主机名称IP地址
  3. 选择所需的监控模式(基于Telnet和SSH)。对于SSH,请提供服务器的端口号(默认为22),用户名和密码信息。您还可以选择提供公共密钥身份验证(用户名和公共密钥)。
  4. 在凭证详细信息下,如果选择"使用下方凭证"选项,请根据所选模式提供凭证。如果您选择从凭证管理中的预配置凭证详细信息中获取详细信息,请选择选项"从凭证列表中选择"。
  5. 指定 命令提示符值,它是命令提示符中的最后一个字符。默认值为 $以及可能的值为 >, #, 等。
  6. 输入用户名 密码
  7. 为监控Ceph存储的监视器提供轮询间隔
  8. 如果要从管理服务器添加新监视器,请选择管服务器
  9. 从您要与监视器关联的组合框中选择业务组 (可选)。您可以选择多个组来关联您的监视器。
  10. 点击添加监视器。 这将从网络中发现监视器,然后开始监控它们。

Ceph服务器 - 监控的参数

通过单击 监视器 选项卡,转到 监视器类别视图 。单击 服务 列表下的 Ceph存储。显示的是Ceph 存储批量配置视图,分布在三个选项卡中:

  • 可用性 选项卡, 提供过去24小时或30天的可用性历史记录。
  • 性能 选项卡提供了过去24小时或30天的健康状况和事件。
  • 列表视图 使您可以执行 批量管理配置

单击监视器名称,以查看以下选项卡列出的所有服务器详细信息:

性能概述

参数 描述
PG状态
PGS (Placement groups) 展示placement group数量。
Active PGs 有效展示placement group的总数。(Ceph处理对展示placement group的请求。)
Active+Clean PGs 有效和正确放置组的总数。
  • 有效的PG - Ceph处理对展示placement group的请求。
  • 正确的PG - Ceph复制展示placement group中的所有对象正确的次数。
Active+Remapped PGs 有效和重新映射的展示placement group的总数。
  • 有效的PG - Ceph处理对展示placement group的请求。
  • 重新映射的PG - 放置组被暂时映射到与CRUSH指定的不同的OSD集。
Active+Degraded PGs 有效和降级 展示placement group的总数。
  • 有效的PG - Ceph处理对展示placement group的请求。
  • 降级的PG - Ceph尚未将展示placement group中的某些对象复制正确的次数。
Down+Remapped+Peering 停机,重新映射和对等放置组的总数。
  • 停机PG - 包含必要数据的副本已停机,因此放置组处于脱机状态。
  • 重新映射的PG - 放置组被暂时映射到与CRUSH指定的不同的OSD集。
  • 对等PG - 展示placement group正在进行对等进程。
Active+Clean+Scrubbing+Deep Active, Clean, Scrubbing 和Deep Placement组的总数。
  • Active PGs - Ceph处理对展示placement group的请求。
  • Clean PGs - Ceph复制展示placement group中所有对象正确的次数。
  • Scrubbing PGs - Ceph正在检查展示placement group中的不一致之处。
  • Deep PGs - Ceph自动定期对所有放置组进行deep-scrubbing。
Down 必需数据处于关闭状态的副本放置组的数量,因此该放置组处于脱机状态。
Degraded 尚未复制展示placement group中某些对象正确次数的展示placement group的数量。
Peering 正在进行对等过程的展示placement group的数量。
Incomplete 处于未完成状态的展示placement group的数量,即PG丢失了可能已发生或没有任何正常副本的写入信息。
Stale 处于未知状态的展示placement group的数量-自从更改展示placement group映射以来,监视器尚未收到更新。
OSD状态
OSDS 存在的OSDS数量。
OSDUP 已启动并正在运行的OSD数量。
OSDIN 集群中的OSD数量。
OSDOUT 集群外的OSD数量
OSDs In and Down 如果OSD处于关闭状态和进入状态时出现问题,集群将无法处于健康状态。此属性将获取进入和关闭状态的OSD数量。
FULL OSD已饱和。
NEARFULL OSD即将饱和。
时间检查
Monitor Name 集群中监视器的名称。
Severity 监视器健康状况的严重性消息。

监视器详细信息

参数 描述
监控健康状况总览
Monitor Name 监视器的名称。
Total (GB) 磁盘总内存(以GB为单位)。
Used   (GB) 已使用的总内存(以GB为单位)。
Available (GB) 可用的空余内存(以GB为单位)。
Available In   (%) 可用空余内存百分比。
Last Updated 监视器状态的上次更新时间。
Severity 监视器的健康状况严重性。
Rank Ceph监视器在集群中的排名。每当您添加或删除监视器时,都会(重新)计算排名(值越低,排名越高)。值最低的Ceph监视器将是排名第一或管理员,客户端将尝试首先连接到排名第一的监视器,当其断开时,客户端将连接到下一个排名的监视器。
Monitor address 监视器使用监视器映射相互发现所需的地址。

可用的存储

参数 描述
Read Bytes 每秒读取的字节率。
Write Bytes 每秒写入的字节率。
Data Size 总存储数据大小(以GB为单位)。
Total Bytes 可用的总存储空间(以GB为单位)。
Available 可用的总存储空间(以GB为单位)。
Used 已使用的存储空间总量(以GB为单位)。
Available % 可用存储空间的百分比。
Used % 已用存储空间的百分比。

OSD详细信息(适用于Luminous 版本)

参数 描述
OSD存储信息
ID 监视器ID。
OSD Monitor Name OSD监视器名称。
Disk Usage 所用磁盘存储的图形表示。
Used Storage (GB) 磁盘已使用的存储空间(以GB为单位)。
Available Storage(GB) 可用内存(以GB为单位)。
Total Storage(GB) 磁盘总内存(以GB为单位)。
Available Storage (%) 可用内存的百分比。
Last Down Time 上次OSD状态为停机的时间和日期。