监控Amazon Web Services



Amazon Web Services (AWS) - 概述

Amazon Web Services(AWS)是Amazon提供的全面的云计算平台。AWS提供了一系列云计算服务,可在遍布世界各地的数据中心的基础上进行扩展。但是,当您部署和使用如此广泛的服务集时,您仍然需要适当的AWS监控软件来监控和了解发生的情况。

从基础架构和应用程序到最终用户体验,Applications Manager的AWS性能监控 都会对您的Amazon帐户下的多个核心Amazon Web Services进行强大的监控。使用像Applications Manager这样的一体式AWS云监控工具,用户可以通过各种AWS服务获得单个窗格视图,例如:


创建一个新的Amazon监视器

设置Amazon性能监控的前提条件:单击 此处

使用REST API添加新的Amazon监视器:点击此处

要创建新的Amazon监视器,请遵循以下步骤:

  1. 点击添加监视器 链接。
  2. 云应用 类别下选择Amazon
  3. 指定Amazon服务器的显示名称
  4. 从下拉菜单中选择您想要发现和监控的Amazon Services
  5. 输入用于通过API访问AWS的访问密钥ID。访问密钥包含20个字母数字字符。
  6. 输入AWS的秘密访问密钥。密钥长度应为40个字母数字字符。
  7. 选择 帐户类型。添加新的Amazon监视器时的默认帐户类型AWS全局。选择AWS China作为帐户类型来监控AWS中国地区的服务。
  8. 以分钟为单位指定轮询间隔
  9. 如果您正在从管理服务器添加新监视器,请选择管理的服务器。
  10. 从组合框(可选)中选择要与Amazon监视器关联的业务组。您可以选择多个组来关联您的监视器。
  11. 点击添加监视器。这可以从网络中发现Amazon服务器并开始监控它。
注意: 在管理员 → 性能轮询 → Amazon → "在修改Amazon Services" 选项下, 您可以在用户编辑和删除现有服务时选择 '停止发现' 或 '删除' 现有的已添加子监视器(Amazon EC2,RDS,DynamoDB等)。默认情况下,此选项设置为 '停止发现'

Amazon数据收集设置

您可以转到管理选项卡,在发现下选择性能轮询,然后选择Amazon选项卡,为您的Amazon监视器配置数据收集设置。您可以自定义以下设置:

  • 您可以将EC2实例的唯一标识符设置为实例ID标记名

    注意: 设置后,更改唯一标识符将导致现有监视器被删除。如果启动包含已终止实例的标签名称的新实例,它将与以前的实例合并。

  • 启用终止的EC2实例告警选项,可以在实例停止时接收通知。
  • 在下一次轮询中,启用删除终止的EC2实例 & Lambda函数 选项将完全从Applications Manager控制台中删除终止的EC2实例和Lambda函数。默认情况下,此选项处于禁用状态。如果您在Applications Manager控制台中找到终止的EC2实例/ Lambda函数,请将其从AWS控制台中删除(如果用户终止EC2实例/ Lambda函数,则将在60分钟后将其从AWS控制台中删除)。
  • 在下一次轮询中,启用删除已删除的DynamoDB表 选项将完全从Applications Manager控制台中删除已删除的DynamoDB表默认情况下,此选项处于禁用状态。如果在Applications Manager控制台中找到一个已删除的表,则在从AWS控制台删除后启用它。
  • 在下一次轮询中,启用删除已删除的弹性负载均衡 选项会从Applications Manager控制台中完全删除已删除的负载均衡。默认情况下,此选项处于禁用状态。如果您在Application Manager控制台中找到一个已删除的负载均衡,则在从AWS控制台中删除后启用它。(如果用户终止实例,则该实例将在60分钟后从AWS控制台中删除。)
  • 关于修改 'Amazon Services' :使用此选项,您可以选择在删除配置的Amazon Service 时要执行的操作。点击管理 → 性能轮询 → Amazon → 关于修改 'Amazon Services'。如果您要删除已删除的AWS服务现有子监视器,请选择删除,或选择停止发现以停止进一步发现已删除的AWS服务的子监视器。
注意:确保您包含可以从云服务添加或获取数据的正常Internet连接。如果您的环境要求使用代理服务器访问外部网站,则可以在 '管理' 标签下配置代理设置

监控的参数

根据以下参数或属性监控Amazon帐户。这些属性提供有关Amazon帐户功能的详细信息。您还可以基于这些详细信息为数字属性配置阈值,并在违反阈值时得到通知。

通过单击监视器 选项卡,转到监视器 类别视图。单击云应用 表下的Amazon监视器。显示的是Amazon批量配置视图,分布在三个选项卡中:

  • 可用性选项卡显示过去24小时或30天的可用性历史记录。
  • 性能选项卡显示过去24小时或30天的健康状况和事件以及Amazon帐户的关键性能指标,例如运行的EC2实例总数和RDS实例总数以及这些属性的热度图。
  • 列表视图选项卡使您能够执行批量管理配置,并显示所有Amazon实例以及它们的可用性和健康状况。

像Applications Manager这样的AWS监控软件可基于以下选项卡在单个窗口中提供对Amazon云环境的完整可见性:

概述

参数 描述
计算资源
Total EC2 Instances Running 帐户中运行的EC2实例数。
Number of Application Load Balancers 帐户中存在的应用程序负载均衡总数。
Number of Network Load Balancers 帐户中存在的网络负载均衡总数。
Number of SQS Queues 帐户中存在的SQS队列总数。
Number of Lambda Functions 帐户中存在的Lambda函数总数。
储存资源
Total EBS Volumes in use 当前正在使用的EBS存储卷的数量。
Total S3 Buckets 帐户中存在的S3 buckets总数。
数据库资源
Total RDS Instances 帐户中存在的RDS实例总数。
Total DynamoDB tables 帐户中存在的DynamoDB表总数。

计算

EC2实例

下表提供有关Amazon帐户中存在的EC2实例的详细信息。进一步了解EC2监控

参数 描述
EC2 实例
Instance ID EC2实例的唯一标识符
Region Name 此EC2实例运行的区域。要了解支持的区域列表,请参阅此处
State 实例的当前状态。这些值包括运行,停止,关闭和终止
Platform 运行实例的操作系统
Monitoring 指示是否为实例启用监控。
Public DNS Name 与实例关联的DNS名称。
System Log 显示实例的系统日志。

您可以在EC2实例上执行以下管理操作:

  • 删除: 从Applications Manager中删除EC2实例。
  • 分配平台: 将Windows,Mac OS等平台分配给实例。
  • 启动实例: 从Applications Manager启动EC2实例的选项。
  • 停止实例: 从Applications Manager停止EC2实例的选项。
  • 重新启动实例: 从Applications Manager中重新启动EC2实例的选项。

Lambda

下表提供有关Amazon帐户中存在的Lambda函数的详细信息。进一步了解Lambda函数

参数 描述
LAMBDA
Function Lambda函数的名称。
Region Name Lambda函数运行所在的区域。 要了解支持的区域列表,请参阅此处
Version Lambda函数的版本。
Runtime Lambda函数运行时的环境。
Deployed Code Size (MB) 该功能部署包的大小(以MB为单位)。
Timeout Lambda允许函数在停止运行之前消耗的时间(以秒为单位)。
Last Modified Time 上次修改该函数的日期和时间。

Elastic Beanstalk环境

下表提供有关Amazon帐户中存在的Elastic Beanstalk环境的详细信息。进一步了解Elastic Beanstalk环境

参数 描述
Elastic Beanstalk环境
Environment Name Elastic Beanstalk环境的名称。
Region Code Elastic Beanstalk环境运行所在的区域。要了解支持的区域列表,请参阅此处
Tier Name  tier的名称。指示它是WebServer还是Worker环境。
Environment Status 环境状况。(就绪,启动,更新,终止终止
Environment Health Status 显示环境的健康状态。(确定,信息,未知,无数据,警告,性能下降严重

 

Amazon Elastic 负载均衡

利用Applications Manager的AWS ELB监控功能,您可以监视负载均衡器,分析流量模式以及对负载均衡和目标的问题进行故障排除以优化性能。进一步了解AWS ELB监控

应用程序负载均衡

参数 描述
Name 应用程序负载均衡的名称
Region 在其中配置了负载均衡的AWS区域。了解支持的区域列表,请参考这里
State 负载均衡的状态 - active | provisioning | active_impaired | failed。
Availability zones 负载均衡的可用区域。
VPC ID 负载均衡VPC的ID。
Creation time 负载均衡的创建日期和时间。

网络负载均衡

参数 描述
Name 网络负载均衡的名称
Region 在其中配置了负载均衡的AWS区域。了解支持的区域列表,请参考这里
State 负载均衡的状态 - active | provisioning | active_impaired | failed
Availability zones 负载均衡的可用区域。
VPC ID 负载均衡VPC的ID。
Creation time 负载均衡的创建日期和时间。

RDS 实例

此选项卡提供有关Amazon帐户中存在的RDS实例的详细信息。进一步了解RDS实例

参数 描述
Instance ID 实例的唯一标识符。
Region Name RDS实例正在其中运行的区域。了解支持的区域列表,请参考这里
State 此实例的当前状态。该字段的可能值有使用、创建、失败、重新启动等。
DB Engine Name 与此实例关联的数据库引擎名称
Allocated Storage 分配给该实例的存储空间(以千兆字节为单位)
Aurora Cluster Name Aurora数据库集群的名称。
Cluster Instance Role 与Aurora数据库实例关联的角色。
Cluster Group status 该数据库集群组的当前状态。

S3 Buckets

此选项卡提供有关Amazon帐户中存在的S3 buckets的详细信息。

参数 描述
Bucket Name S3 bucket的唯一名称。
Bucket Size S3 bucket的大小(以兆字节为单位)。
Bucket Location Amazon存储此bucket的地理区域。了解支持的区域列表,请参考此处
Creation Time 创建bucket的时间。
Virtual Folders 此S3 bucket中存在的文件夹数。
Number of Objects 此S3 bucket中存储的对象数。

您可以在Applications Manager中对S3 bucket执行以下管理操作。

  • 禁用: 禁用对S3 bucket的监控。
  • 启用: 启用对S3 bucket的监控。
  • 删除: 从Applications Manager中删除S3 bucket。从您的Amazon帐户中删除S3 bucket时,请使用此选项。

您还可以基于bucket大小,虚拟文件夹和对象数量等属性查看比较报表

SNS 服务

在此选项卡中,您可以监控区域和主题方面的指标,例如通知状态(传达和失败),SMS传递,消息吞吐量-已发送和失败的计数,订阅计数等。进一步了解SNS服务监控

参数 描述
Total Messages Published 在所有AWS支持区域中发布的消息总数。
Total Notifications Delivered 在所有AWS支持区域中传递的消息总数。
Total Notifications Failed 在所有AWS支持区域中失败的消息总数。
Total Published Size (KB) 在所有AWS支持区域中发布的消息的总大小。
Notifications Delivered (%) 已送达的通知总数中所占的百分比。
Notifications Failed (%) 失败通知总数的百分比。
SMS Month-To-Date charges 自当前日历月开始以来在AWS支持的区域中发送SMS消息所产生的总费用。单位-美元

SQS 服务

在此选项卡中,您可以监控SQS服务中正在运行的所有可用队列。了解有关SQS服务监控的更多信息

参数 描述
Queue Name 队列的名称。
Queue Type 队列的类型。(标准/FIF0)
Region 显示创建队列的区域。了解支持的区域列表,请参考此处
Arrival Rate 每分钟消息到达队列的速率。
Completion Rate 每分钟在队列中处理和删除消息的速率。
Created Time 显示首次创建队列的时间。

DynamoDB

在此选项卡中,您可以收集数据以获取Amazon DynamoDB的性能指标,例如延迟,请求吞吐量和限制错误。 优化资源使用并改善Amazon Dynamodb数据库的应用程序性能。进一步了解DynamoDB监控

参数 描述
表格
Name DynamoDB表格的名称。
Region 当前DynamoDB表所在的AWS区域的名称。了解支持的区域列表,请参考此处
Total Provisioned Read CU 表格的预配置读取容量单位总数。
Total Provisioned Write CU 表格的预配置写入容量单位总数。
Storage Size (GB) 指定表的总大小(以GB为单位)。
Table Status 表格的当前状态。
Creation Date 创建表的日期和时间。
DynamoDB帐户限制
Region 当前DynamoDB帐户所在的AWS区域的ID。
Region Name DynamoDB帐户所在的区域的名称。
Read Limit 区域最大读取容量单位限制。
Provisioned Read 预配置的读取容量单位数。
Write Limit 区域最大写入容量单位限制。
Provisioned Write 预配置的写入容量单位数。
Table Read Limit 可以配置表的最大读取容量单位。
Table Write Limit 可以配置表的最大写入容量单位。

账单

参数 描述
总支出和预测
Month-to-Date Expenditure 一个AWS账户当月的总支出。
Current Month Forecast 本月的费用预测。
服务与税
Month-to-Date Services Cost 所有服务产生的总美元费用[不含税]。
Month-to-Date Tax 税的总费用(美元)。
每月的排名靠前的服务支出
Month-to-Date Costs (USD) 按服务月度支出 图表显示了您使用最多的排名靠前的服务以及该服务所贡献的成本(美元)的比例[不包括预测和*税*]。
每月的服务支出
AWS Service 您使用的AWS服务。
Costs (USD) 迄今为止该服务每月产生的美元成本。

注意: 账单数据仅适用于AWS Global账户。可以通过以下方式更改AWS 账单数据的轮询间隔:转到管理选项卡,单击发现和数据收集下的性能轮询,然后导航到优化数据收集选项卡。选择监视器类型 Amazon &指标名称AWS 账单仪表板,并更改默认轮询状态。(默认和首选时间间隔为24小时)


支持的区域

AWS Global 区域

从13600及更高版本开始,我们支持以下全球AWS区域:

  1. US East (N. Virginia)
  2. US East (Ohio)
  3. US West (N. California)
  4. US West (Oregon)
  5. Canada (Central)
  6. South America (Sao Paulo)
  7. EU (Frankfurt)
  8. EU (Ireland)
  9. EU (London)
  10. EU (Paris)
  11. EU (Stockholm)
  12. Asia Pacific (Tokyo)
  13. Asia Pacific (Seoul)
  14. Asia Pacific (Mumbai)
  15. Asia Pacific (Singapore)
  16. Asia Pacific (Sydney)
  17. Asia Pacific (Hong Kong)
  18. Asia Pacific (Osaka-Local)
  19. Middle East (Bahrain)
  20. Africa (Cape Town)
  21. Europe (Milan)

AWS 中国区域

中国地区与所有其他AWS(全球)地区隔离,并且由AWS中国合作伙伴与所有其他AWS地区分开运营。虽然两个AWS中国地区提供的云服务与其他AWS(全球)地区提供的云服务相同。从版本13620开始,我们支持对AWS中国区域中的Amazon 网络服务进行监控。以下是AWS中国账户中可用区域的列表:

  1. 中国(北京)
  2. 中国(宁夏)

添加新的Amazon监视器时,默认账户类型AWS全球。 选择AWS中国 作为帐户类型 以监控AWS中国区域中的服务。


故障排除

1. 不能发现 EC2,RDS,S3,SNS的某些实例进行数据收集

对向AWS收集数据请求中的信息进行身份验证有两种方法:
    • Signature version 2 (S2) and
    • Signature version 4 (S4)

在以下区域,AWS仅支持签名版本4 的签名过程:[US East (Ohio), Canada (Central), Asia Pacific (Mumbai), Asia Pacific (Seoul), EU (Frankfurt), EU (London)]. 如果您使用仅支持S4的区域中的AWS服务,Applications Manager将不会发现它们,因为它们需要S4的签名过程。

解决方案:升级到Applications Manager 13600版本(或更高版本)。我们已升级到最新的aws jar,并支持AWS中的两个签名过程。从13600版开始,我们还支持当前所有15个地区。(了解更多)

注意:确保您包含正常的Internet连接,可以从云服务添加或获取数据。如果您的环境要求使用代理服务器访问外部网站,则可以在 '管理' 标签下配置代理设置

2. 当未发现子监视器或AWS及其子监视器中没有数据时

  • 检查此页面 中提到的API列表,并确保IAM用户包含所有必需的API权限。
  • 检查用户在AWS中创建资源的区域,并确保在Applications Manager中支持/发现相同的区域。了解更多

3. 操作系统级别指标中的EC2实例内没有数据

大多数情况下,问题是由于代理配置文件中的配置错误而引起的,Cloudwatch代理使用该配置文件从EC2实例中获取数据。

Applications Manager可以基于以下内容从CloudWatch中获取数据:

  • 名称空间 - AWS允许用户拥有任何名称空间,但Applications Manager仅支持 'CWAgent' 作为名称空间
  • Dimensions - Applications Manager中仅支持 'InstanceId' 作为维度。如果在代理程序配置文件中配置了其他任何维度,则不支持该维度。它仅查找 '实例'。

在EC2实例监视器的每个数据收集中,首先我们在Windows / Linux实例中查找 '内存' 指标,然后检查 '磁盘' 指标。确保配置的用户类似于本页面 示例配置文件中提到的指标。