云数据库MongoDB提供实例状态监控及报警功能。本文将介绍设置磁盘空间使用率、IOPS使用率、连接数使用率、CPU使用率等常用的监控项目。

背景信息

  • 随着数据量及业务的发展,MongoDB实例的性能资源使用率可能会逐步提升,直至被消耗殆尽。
  • 某些场景下MongoDB实例的性能资源可能被大量地异常消耗。如大量的慢查询引起的CPU使用率上升,大量数据写入导致磁盘空间被急剧消耗等情况。

说明 当磁盘容量不足将导致实例被锁定。如遇到实例被锁定您可以提交工单。实例解锁后您可以通过变更配置来增加磁盘空间。

通过对实例的关键性能指标设置监控报警规则,让您在第一时间得知指标数据发生异常,帮助您迅速定位并处理故障。

操作步骤

  • 登录MongoDB管理控制台
  • 在页面左上角,选择实例所在的地域。
  • 找到目标实例,单击实例ID。
  • 在左侧导航栏中,单击报警规则。
  • 单击设置报警规则,跳转至云监控控制台页面。
  • 在云监控控制台页面,单击页面右上角的创建报警规则。
  • 在创建报警规则页面,设置关联资源。
    设置常用的MongoDB监控报警规则 - 图1

设置项目说明产品下拉选择实例类型。

  • 云数据库MongoDB版-副本集
  • 云数据库MongoDB版-分片集群
  • 云数据库MongoDB版-单节点实例

说明 当选择云数据库MongoDB版-分片集群时,请选择需要监控的Mongos节点和Shard节点。

资源范围

  • 资源范围选择全部实例,则产品下任何实例满足报警规则描述时,都会发送报警通知。
  • 选择指定的实例,则选中的实例满足报警规则描述时,才会发送报警通知。 地域选择实例所属地域。实例选择实例ID,可选择多个实例。
  • 设置报警规则,此处先设置磁盘空间使用率,设置完成后单击添加报警规则。 设置常用的MongoDB监控报警规则 - 图2

说明

  • 例如规则描述为磁盘使用率5分钟平均值>=80%,则报警服务会5分钟检查一次5分钟内的数据是否满足平均值>=80%,如果连续三个周期的探测结果都符合您设置的规则,才会触发报警。您可以根据您的业务场景微调相关数值。
  • 角色选择为任意角色即代表监控实例的 Primary 节点和 Secondary 节点。
  • 参考上一步骤设置IOPS使用率、连接数使用率、CPU使用率的监控报警规则。 设置常用的MongoDB监控报警规则 - 图3
  • 设置报警规则的其他项目。

设置项目说明通道沉默时间指报警发生后如果未恢复正常,间隔多久重复发送一次报警通知。生效时间设置报警规则生效的时间。

  • 设置通知方式。

设置项目说明通知对象发送报警的联系人或联系组,详情请参考报警联系人和报警联系组。 报警级别分为Critical 、Warning、Info三个等级,不同等级对应不同的通知方式。

  • Critical:电话语音+手机短信+邮件+钉钉机器人
  • Warning:手机短信+邮件+钉钉机器人
  • Info:邮件+钉钉机器人邮件主题自定义报警邮件的主题,默认为产品名称+监控项名称+实例ID。邮件备注自定义报警邮件补充信息。填写邮件备注后,发送报警的邮件通知中会附带您的备注。报警回调详情请参考使用报警回调
  • 设置完成后,单击确认。报警规则将自动生效。