您可以通过 OCP 的告警项功能,对常用的告警项进行管理。

背景信息

不同 OCP 版本的操作界面可能不同,本节以 OCP V2.4.4版本为例提供操作指导,OCP 其他版本的操作请参考对应版本的《OCP 用户指南》文档。

告警项管理

  1. 登录 OCP。

  2. 在左侧导航栏上,单击 系统管理 > 告警

  3. 单击 告警项配置 页签。

    可以查看和编辑系统内置的告警项。

    告警项配置页面

  4. 单击 分组管理 后,再单击 管理告警项 可进入分组管理告警项界面,对各个分组下的告警项进行添加和删除。

    管理告警项

  5. 回到告警项列表页面,单击 新建告警项,进入 新建告警项 界面。

  6. 配置告警项的规则信息。

    1. 设置告警项所属范围。

    2. 设置匹配对象,确定告警规则适用的对象。

    3. 设置触发条件。

      1. 根据告警项所属范围的不同,可以在运算规则里选择不同的指标。

      2. 持续时长为 0 表示立即触发,可以设定时长,用于避免因指标毛刺产生的告警误报。

    4. 设置检测周期和消除周期。

      配置告警项规则

  7. 配置告警项的基本信息。

    1. 设置告警项名称和中文名称。

    2. 设置告警等级。

    3. 根据页面提示设置告警概述模板。

    4. 根据页面提示设置告警详情模板。

      • 告警概述模板用于在通道的模板字段中引用,对应的变量名为 alarm_summary。

      • 告警详情模板用于在通道的模板字段中引用,对应的变量名为 alarm_description。

        配置告警基本信息

  8. 单击 确定

告警项说明列表

内置的告警项及其说明如下,您可以根据不同环境特点对部分告警项阈值进行配置。

告警项名称

告警项说明

采集范围

告警等级

阈值推荐值

告警触发影响

ob_cluster_exists_inactive_server

OceanBase 集群存在不工作 OBserver

集群

严重

0

OceanBase 集群内节点心跳数据发送超时导致状态变为 inactive,一般可能的原因有网络异常、操作系统奔溃等

ob_cluster_merge_timeout

OceanBase 集群合并超时

集群

严重

1

OceanBase 集群合并超过集群内配置合并超时时长导致集群合并状态变为 TIMEOUT,原因需登录集群排查

ob_cluster_merge_error

OceanBase 集群合并出错

集群

严重

1

OceanBase 集群合并异常导致集群合并状态变为 ERROR,原因需登录集群排查

ob_cluster_no_merge

OceanBase 集群合并检测失败

集群

严重

108000

OceanBase 集群超过阈值秒未合并触发告警,原因需登录集群排查

ob_cluster_no_frozen

OceanBase 集群冻结检测失败

集群

严重

172800

OceanBase 集群版本超过阈值秒未冻结触发告警,原因需登录集群排查

ob_cluster_exists_index_fail_table

OceanBase 集群存在索引失败的表

集群

严重

0

OceanBase 集群合并后存在索引构建失败的表触发,原因需登录集群排查

ob_tenant500_mem_hold_percent_over_threshold

OceanBase 集群 内 500 租户内存占用率超限

集群

严重

25

OceanBase 集群内部 500 租户内存使用超过阈值百分比,原因可能与部分节点内存泄漏有关,需登录集群排查

ob_zone_sstable_percent_over_threshold

OceanBase 集群 Zone 数据盘使用率超限

集群

严重

95

OceanBase 集群 Zone 数据盘使用率超过阈值百分比触发,原因与集群磁盘已使用水位过高有关,需登录集群排查

ob_cluster_frozen_version_delta_over_threshold

OceanBase 集群冻结版本和基线版本的差值超限

集群

严重

1

OceanBase 集群冻结版本与基线版本差值超过 1 触发告警,原因与集群冻结异常有关,需登录集群排查

tenant_memstore_percent_over_threshold

OceanBase 集群租户内存使用百分比超限

租户

警告

90

OceanBase 集群租户内存使用百分比超过阈值,原因与集群转储或合并异常有关,需登录集群排查

tenant_disk_percent_over_threshold

OceanBase 集群内租户数据盘使用率超限

租户

警告

70

OceanBase 集群租户数据盘使用超过阈值触发,原因与租户磁盘使用水位过高有关,需登录集群排查

tenant_cpu_percent_over_threshold

OceanBase 集群内租户 CPU 使用率超限

租户

警告

100

OceanBase 集群租户 CPU 使用超过阈值触发,原因与租户读写压力有关,需结合 QTPS 监控项排查

tenant_connection_percent_over_threshold

OceanBase 集群内租户连接数百分比超限

租户

警告

10000

OceanBase 集群内租户当前连接数超过阈值触发,原因与租户使用行为有关,需结合Active_session 监控项排查,该监控项推荐结合租户节点数进行配置,目前 OceanBase 数据库单节点连接数上限为 65535

tenant_active_memstore_percent_over_threshold

OceanBase 集群 内租户活跃内存百分比超限

租户

警告

100

OceanBase 集群内租户活跃内存百分比超过阈值时触发,原因与租户读写压力、租户内存异常泄漏等有关,需登录集群排查

obagent_upgrade_failed

OBAgent 升级失败

服务器

严重

0

OCP 基础组件 OBAgent 升级失败触发,原因与 OBAgent升级行为有关,需登录对应服务器进行排查

ob_host_down

OceanBase 数据库机器不可用

服务器

停服

0

服务器节点宕机触发,原因与服务器硬件、软件等有关,需登录对应服务器进行排查

ob_host_tcp_retrans_percent_over_threshold

OceanBase 数据库服务器 TCP 重传率超限

服务器

严重

50

服务器节点 TCP 重传率超过阈值触发,与服务器网卡或集群网络异常等有关,需结合 NET 监控项并登录对应服务器进行排查

ob_server_sstable_percent_over_threshold

OceanBase 数据库服务器数据盘使用率超限

服务器

警告

85

服务器数据盘使用率超过阈值触发,与服务器数据盘使用有关,需登录对应服务器进行排查

ob_host_ssd_wear_indicator_over_threshold

OceanBase 数据库服务器 SSD 使用百分比超限

服务器

严重

95

服务器 SSD 盘损耗百分比超过阈值触发,与服务器 SSD 使用损耗有关,需登录对应服务器进行确认排查

ob_tenant500_mem_hold_over_threshold

OceanBase 集群内 500 租户的占用内存大小超限

服务器

严重

50

服务器 OceanBase 数据库进程内部租户内存使用百分比超过阈值触发,与内部租户内存消耗有关,需登录系统租户进行排查

ob_host_disk_readonly

OceanBase 数据库服务器磁盘只读

服务器

严重

1

服务器磁盘状态变为只读触发告警,与磁盘可用状态异常有关,需登录对应服务器确认

ob_host_partition_count_over_threshold

OceanBase 数据库服务器分区数量超限

服务器

严重

30000

OceanBase 数据库节点上 Partition分 区数超过阈值触发告警,与集群 Partition 总数及分布有关,需登录系统租户进行排查

ob_host_net_send_percent_over_threshold

OceanBase 数据库服务器网络发送带宽使用率超限

服务器

警告

80

服务器网络发送带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合 NET 监控并登录系统租户进行排查

ob_host_ntp_command_not_found

OceanBase 数据库服务器 ntp 命令不存在

服务器

严重

1

OceanBase 数据库服务器上 NTP 服务命令不可用触发告警,与服务器操作系统 NTP 服务器可用性有关,需登录对应服务器排查

ob_host_ntp_offset_too_large

OceanBase 数据库服务器 ntp 偏移量过大

服务器

严重

50

OceanBase 数据库服务器 NTP 服务偏移量超过阈值触发,与节点配置的 NTP 服务本身、节点 NTP 时钟服务、网络等有关,需登录对应服务器进行排查

ob_host_net_exception

OceanBase 数据库服务器网络错误

服务器

停服

OceanBase 集群网络错误触发,与服务器网络有关,需排查服务器网络可用性

ob_host_mem_percent_over_threshold

OceanBase 数据库服务器内存使用率超限

服务器

严重

90

服务器 OceanBase 数据库进程内存使用超过阈值触发,与进程内存溢出有关,需登录对应服务器进行排查

ob_mem_assigned_percent_over_threshold

OceanBase 集群已经分配给租户的内存占比超限

服务器

警告

100

OceanBase 集群分配给租户的内存占比超过阈值触发,与租户内存分配有关,需登录系统租户及对应服务器进行排查

ob_host_load1_per_cpu_over_threshold

OceanBase 数据库服务器CPU平均 load1 超限

服务器

严重

4

OceanBase 数据库服务器 CPU 平均 load 超过阈值持续 5 分钟触发,与该服务器上读写压力有关,需结合 QTPS 监控项进行排查

ob_host_net_recv_percent_over_threshold

OceanBase 数据库服务器网络接收带宽使用率超限

服务器

警告

80

服务器网络接收带宽使用率超限触发,与集群读写压力、集群内部状态等有关,需结合 NET 监控并登陆系统租户进行排查

ob_host_exists_expired_trans

OceanBase 数据库服务器存在悬挂事务

服务器

警告

1

OceanBase 数据库服务器上存在悬挂事务超过阈值触发,与用户行为有关,需结合 TPS 及 SQL 监控进行排查

ob_host_disk_percent_over_threshold

OceanBase 数据库服务器磁盘使用率超限

服务器

警告

97

OceanBase 数据库服务器磁盘使用率超过阈值触发,与磁盘使用水位过高有关,需登录到对应服务器进行排查

ob_cpu_percent_over_threshold

OceanBase 集群内统计的CPU使用率超限

服务器

严重

99

OceanBase 集群内部统计 CPU 使用率超过阈值持续 5 分钟触发,与用户行为有关,需结合 TPS 及 SQL 监控进行排查

ob_cpu_assigned_percent_over_threshold

OceanBase 集群已经分配给租户的 CPU 占比超限

服务器

警告

100

OceanBase 集群分配给租户的 CPU 占比超过阈值触发,与租户 CPU 分配有关,需登录系统租户及对应服务器进行排查

ob_host_cpu_percent_over_threshold

OceanBase 数据库服务器 CPU 使用率超限

服务器

严重

100

OceanBase 数据库服务器使用系统 CPU 超过阈值 1 分钟触发,与 OceanBase 数据库服务及服务器上其他进程使用 CPU 有关,需登录到对应服务器进行排查

ob_cannot_connected

OceanBase 数据库服务器无法连接

服务器

停服

0

OceanBase 数据库服务器无法连接触发,需与服务器运维方确认

ob_log_alarm

OceanBase 数据库日志告警

服务器

警告

OceanBase 数据库的 election、rootservice、observer 日志中出现 ERROR 级告警日志触发,与 OceanBase 数据库内部行为、运行状况等有关,需登录系统租户确认

obagent_process_dead

obagent 进程不可用

服务器

严重

OceanBase 数据库服务器上 OCP 组件obagent 进程异常不工作触发,与 obagent 进程运行异常、操作系统异常等有关,需登录对应服务器进行排查确认

obagent_dead

obagent 服务不可用

服务器

停服

OceanBase 数据库服务器上 OCP 组件obagent 服务结束触发,与 obagent 进程消亡、进程异常终止等有关,需登录服务器排查确认