告警相关

本节讲解告警相关的常见问题

Q1:配置了告警策略,监控指标有异常但没有发出告警

可能是以下几种情况

  1. 查看对象挂载:对象(通常是机器)需要挂载在配置策略的节点(或者其子孙节点)下面
  2. 查看监控数据:确认监控策略对应的监控数据是有值的,并且是肯定会触发阈值的
  3. 阈值设置有误:查看告警策略的告警函数设置,确认告警触发条件是否满足,确认策略的生效时间是否满足
  4. 策略被屏蔽:查看告警策略屏蔽列表,确认策略是否被屏蔽
  5. 通知网关问题:到告警历史页面,查看是否已经生成的告警事件,如果有告警事件,说明是通知网关的问题
  6. 策略下发问题
    • 执行 curl '127.0.0.1:5800/api/portal/stras/effective?all=1' 拿到全量策略列表
    • 如果列表没有此策略,查看 monapi 日志,看是否有报错信息,有报错,按照提示处理
    • 如果有,则查看judge_instance字段,找到策略分发给了哪个judge实例,登陆到judge所在机器, curl 127.0.0.1:5840/api/judge/stra/:id 查看是否下发给judge
  7. judge解析策略异常:查看judge WARNING.log 和 ERROR.log 日志,检查是否有此策略的报错信息
  8. judge没有收到数据:修改judge日志等级为DEBUG,tail -f DEBUG.log|grep 监控指标 无日志输出,说明数据没有走到judge这里
  9. 查看数据链路:查看transfer的日志,看数据为何没有从transfer转发到judge模块