SLA指标

架构分层

  • 网关(LB、Nginx)
  • 应用(业务应用)
  • 资源(MySQL、Redis、Kafka)
  • 机器(node,pod)

治理分类

  • 监控
  • 日志
  • 链路

黄金指标

  • 状态码
  • 耗时
  • 请求量
  • 饱和度
    • CPU饱和度
    • 内存饱和度
    • QPS饱和度

诊断方式

  • 全链路压测
  • 混沌工程
  • 性能测试

监控维度

  • 单个维度
  • 大盘维度

SOP

监控大盘维度 -> 监控单个维度 -> 详细日志

报警

  • 日志Panic
  • 资源利用率(CPU、内存)