TiFlash 集群监控

本文介绍 TiFlash 集群的相关监控项及说明。

COPROCESSOR 相关监控

监控指标名称 监控指标说明
tiflash_coprocessor_request_count 收到的 coprocessor 请求数量,其中 batch 是 batch 请求数量,batch_cop 是 batch 请求中的 coprocessor 请求数量,cop 是直接通过 coprocessor 接口发送的 coprocessor 请求数量,cop_dag 是所有 coprocessor 请求中 dag 请求数量
tiflash_coprocessor_executor_count 每种 dag 算子的数量,其中 table_scan 是扫表算子,selection 是过滤算子,aggregation 是聚合算子,top_n 是 TopN 算子,limit 是 limit 算子
tiflash_coprocessor_request_duration_seconds 每个 coprocessor request 总时间直方图,总时间为接收到该 coprocessor 请求至请求应答完毕的时间,其中 batch 是 batch 请求的总时间,cop 是直接通过 coprocessor 接口发送的 coprocessor 请求总时间
tiflash_coprocessor_request_error coprocessor 请求的错误数量,其中 meet_lock 为读取的数据有锁,region_not_found 为 Region 不存在,epoch_not_match 为读取的 Region epoch 与本地不一致,kv_client_error 为与 TiKV 通信产生的错误,internal_error 为 TiFlash 内部系统错误,other 为其他错误
tiflash_coprocessor_request_handle_seconds 每个 coprocessor 请求处理时间直方图,处理时间为该 coprocessor 请求开始执行到执行结束的时间,其中 batch 是 batch 请求的处理时间,cop 是直接通过 coprocessor 接口发送的 coprocessor 请求处理时间
tiflash_coprocessor_response_bytes 应答总字节数

DDL 相关监控

监控指标名称 监控指标说明
tiflash_schema_version TiFlash 目前缓存的 schema 版本
tiflash_schema_apply_count 分为 diff apply、full apply 和 failed apply:diff apply 是正常的单次 apply 过程,如果 diff apply 失败,则 failed apply +1,并回退到 full apply
tiflash_schema_internal_ddl_count TiFlash 内部进行的具体 DDL 操作的总数
tiflash_schema_apply_duration_seconds 单次 apply schema 消耗的时间

Raft 相关监控

监控指标名称 监控指标说明
tiflash_raft_read_index_count coprocessor 触发 read_index 请求的次数,等于一个 coprocessor 触发的 Region 总数
tiflash_raft_read_index_duration_seconds read_index 消耗的时间,主要消耗时间在于和 leader 的交互和重试时间
tiflash_raft_wait_index_duration_seconds wait_index 消耗的时间,即拿到 read_index 请求后,等待 local index >= read_index 所花费的时间