监控指标说明

本文介绍Dashboard中展示的Nebula Graph监控指标。

机器

CPU

参数说明
cpu_utilizationCPU已使用百分比
cpu_idleCPU空闲百分比
cpu_wait等待IO操作的CPU百分比
cpu_user用户空间(非Nebula Graph图空间)占用的CPU百分比
cpu_system内核空间(非Nebula Graph内核空间)占用的CPU百分比

内存

参数说明
memory_utilization内存已使用百分比
memory_used已使用内存(包括缓存)
memory_actual_used实际使用内存(不包括缓存)
memory_free空闲内存

负载

参数说明
load_1m最近1分钟系统平均负载
load_5m最近5分钟系统平均负载
load_15m最近15分钟系统平均负载

磁盘

参数说明
disk_used磁盘已使用存储空间
disk_free磁盘剩余存储空间
disk_readbytes磁盘每秒读取的字节数
disk_writebytes磁盘每秒写入的字节数
disk_readiops磁盘每秒的读请求数量
disk_writeiops磁盘每秒的写请求数量
inode_utilizationinode已使用百分比

流量

参数说明
network_in_rate网卡每秒接收的字节数
network_out_rate网卡每秒发送的字节数
network_in_errs网卡每秒接收错误的字节数
network_out_errs网卡每秒发送错误的字节数
network_in_packets网卡每秒接收的数据包数量
network_out_packets网卡每秒发送的数据包数量

服务

周期

指标统计的时间范围,当前支持5秒、60秒、600秒和3600秒,分别表示最近5秒、最近1分钟、最近10分钟和最近1小时。

聚合方式

参数说明
rate周期内平均每秒操作的速率
sum周期内操作的总和
avg周期内响应平均耗时
P75周期内响应耗时从小到大排列,顺序处于75%位置的分位数
P95周期内响应耗时从小到大排列,顺序处于95%位置的分位数
P99周期内响应耗时从小到大排列,顺序处于99%位置的分位数
P999周期内响应耗时从小到大排列,顺序处于99.9%位置的分位数

Graph

参数说明
num_queries查询数量
num_slow_queries慢查询数量
query_latency_us查询平均延迟
slow_query_latency_us慢查询平均延迟
num_query_errors查询错误数量

Meta

参数说明
heartbeat_latency_us心跳延迟
num_heartbeats心跳次数

Storage

参数说明
add_edges_latency_us添加边的平均延迟
add_vertices_latency_us添加点的平均延迟
delete_edges_latency_us删除边的平均延迟
delete_vertices_latency_us删除点的平均延迟
forward_tranx_latency_us传输平均延迟
get_neighbors_latency_us查询邻居平均延迟