GSE agent 状态异常定位

节点管理app或 Job 显示 agent 状态异常:

  • 检查对应 ip 机器上的 gse_agent 进程是否正常 ps -ef |grep gse_agent
  • 检查 gse_agent 的 48533 连接是否正常
  • 检查 gse_agent 与 gse server 的证书是否匹配
  • 检查该ip在CC上的业务及云区域id是否正确
  • 检查 gse_api 日志,查看启动时是否有“UPDATE_REDIS_FAILED”信息,若有则重启gse_api

直连的agent

  • 查看agent机器上的 gse_agent 进程是否成对出现
  1. * 查看是否和gse_task48533端口建立链接:`netstat -antp | grep :48533`
  2. ```bash
  3. [root@nginx-1 ~]# netstat -antp |grep :48533
  4. tcp 0 0 10.0.1.2:35544 10.0.1.226:48533 ESTABLISHED 26714/./gse_agent
  • 登陆到第一步显示链接的gse_task的IP(10.0.1.226),继续查看链接:netstat -antp | grep :48533 | grep 10.0.1.2 确认gse_task上看到的ip和agent的ip一致。若不一致,可能agent->gse_task时发生了NAT转换

Proxy下的agent

  • 查看agent是否和proxy(gse_agent)的48533建立链接:netstat -antp | grep :48533
  • 和直连agent的排查同理,到proxy上查看建立链接的ip是否一致。