Operation troubleshooting

运行时的问题

Operation troubleshooting - 图1

当服务组件操作日志中提示构建成功时,就进入了服务组件运行的阶段。我们期待所有的组件实例都呈现绿色的 运行中 状态,然而也可能发生很多的异常情形,需要根据指引一步步排查。在这个阶段,了解 组件生命周期 中各个阶段的概念是十分必要的。后续的排查过程,也是基于组件不同的状态入手。

常见问题

组件无运行日志信息

组件的日志通过 WebSocket 进行推送,如果无日志信息,在 平台管理 -> 集群 -> 编辑,查看 WebSocket 通信地址是否正确,如果集群是公有云厂商提供的,此处地址是内网 IP,那么你本地无法与集群建立 WebSocket,就无法展示日志。将此处修改为你本地能连接上的 IP 即可。

根据异常状态排查运行时问题

调度中

组件实例一直处于 调度中 状态

处于 调度中 状态的实例,体现为橙黄色的方块。说明集群中已经没有足够的资源来运行这个实例。具体的资源项短缺详情,可以点击橙黄色的方块,打开实例详情页面后在 说明 处了解到。例如:

  1. 实例状态:调度中
  2. 原因: Unschedulable
  3. 说明: 0/1 nodes are available: 1 node(s) had desk pressure

根据 说明 可以了解到,当前集群中共有 1 个宿主机节点,但是处于不可用状态,原因是该节点存在磁盘压力。根据原因对节点进行磁盘扩容或空间清理后,该问题会自动解除。常见的资源短缺类型还包括:CPU 不足、内存不足。

等待启动

组件实例一直处于 等待启动 状态

Rainbond 平台根据组件之间的依赖关系确定启动顺序。如果服务组件长时间处于 等待启动 状态,则说明其依赖的某些组件未能正常启动。切换至应用拓扑视图梳理组件间依赖关系,确保其依赖的组件都处于正常的运行状态。

运行异常

组件实例一直处于 运行异常 状态

运行异常状态意味着该实例遭遇了无法正常运行的情况。点击红色的方块,可以在实例详情页面找到提示,重点关注实例中的容器的状态,通过状态的不同,来继续排查问题。以下是常见的几种问题状态:

ImagePullBackOff

该状态说明当前容器的镜像无法被拉取,下拉至 事件 列表处,可以得到更为详细的信息。确保对应的镜像可以被拉取,如果发现无法拉取的镜像以 goodrain.me 开头,则可以尝试构建该组件解决问题。

CrashLoopBackup

该状态说明当前容器本身启动失败,或正在遭遇运行错误。切换至 日志 页面查看业务日志输出,对症解决问题即可。

OOMkilled

该状态说明为容器分配的内存太小,或业务本身存在内存泄漏问题。业务容器的内存配置入口位于 伸缩 页面。插件容器的内存配置入口位于 插件 页面。

第三方组件未就绪

请按照以下步骤操作第三方组件:

  1. 打开第三方组件对内端口
  2. 设置第三方组件健康检测
  3. 启动/更新第三方组件

直至第三方组件状态为 就绪,才能正常使用。

如果第三方组件状态为 就绪, 但是无法对内或对外访问,请通过以下步骤排查:

  1. 检查第三方组件创建的 endpoint 是否正确

    1. kubectl get ep -n <namespace>
  2. 检查第三方组件创建的 service 是否正确,并通过 curl 命令检查是否能够访问

    1. kubectl get svc -n <namespace>
  3. 检查第三方组件创建的 ingress 是否正确

    1. kubectl get ing -n <namespace>