Cluster AutoScaler

Cluster AutoScaler 是一个自动扩展和收缩 Kubernetes 集群 Node 的扩展。当集群容量不足时,它会自动去 Cloud Provider (支持 GCE、GKE 和 AWS)创建新的 Node,而在 Node 长时间资源利用率很低时自动将其删除以节省开支。

Cluster AutoScaler 独立于 Kubernetes 主代码库,维护在 https://github.com/kubernetes/autoscaler

部署

Cluster AutoScaler v1.0+ 可以基于 Docker 镜像 gcr.io/google_containers/cluster-autoscaler:v1.0.0 来部署,详细的部署步骤可以参考

比如 Azure 中的部署方式为

  1. apiVersion: v1
  2. data:
  3. ClientID: <client-id>
  4. ClientSecret: <client-secret>
  5. ResourceGroup: <resource-group>
  6. SubscriptionID: <subscription-id>
  7. TenantID: <tenand-id>
  8. ScaleSetName: <scale-set-name>
  9. kind: ConfigMap
  10. metadata:
  11. name: cluster-autoscaler-azure
  12. namespace: kube-system
  13. ---
  14. apiVersion: extensions/v1beta1
  15. kind: Deployment
  16. metadata:
  17. name: cluster-autoscaler
  18. namespace: kube-system
  19. labels:
  20. app: cluster-autoscaler
  21. spec:
  22. replicas: 1
  23. selector:
  24. matchLabels:
  25. app: cluster-autoscaler
  26. template:
  27. metadata:
  28. labels:
  29. app: cluster-autoscaler
  30. spec:
  31. tolerations:
  32. - effect: NoSchedule
  33. key: node-role.kubernetes.io/master
  34. nodeSelector:
  35. kubernetes.io/role: master
  36. containers:
  37. - image: gcr.io/google_containers/cluster-autoscaler:{{ca_version}}
  38. name: cluster-autoscaler
  39. resources:
  40. limits:
  41. cpu: 100m
  42. memory: 300Mi
  43. requests:
  44. cpu: 100m
  45. memory: 300Mi
  46. env:
  47. - name: ARM_SUBSCRIPTION_ID
  48. valueFrom:
  49. configMapKeyRef:
  50. name: cluster-autoscaler-azure
  51. key: SubscriptionID
  52. - name: ARM_RESOURCE_GROUP
  53. valueFrom:
  54. configMapKeyRef:
  55. name: cluster-autoscaler-azure
  56. key: ResourceGroup
  57. - name: ARM_TENANT_ID
  58. valueFrom:
  59. configMapKeyRef:
  60. name: cluster-autoscaler-azure
  61. key: TenantID
  62. - name: ARM_CLIENT_ID
  63. valueFrom:
  64. configMapKeyRef:
  65. name: cluster-autoscaler-azure
  66. key: ClientID
  67. - name: ARM_CLIENT_SECRET
  68. valueFrom:
  69. configMapKeyRef:
  70. name: cluster-autoscaler-azure
  71. key: ClientSecret
  72. - name: ARM_SCALE_SET_NAME
  73. valueFrom:
  74. configMapKeyRef:
  75. name: cluster-autoscaler-azure
  76. key: ScaleSetName
  77. command:
  78. - ./cluster-autoscaler
  79. - --v=4
  80. - --cloud-provider=azure
  81. - --skip-nodes-with-local-storage=false
  82. - --nodes="1:10:$(ARM_SCALE_SET_NAME)"
  83. volumeMounts:
  84. - name: ssl-certs
  85. mountPath: /etc/ssl/certs/ca-certificates.crt
  86. readOnly: true
  87. imagePullPolicy: "Always"
  88. volumes:
  89. - name: ssl-certs
  90. hostPath:
  91. path: "/etc/ssl/certs/ca-certificates.crt"

工作原理

Cluster AutoScaler 定期(默认间隔 10s)检测是否有充足的资源来调度新创建的 Pod,当资源不足时会调用 Cloud Provider 创建新的 Node。

Cluster AutoScaler - 图1

为了自动创建和初始化 Node,Cluster Autoscaler 要求 Node 必须属于某个 Node Group,比如

  • GCE/GKE 中的 Managed instance groups(MIG)
  • AWS 中的 Autoscaling Groups
  • Azure 中的 Scale Sets 和 Availability Sets

当集群中有多个 Node Group 时,可以通过 --expander=<option> 选项配置选择 Node Group 的策咯,支持如下四种方式

  • random:随机选择
  • most-pods:选择容量最大(可以创建最多 Pod)的 Node Group
  • least-waste:以最小浪费原则选择,即选择有最少可用资源的 Node Group
  • price:选择最便宜的 Node Group(仅支持 GCE 和 GKE)

目前,Cluster Autoscaler 可以保证

  • 小集群(小于 100 个 Node)可以在不超过 30 秒内完成扩展(平均 5 秒)
  • 大集群(100-1000 个 Node)可以在不超过 60 秒内完成扩展(平均 15 秒)

Cluster AutoScaler 也会定期(默认间隔 10s)自动监测 Node 的资源使用情况,当一个 Node 长时间(超过 10 分钟其期间没有执行任何扩展操作)资源利用率都很低时(低于 50%)自动将其所在虚拟机从云服务商中删除(注意删除时会有 1 分钟的 graceful termination 时间)。此时,原来的 Pod 会自动调度到其他 Node 上面(通过 Deployment、StatefulSet 等控制器)。

Cluster AutoScaler - 图2

注意,Cluster Autoscaler 仅根据 Pod 的调度情况和 Node 的整体资源使用清空来增删 Node,跟 Pod 或 Node 的资源度量(metrics)没有直接关系。

用户在启动 Cluster AutoScaler 时可以配置 Node 数量的范围(包括最大 Node 数和最小 Node 数)。

在使用 Cluster AutoScaler 时需要注意:

  • 由于在删除 Node 时会发生 Pod 重新调度的情况,所以应用必须可以容忍重新调度和短时的中断(比如使用多副本的 Deployment)
  • 当 Node 上面的 Pods 满足下面的条件之一 时,Node 不会删除
    • Pod 配置了 PodDisruptionBudget (PDB)
    • kube-system Pod 默认不在 Node 上运行或者未配置 PDB
    • Pod 不是通过 deployment, replica set, job, stateful set 等控制器创建的
    • Pod 使用了本地存储
    • 其他原因导致的 Pod 无法重新调度,如资源不足,其他 Node 无法满足 NodeSelector 或 Affinity 等

最佳实践

  • Cluster AutoScaler 可以和 Horizontal Pod Autoscaler(HPA)配合使用
  • 不要手动修改 Node 配置,保证集群内的所有 Node 有相同的配置并属于同一个 Node 组
  • 运行 Pod 时指定资源请求
  • 必要时使用 PodDisruptionBudgets 阻止 Pod 被误删除
  • 确保云服务商的配额充足
  • Cluster AutoScaler 与云服务商提供的 Node 自动扩展功能以及基于 CPU 利用率的 Node 自动扩展机制冲突,不要同时启用

参考文档