负载均衡

集群内负载均衡

概述

  • 一个集群往往包含多个子集群。在BFE中,可以针对集群配置其多个子集群间的流量分配比例。

  • 另外,对每个集群,还包含一个虚拟的子集群,BLACKHOLE(黑洞)。

    • 分给黑洞子集群的流量会被主动丢弃
    • 黑洞用来防止集群整体过载
  • 子集群粒度的负载均衡,这是BFE的一个重要功能。这个功能在多IDC场景非常有用。

示例场景

  • 示例场景如下图所示,包含:

    • 两个IDC:IDC_1和IDC_2

    • 两个BFE集群:BFE_1和BFE_2

    • 后端集群有两个子集群:SubCluster_1和SubCluster_2

  • 可以针对BFE集群,设置子集群的分流比例,如:

    • BFE_1集群的分流配置为:{SubCluster_1: W11,SubCluster_2: W12, Blackhole: W1B}

    • BFE_2集群的分流配置为:{SubCluster_1: W21,SubCluster_2: W22, Blackhole: W2B}

  • BFE实例根据上述配置做WRR调度(加权轮询),向子集群转发请求

    • 例如,当BFE_1的分流配置{W11,W12, W1B}为{45,45,10}时,BFE_1转发给SubCluster_1、SubCluster_1、Blackhole的流量比例依次为:45%、45%、10%。
  • 通过修改上述配置,可以将流量在不同的子集群之间切换,实现负载均衡、快速止损、过载保护等目的。

Forwarding Table

子集群内的负载均衡

  • 在同一子集群内的多个实例间,BFE支持使用多种负载均衡算法:
    • WRR: 加权轮询算法
    • WLC: 加权最小连接数
  • 如实例的处理能力不同,可以分配不同的权重。

健康检查

对于BFE下游的每一个实例,BFE会维护一个状态机,包含2个状态:

  • 正常状态:这个实例可以正常处理BFE转发的请求
  • 健康检查状态:实例暂时不可用,BFE对这个实例启动健康检查,直到这个实例恢复正常为止

从正常状态切换到健康检查状态的条件:

  • 建立连接或转发请求的连续失败次数超过一定的阈值

  • 在健康检查状态:

    • BFE会定期向实例发送健康检查请求

从健康检查状态切换到正常状态的条件:

  • BFE从该实例收到健康检查请求的正确响应

失败重试机制

BFE在转发时,支持以下两种失败重试机制:

  • 同子集群重试

    • 在原目标子集群内进行重试
  • 跨子集群重试

    • 在原目标子集群之外、使用另外一个子集群进行重试

连接池

BFE和下游实例的连接支持两种方式:

  • 短连接方式:每次BFE向下游实例转发请求,均需要建立新的TCP连接

  • 连接池方式:

    • BFE为每个下游实例维护一个连接池

    • 当BFE需要向某个下游实例转发请求时:

      • 如果连接池中有idle连接,则复用这个连接
      • 如果连接池中没有idle连接,则会建立一个新的TCP连接
    • 当BFE处理完一个请求时

      • 如果连接池中的idle连接数量小于连接池的大小,则将当前使用的连接放入连接池
      • 如果连接池中的idle连接数量大于等于连接池的大小,则关闭当前使用的连接

会话保持

BFE向下游转发请求时,支持将相同来源请求,转发至固定的业务后端(某个子集群或某个实例)

  • 请求来源标识:

    • 基于请求来源IP
    • 基于请求特定头部,例如请求Cookie等
  • 会话保持级别:

    • 子集群级别:相同来源请求,被转发至固定的业务子集群(注:子集群中的任意实例)
    • 实例级别:相同来源请求,被转发至固定的业务实例