Dengpangpang

Nginx负载均衡之高可用

相关概念
1. 什么是高可用
2. Keepalived
Keepalived配置文件
部署keepalived
局域网内多组Keepalived冲突问题
裂脑问题
高可用服务只针对物理服务器问题
1. 开机执行脚本实现
2. Keepalived监控脚本实现

Keepalived配置文件

keepalived的安装比较简单，可以选用yum安装和源码安装，不再赘述。

安装完成后，对Keepalived进行配置，打开配置文件/etc/keepalived/keepalived.conf

! Configuration File for keepalived

# 全局定义开始
global_defs {
   # 定义邮件收发相关配置已省略
   
   router_id LVS_DEVEL			# 当前主机节点的Keepalived实例的ID，可以理解为标识主机的
   vrrp_skip_check_adv_addr
   vrrp_strict
   vrrp_garp_interval 0
   vrrp_gna_interval 0
}

# vrrp实例配置
vrrp_instance VI_1 {		# vrrp_instance 实例名称
    state MASTER				# 节点状态
    interface eth0				# 绑定的网卡
    virtual_router_id 51		# 虚拟路由id，主备节点要一致
    priority 100				# 优先级
    advert_int 1				# 通告报文时间间隔（心跳间隔）
    authentication {			# 认证方式
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {			# 虚拟出来的IP，一般配置一个，可以有多个
        192.168.200.16 label eth0:3	 # 可以定义一个标签，使用ifconfig命令查看此IP。否则只能用 ip addr show 命令查看
    }
}

# 其余部分为LVS相关配置，已省略

部署keepalived

环境准备

主机	IP	角色	备注
lb01	192.168.110.135	负载均衡服务器	主服务
lb02	192.168.110.136	负载均衡服务器	热备

lb01

global_defs {
   router_id lb01				
}

vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {	
        192.168.110.130 label eth0:3
    }
}

lb02

global_defs {
   router_id lb02
}

vrrp_instance VI_1 {
    state BACKUP						# 状态必须不同
    interface eth0
    virtual_router_id 51				# 虚拟路由id必须相同
    priority 50							# 优先级必须不同
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }
    virtual_ipaddress {	
        192.168.110.130 label eth0:3	# 虚拟IP地址必须相同
    }
}

局域网内多组Keepalived冲突问题

当在同一个局域网内部署了多组Keepalived服务器对，而又未使用专门的心跳线通信时，可能会发生高可用接管的严重故障问题。之前已经讲解过Keepalived高可用功能是通过VRRP协议实现的，VRRP协议默认通过IP多播的形式实现高可用对之间的通信，如果同一个局域网内存在多组Keepalived服务器对，就会造成IP多播地址冲突问题，导致接管错乱，不同组的Keepalived都会使用默认的224.0.0.18作为多播地址。此时的解决办法是，在同组的Keepalived服务器所有的配置文件里指定独一无二的多播地址，配置如下：

global_defs {                               
	router_id LVS_19                        #主机标识
	vrrp_mcast_group4 224.0.0.19    		#这个就是指定多播地址的配置
}

注意：
1）不同实例的通信认证密码也最好不同，以确保接管正常。

2）另一款高可用软件Heartbeat，如果采用多播方式实现主备通信，同样会有多播地址冲突问题。

裂脑问题

什么是裂脑

脑裂（split-brain）：在高可用（HA）系统中，当联系2个节点的“心跳线”断开时，本来为一整体分裂成为2个独立的个体。由于相互失去了联系，都以为是对方出了故障。两个节点上的HA软件像“裂脑人”一样，争抢“共享资源”、争起“应用服务”，就会发生严重后果——或者共享资源被瓜分、2边“服务”都起不来了；或者2边“服务”都起来了，但同时读写“共享存储”，导致数据损坏。

脑裂现象发生的原因

（1）高可用服务器对之间心跳线链路发生故障，导致无法正常通信。

（2）因心跳线坏了（包括断了，老化）。

（3）因网卡及相关驱动坏了，ip配置及冲突问题（网卡直连）。

（4）因心跳线间连接的设备故障（网卡及交换机）。

（5）因仲裁的机器出问题（采用仲裁的方案）。

（6）高可用服务器上开启了 iptables防火墙阻挡了心跳消息传输。

（7）高可用服务器上心跳网卡地址等信息配置不正确，导致发送心跳失败。

（8）其他服务配置不当等原因，如心跳方式不同，心跳广插冲突、软件Bug等。

（9）Keepalived配置里同一 VRRP实例如果virtual_router_id两端参数配置不一致也会导致裂脑问题发生。

（10）keepalived 进程被强制kill后，虚拟 ip 移除不掉，导致脑裂的现象。

如何避免裂脑问题

在实际生产环境中，可以从以下几个方面来防止裂脑问题的发生：

（1）同时使用串行电缆和以太网电缆连接，同时用两条心跳线路，这样一条线路坏了，另一个还是好的，依然能传送心跳消息。

（2）当检测到裂脑时强行关闭一个心跳节点（这个功能需特殊设备支持，如Stonith、feyce）。相当于备节点接收不到心跳消患，通过单独的线路发送关机命令关闭主节点的电源。

（3）做好对裂脑的监控报警（如邮件及手机短信等或值班）.在问题发生时人为第一时间介入仲裁，降低损失。例如，百度的监控报警短倍就有上行和下行的区别。报警消息发送到管理员手机上，管理员可以通过手机回复对应数字或简单的字符串操作返回给服务器.让服务器根据指令自动处理相应故障，这样解决故障的时间更短。

高可用服务只针对物理服务器问题

默认情况下 Keepalived 软件仅仅在对方机器宕机或 Keepalived停掉的时候才会接管业务。但在实际工作中，有业务服务停止而Keepalived服务还在工作的情况，比如服务器不宕机，nginx负载服务异常停止了，此时没法分发请求，致用户访问的VIP无法找到对应的服务。

下面的方式是实现Keepalived搭配Nginx使用的方案：
keepalived判断nginx服务是否异常，如果nginx服务异常，实现虚拟IP漂移到备用服务器。

开机执行脚本实现

分别在lb01,lb02上配置如下脚本

1	vim /server/tools/chk_nginx_proxy.sh # 编写脚本

#!/bin/bash

while true
do
    if [ `netstat -lntup|grep nginx|wc -l` -ne 1 ];then
        systemctl stop keepalived.service
    fi
        sleep 5
done

1	chmod +x chk_nginx_proxy.sh # 通过将此脚本加入开机启动命令中，实现对Nginx的监控

Keepalived监控脚本实现

分别在lb01，lb02上配置keepalived.conf，以lb01为例，

global_defs {
   router_id lb01				
}

#定义一个vrrp脚本，由Keepalived执行上述编写的脚本文件
vrrp_script chk_nginx_proxy {		
    script "/server/scripts/chk_nginx_proxy.sh"	
    interval 2 			# 间隔2秒。
    weight 2			# 权重，多个脚本存在时，决定脚本的执行顺序
}

vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    authentication {
        auth_type PASS
        auth_pass 1111
    }

    virtual_ipaddress {	
        192.168.110.130 label eth0:3
    }
    
    # 需要在vrrp实例的配置中添加此脚本
    track_script {
    chk_nginx_proxy
    }
}

2023-11-04 该篇文章被邓胖胖打上标签: Nginx 归为分类: 学习笔记

相关概念

什么是高可用