集群管理与维护

etcd备份与恢复

三台etcd的高可用集群，超过半数（两台）挂掉，整个集群会挂掉，etcd需要定期备份。

首先需要下载etcd客户端：https://github.com/etcd-io/etcd/releases

# 查看etcd成员列表
ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/server.crt --key=/etc/kubernetes/pki/etcd/server.key member list

# 当前节点的etcd数据导出为快照
ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/server.crt --key=/etc/kubernetes/pki/etcd/server.key snapshot save etcdbackupfile.db

# 从快照中恢复etcd数据，恢复前需要移除etcd目录中所有数据，否则会造成数据冲突
ETCDCTL_API=3 etcdctl --endpoints=https://127.0.0.1:2379 --cacert=/etc/kubernetes/pki/etcd/ca.crt --cert=/etc/kubernetes/pki/etcd/server.crt --key=/etc/kubernetes/pki/etcd/server.key snapshot restore etcdbackupfile.db --data-dir=/var/lib/etcd

k8s集群升级

注意事项

提前备份etcd
不要跨两个大版本进行升级
升级前在测试环境演练，充分做好回滚方案

升级方案

蓝绿方案，仿照现有k8s集群，直接在新环境部署一套指定版本的k8s，然后把业务流量切换到新环境。
新增一台机器，部署新版本的master节点，然后join进集群，观察一段时间，停一台mater节点，以此类推。
直接在现有环境上升级（集群本身必须是高可用的），先逐台更新master节点（高版本master节点通常可以管理低版本的node，但是也不要版本差异过大），然后逐台更新node节点

升级步骤（方案3）

配置新的软件源

参考阿里云软件源配置：https://developer.aliyun.com/mirror/kubernetes/

新版下载地址： https://mirrors.aliyun.com/kubernetes-new/
确认升级次数

先查出当前所有的正式版本，逐步升级：
1
v1.24.X ——> v1.25.X ——> v1.26.X ——> v1.27.X
每次升级完成之后，都要运行观察一段时间之后，再进行下一次升级。

升级节点，先升级master节点，再升级Node节点

备份数据

1	备份节点上的业务数据目录，master节点还需要备份好etcd数据：/var/lib/etcd目录

禁止调度
1
kubectl cordon k8s-master-01

创建PDB策略

1	对节点上的关键业务Pod，包括关键系统组件Pod（比如coredns）设置PDB策略以及多副本，避免排空Pod时导致服务不可用

排空Pod

1	kubectl drain k8s-master-01 --delete-local-data --ignore-daemonsets --force

升级软件

# 安装指定软件包
yum install -y  kubeadm-1.21.4-0 --disableexcludes=kubernetes
# 查看升级计划
# kubeadm更新计划会打印出目前能支持到的版本，升级集群每个组件对应的当前版本和升级后的版本。而且升级的组件只包括kube-apiserver，kube-controller-manager，kube-scheduler，kube-proxy，CoreDNS，etcd。不包括kubectl,kubelet,docker和网络组件flannel等
kubeadm upgrade plan
# 执行升级计划
kubeadm upgrade apply v1.21.4
# 升级其他组件
yum install -y kubelet-1.21.4.0 kubectl-1.21.4.0  --disableexcludes=kubernetes
# 重启kubelet，否则不会加载新版本
systemctl daemon-reload && systemctl restart kubelet

确认Pod状态

# 如果是Node节点，Pod已经排空，不会出现异常状态的Pod
# 如果是高可用的master节点，还需要在其他master节点上执行 
kubeadm upgrade node
# 否则其他master节点上的pod就会处于CreateContainerConfigError状态

重新接收调度
1
kubectl uncordon k8s-master-01
检查集群状态
1
kubectl get nodes

2025-01-08 该篇文章被邓胖胖打上标签: K8S 归为分类: 学习笔记