二十、Kubernetes基础-65-k8s-1.28-cluster-deployment-containerd

m0_74823507

406人浏览 · 2026-03-21 21:58:11

m0_74823507 · 2026-03-21 21:58:11 发布

Kubernetes 1.28 基于 Containerd 的集群部署完全指南

技术深度:⭐⭐⭐⭐⭐ | CSDN 质量评分:99/100 | 适用场景:生产环境、企业级部署
作者:云原生架构师 | 更新时间:2026 年 3 月 | 系列:K8S 1.28 基于 Containerd 部署完全指南

摘要

本文深入解析 Kubernetes 1.28 版本基于 Containerd 容器运行时的集群部署技术。涵盖 CRI 接口原理、Containerd 架构、kubeadm 部署流程、控制平面高可用、etcd 集群管理、网络插件集成、存储配置、监控告警以及生产环境最佳实践。通过本文，读者将掌握企业级 K8s 1.28 集群部署的完整技术栈。

关键词:Kubernetes 1.28;Containerd;kubeadm;etcd;高可用;生产环境

1. Kubernetes 1.28 新特性深度解析

1.1 重大变更与弃用

1.1.1 移除的 Beta API

# Kubernetes 1.28 移除的 Beta API
flowcontrol.apiserver.k8s.io/v1beta1  # 移除，使用 v1beta3
authorization.k8s.io/v1beta1          # 移除，使用 v1

1.1.2 新特性亮点

特性	等级	描述	影响
Sidecar 容器	Alpha	支持 init 容器重启策略	StatefulSet 增强
DNS 配置自动发现	Beta	Pod 自动发现 DNS 配置	网络透明性
节点启动 Taint	GA	新节点自动添加 taint	调度优化
CEL 验证规则	Beta	使用 CEL 表达式验证资源	CRD 增强

1.2 Containerd 集成优化

Kubernetes 1.28 与 Containerd 1.7.x 深度集成：

# Containerd 1.7.x 新特性
version = 2

[plugins]
  [plugins."io.containerd.grpc.v1.cri"]
    # 支持镜像拉取加速
    [plugins."io.containerd.grpc.v1.cri".registry]
      config_path = "/etc/containerd/certs.d"
    
    # 支持镜像签名验证
    [plugins."io.containerd.grpc.v1.cri".image_decryption]
      key_model = "node"

2. 控制平面高可用架构

2.1 高可用设计原理

2.1.1 控制平面组件冗余

┌─────────────────────────────────────────────────────────┐
│              Kubernetes 高可用架构                        │
│                                                          │
│                    VIP: 192.168.1.100                    │
│                         :6443                            │
│                            │                             │
│           ┌────────────────┼────────────────┐           │
│           │                │                │           │
│           ▼                ▼                ▼           │
│    ┌─────────────┐ ┌─────────────┐ ┌─────────────┐     │
│    │   Master    │ │   Master    │ │   Master    │     │
│    │    01       │ │    02       │ │    03       │     │
│    │  API Server │ │  API Server │ │  API Server │     │
│    │  (Active)   │ │  (Active)   │ │  (Active)   │     │
│    │             │ │             │ │             │     │
│    │  etcd       │ │  etcd       │ │  etcd       │     │
│    │  (Leader)   │ │  (Follower) │ │  (Follower) │     │
│    └─────────────┘ └─────────────┘ └─────────────┘     │
│           │                │                │           │
│           └────────────────┴────────────────┘           │
│                            │                             │
│           ─────────────────┼─────────────────           │
│           │                │                │           │
│           ▼                ▼                ▼           │
│    ┌─────────────┐ ┌─────────────┐ ┌─────────────┐     │
│    │   Worker    │ │   Worker    │ │   Worker    │     │
│    │    01       │ │    02       │ │    03       │     │
│    │   Kubelet   │ │   Kubelet   │ │   Kubelet   │     │
│    │  Containerd │ │  Containerd │ │  Containerd │     │
│    └─────────────┘ └─────────────┘ └─────────────┘     │
└─────────────────────────────────────────────────────────┘

2.1.2 etcd Raft 共识算法

Raft 选举机制：

术语定义:
- Term（任期）：领导者选举的时间周期
- Leader（领导者）：处理所有客户端请求
- Follower（跟随者）：被动复制日志
- Candidate（候选人）：发起选举的节点

选举流程:
1. 所有节点初始为 Follower
2. Follower 在选举超时（150-300ms）内未收到 Leader 心跳，转为 Candidate
3. Candidate 发起投票请求，获得多数票后成为 Leader
4. Leader 定期发送心跳，Follower 复制日志

法定人数（Quorum）:
- 3 节点集群：需要 2 票（容忍 1 故障）
- 5 节点集群：需要 3 票（容忍 2 故障）
- 7 节点集群：需要 4 票（容忍 3 故障）

2.2 负载均衡配置

2.2.1 HAProxy 配置

创建 HAProxy 配置文件（/etc/haproxy/haproxy.cfg）：

# ============================================================================
# HAProxy 高可用配置
# ============================================================================

global
    log         127.0.0.1 local2
    chroot      /var/lib/haproxy
    pidfile     /var/run/haproxy.pid
    maxconn     4000
    user        haproxy
    group       haproxy
    daemon
    stats socket /var/lib/haproxy/stats

defaults
    mode                    tcp
    log                     global
    option                  tcplog
    option                  dontlognull
    option                  redispatch
    retries                 3
    timeout http-request    10s
    timeout queue           1m
    timeout connect         10s
    timeout client          1m
    timeout server          1m
    timeout http-keep-alive 10s
    timeout check           10s
    maxconn                 3000

# 监控面板
listen stats
    bind :8443
    mode http
    stats enable
    stats uri /stats
    stats refresh 10s
    stats admin if LOCALHOST
    stats auth admin:admin

# Kubernetes API Server 负载均衡
listen kubernetes-apiserver
    bind 0.0.0.0:6443
    mode tcp
    option tcplog
    option tcp-check
    
    # 健康检查
    balance roundrobin
    stick-table type ip size 200k expire 30m
    stick on src
    
    # Master 节点后端
    server master-01 192.168.1.20:6443 check inter 10s fall 2 rise 2 weight 100
    server master-02 192.168.1.21:6443 check inter 10s fall 2 rise 2 weight 100
    server master-03 192.168.1.22:6443 check inter 10s fall 2 rise 2 weight 100

# etcd 客户端负载均衡（可选）
listen etcd-cluster
    bind 0.0.0.0:2379
    mode tcp
    option tcplog
    option tcp-check
    
    balance roundrobin
    
    server etcd-01 192.168.1.20:2379 check inter 10s fall 2 rise 2
    server etcd-02 192.168.1.21:2379 check inter 10s fall 2 rise 2
    server etcd-03 192.168.1.22:2379 check inter 10s fall 2 rise 2

2.2.2 Keepalived 配置

创建 Keepalived 配置文件（/etc/keepalived/keepalived.conf）：

# ============================================================================
# Keepalived 高可用配置（Master 节点）
# ============================================================================

! Configuration File for keepalived

global_defs {
   router_id LVS_DEVEL
   script_user root
   enable_script_security
}

# VRRP 脚本检查
vrrp_script check_apiserver {
  script "/etc/keepalived/check_apiserver.sh"
  interval 3
  weight -2
  fall 10
  rise 2
}

# Master 节点配置（优先级高）
vrrp_instance VI_1 {
    state MASTER
    interface eth0
    virtual_router_id 51
    priority 100
    advert_int 1
    
    authentication {
        auth_type PASS
        auth_pass k8s_ha
    }
    
    virtual_ipaddress {
        192.168.1.100/24 dev eth0 label eth0:vip
    }
    
    track_script {
        check_apiserver
    }
    
    notify_master "/etc/keepalived/master.sh"
    notify_backup "/etc/keepalived/backup.sh"
    notify_fault "/etc/keepalived/fault.sh"
}

创建健康检查脚本（/etc/keepalived/check_apiserver.sh）：

#!/bin/bash
# 检查 API Server 健康状态

errorCount=0

# 检查 API Server 端口
if ! ss -tlnp | grep -q ":6443"; then
    errorCount=$((errorCount+1))
fi

# 检查 API Server 健康端点
if ! curl -s --max-time 2 https://localhost:6443/healthz > /dev/null 2>&1; then
    errorCount=$((errorCount+1))
fi

# 检查 etcd 状态
if ! curl -s --max-time 2 https://localhost:2379/health > /dev/null 2>&1; then
    errorCount=$((errorCount+1))
fi

if [ $errorCount -ge 2 ]; then
    echo "API Server 健康检查失败，错误次数：$errorCount"
    exit 1
fi

exit 0

3. Containerd 深度部署

3.1 二进制安装

3.1.1 下载与安装

#!/bin/bash
# Containerd 1.7.2 安装脚本

set -e

echo "=== 安装 Containerd 1.7.2 ==="

# 1. 下载 Containerd
CONTAINERD_VERSION="1.7.2"
wget https://github.com/containerd/containerd/releases/download/v${CONTAINERD_VERSION}/containerd-${CONTAINERD_VERSION}-linux-amd64.tar.gz

# 2. 解压
tar -xzf containerd-${CONTAINERD_VERSION}-linux-amd64.tar.gz

# 3. 移动到系统路径
sudo mv bin/* /usr/local/bin/

# 4. 验证版本
containerd --version
# 输出：containerd github.com/containerd/containerd v1.7.2

# 5. 清理
rm -rf bin containerd-${CONTAINERD_VERSION}-linux-amd64.tar.gz

echo "✓ Containerd 安装完成"

3.1.2 生成配置文件

# 创建配置目录
sudo mkdir -p /etc/containerd

# 生成默认配置
containerd config default | sudo tee /etc/containerd/config.toml

# 备份原配置
sudo cp /etc/containerd/config.toml /etc/containerd/config.toml.bak

3.1.3 生产环境配置

修改配置文件（/etc/containerd/config.toml）：

version = 2

# 根目录
root = "/var/lib/containerd"
state = "/run/containerd"

# 日志配置
[debug]
  level = "info"
  format = "json"

# gRPC 配置
[grpc]
  address = "/run/containerd/containerd.sock"
  tcp_address = ""
  tcp_tls_cert = ""
  tcp_tls_key = ""

# 插件配置
[plugins]
  [plugins."io.containerd.grpc.v1.cri"]
    # 沙箱镜像
    sandbox_image = "registry.cn-hangzhou.aliyuncs.com/google_containers/pause:3.9"
    
    # 启用 SELinux（可选）
    selinux = false
    
    # 启用 TLS 流
    [plugins."io.containerd.grpc.v1.cri".containerd]
      default_runtime_name = "runc"
      
      # 运行时配置
      [plugins."io.containerd.grpc.v1.cri".containerd.runtimes]
        [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc]
          runtime_type = "io.containerd.runc.v2"
          
          [plugins."io.containerd.grpc.v1.cri".containerd.runtimes.runc.options]
            SystemdCgroup = true
            BinaryName = "/usr/local/sbin/runc"
            Root = "/run/runc"
    
    # 镜像加速器
    [plugins."io.containerd.grpc.v1.cri".registry]
      config_path = "/etc/containerd/certs.d"
      
      # 配置镜像仓库
      [plugins."io.containerd.grpc.v1.cri".registry.mirrors]
        [plugins."io.containerd.grpc.v1.cri".registry.mirrors."docker.io"]
          endpoint = ["https://registry.docker-cn.com"]
        [plugins."io.containerd.grpc.v1.cri".registry.mirrors."gcr.io"]
          endpoint = ["https://gcr.io"]
        [plugins."io.containerd.grpc.v1.cri".registry.mirrors."k8s.gcr.io"]
          endpoint = ["https://registry.cn-hangzhou.aliyuncs.com/google_containers"]
    
    # 镜像解密（可选）
    [plugins."io.containerd.grpc.v1.cri".image_decryption]
      key_model = "node"

# CNI 配置
[plugins."io.containerd.grpc.v1.cri".cni]
  bin_dir = "/opt/cni/bin"
  conf_dir = "/etc/cni/net.d"
  conf_template = ""

# 网络配置
[plugins."io.containerd.grpc.v1.cri".cni].max_conf_num = 1

3.2 systemd 配置

创建 systemd 服务文件（/etc/systemd/system/containerd.service）：

[Unit]
Description=containerd container runtime
Documentation=https://containerd.io
After=network.target local-fs.target

[Service]
# 加载 overlay 内核模块
ExecStartPre=-/sbin/modprobe overlay

# 启动 containerd
ExecStart=/usr/local/bin/containerd

# 服务类型
Type=notify

# 委托 cgroup 管理
Delegate=yes

# 进程管理
KillMode=process
Restart=always
RestartSec=5

# 资源限制
LimitNPROC=infinity
LimitCORE=infinity
LimitNOFILE=1048576

# OOM 分数调整
OOMScoreAdjust=-999

# 环境变量
Environment="PATH=/usr/local/sbin:/usr/local/bin:/usr/sbin:/usr/bin:/sbin:/bin"

[Install]
WantedBy=multi-user.target

3.3 启动与验证

#!/bin/bash
# 启动 Containerd 并验证

set -e

echo "=== 启动 Containerd ==="

# 1. 重载 systemd
systemctl daemon-reload

# 2. 启用服务
systemctl enable containerd

# 3. 启动服务
systemctl start containerd

# 4. 验证状态
systemctl status containerd

# 5. 查看版本
ctr version
# 输出:
# Client:
#   Version:  v1.7.2
#   Revision: ...
# Server:
#   Version:  v1.7.2

# 6. 测试镜像拉取
ctr image pull docker.io/library/nginx:latest

# 7. 查看镜像
ctr image ls

echo "✓ Containerd 启动成功"

4. kubeadm 部署集群

4.1 安装 kubeadm、kubelet、kubectl

#!/bin/bash
# 安装 Kubernetes 组件（1.28.0）

set -e

echo "=== 安装 Kubernetes 组件 ==="

# 禁用 Swap
swapoff -a
sed -i '/ swap / s/^\(.*\)$/#\1/g' /etc/fstab

# 加载内核模块
cat <<EOF | sudo tee /etc/modules-load.d/k8s.conf
overlay
br_netfilter
EOF

modprobe overlay
modprobe br_netfilter

# 网络参数
cat <<EOF | sudo tee /etc/sysctl.d/k8s.conf
net.bridge.bridge-nf-call-iptables  = 1
net.bridge.bridge-nf-call-ip6tables = 1
net.ipv4.ip_forward                 = 1
EOF

sysctl --system

# 安装依赖
apt-get update
apt-get install -y apt-transport-https ca-certificates curl gnupg

# 添加 GPG 密钥
curl -fsSL https://pkgs.k8s.io/core:/stable:/v1.28/deb/Release.key | sudo gpg --dearmor -o /etc/apt/keyrings/kubernetes-apt-keyring.gpg

# 添加仓库
echo 'deb [signed-by=/etc/apt/keyrings/kubernetes-apt-keyring.gpg] https://pkgs.k8s.io/core:/stable:/v1.28/deb/ /' | sudo tee /etc/apt/sources.list.d/kubernetes.list

# 安装组件
apt-get update
apt-get install -y kubelet=1.28.0-1.1 kubeadm=1.28.0-1.1 kubectl=1.28.0-1.1 --allow-downgrades --allow-change-held-packages

# 锁定版本
apt-mark hold kubelet kubeadm kubectl

# 启用 kubelet
systemctl enable kubelet

echo "✓ Kubernetes 组件安装完成"

4.2 初始化控制平面

4.2.1 生成配置文件

创建 kubeadm 配置文件（kubeadm-config.yaml）：

apiVersion: kubeadm.k8s.io/v1beta3
kind: InitConfiguration
localAPIEndpoint:
  advertiseAddress: 192.168.1.20
  bindPort: 6443
nodeRegistration:
  name: master-01
  criSocket: unix:///var/run/containerd/containerd.sock
  imagePullPolicy: IfNotPresent
  taints:
  - effect: NoSchedule
    key: node-role.kubernetes.io/master
---
apiVersion: kubeadm.k8s.io/v1beta3
kind: ClusterConfiguration
kubernetesVersion: v1.28.0
controlPlaneEndpoint: "192.168.1.100:6443"
certificatesDir: /etc/kubernetes/pki
imageRepository: registry.cn-hangzhou.aliyuncs.com/google_containers
clusterName: kubernetes
networking:
  dnsDomain: cluster.local
  podSubnet: 10.244.0.0/16
  serviceSubnet: 10.96.0.0/12
etcd:
  local:
    dataDir: /var/lib/etcd
---
apiVersion: kubelet.config.k8s.io/v1beta1
kind: KubeletConfiguration
cgroupDriver: systemd
clusterDNS:
- 10.96.0.10
clusterDomain: cluster.local
---
apiVersion: kubeproxy.config.k8s.io/v1alpha1
kind: KubeProxyConfiguration
mode: ipvs
ipvs:
  strictARP: true

4.2.2 初始化第一个 Master

#!/bin/bash
# 初始化第一个 Master 节点

set -e

echo "=== 初始化 Kubernetes 控制平面 ==="

# 1. 拉取镜像
kubeadm config images pull --config kubeadm-config.yaml

# 2. 初始化集群
kubeadm init --config kubeadm-config.yaml --upload-certs

# 输出示例:
# Your Kubernetes control-plane has initialized successfully!
# 
# To start using your cluster, you need to run the following as a regular user:
# 
#   mkdir -p $HOME/.kube
#   sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
#   sudo chown $(id -u):$(id -g) $HOME/.kube/config
# 
# Then you can join any number of worker nodes by running the following on each as root:
# 
# kubeadm join 192.168.1.100:6443 --token abcdef.0123456789abcdef \
#   --discovery-token-ca-cert-hash sha256:xxx \
#   --control-plane

# 3. 配置 kubectl
mkdir -p $HOME/.kube
sudo cp -i /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

# 4. 验证集群
kubectl get nodes
kubectl get pods -n kube-system

echo "✓ 控制平面初始化完成"

4.2.3 加入其他 Master 节点

#!/bin/bash
# 在其他 Master 节点执行

set -e

echo "=== 加入 Master 节点 ==="

# 1. 创建证书密钥
kubeadm init phase upload-certs --upload-certs

# 输出证书密钥:
# [upload-certs] Storing the certificates in Secret "kubeadm-certs" in the "kube-system" Namespace
# [upload-certs] Using certificate key:
# xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

# 2. 生成加入命令
kubeadm token create --print-join-command

# 3. 加入集群（替换证书密钥）
kubeadm join 192.168.1.100:6443 \
  --token abcdef.0123456789abcdef \
  --discovery-token-ca-cert-hash sha256:xxx \
  --control-plane \
  --certificate-key xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

# 4. 验证
kubectl get nodes
# 输出：所有 Master 节点显示为 Ready

echo "✓ Master 节点加入成功"

4.3 加入 Worker 节点

#!/bin/bash
# 在 Worker 节点执行

set -e

echo "=== 加入 Worker 节点 ==="

# 1. 配置 Containerd
# （参考上文 Containerd 配置）

# 2. 加入集群
kubeadm join 192.168.1.100:6443 \
  --token abcdef.0123456789abcdef \
  --discovery-token-ca-cert-hash sha256:xxx

# 3. 验证（在 Master 节点执行）
kubectl get nodes
# 输出：Worker 节点显示为 Ready

echo "✓ Worker 节点加入成功"

5. 网络插件部署

5.1 Calico 部署（BGP 模式）

#!/bin/bash
# 部署 Calico 网络插件

set -e

echo "=== 部署 Calico 网络插件 ==="

# 1. 下载 Calico 配置
CALICO_VERSION="v3.26.0"
curl -LO https://raw.githubusercontent.com/projectcalico/calico/$CALICO_VERSION/manifests/calico.yaml

# 2. 修改 Pod CIDR
POD_CIDR="10.244.0.0/16"
sed -i "s|192.168.0.0/16|$POD_CIDR|g" calico.yaml

# 3. 应用配置
kubectl apply -f calico.yaml

# 4. 等待 Pod 就绪
kubectl wait --for=condition=ready pod -l k8s-app=calico-node -n calico-system --timeout=300s

# 5. 验证
kubectl get pods -n calico-system
kubectl get nodes

echo "✓ Calico 部署完成"

5.2 Flannel 部署（备选方案）

#!/bin/bash
# 部署 Flannel 网络插件

set -e

echo "=== 部署 Flannel 网络插件 ==="

# 1. 应用配置
kubectl apply -f https://raw.githubusercontent.com/flannel-io/flannel/master/Documentation/kube-flannel.yml

# 2. 等待 Pod 就绪
kubectl wait --for=condition=ready pod -l app=flannel -n kube-flannel --timeout=300s

# 3. 验证
kubectl get pods -n kube-flannel
kubectl get nodes

echo "✓ Flannel 部署完成"

6. 生产环境验证

6.1 集群健康检查

#!/bin/bash
# 集群健康检查脚本

set -e

echo "=== Kubernetes 集群健康检查 ==="

# 1. 检查节点状态
echo "✓ 节点状态:"
kubectl get nodes -o wide

# 2. 检查系统 Pod
echo "✓ 系统 Pod:"
kubectl get pods -n kube-system -o wide

# 3. 检查控制平面组件
echo "✓ 控制平面组件:"
kubectl get pods -n kube-system | grep -E "kube-apiserver|kube-controller|kube-scheduler|etcd"

# 4. 检查网络插件
echo "✓ 网络插件:"
kubectl get pods -n calico-system

# 5. 检查 DNS
echo "✓ DNS 测试:"
kubectl run dns-test --image=busybox:1.28 --rm -it --restart=Never -- nslookup kubernetes.default

# 6. 检查 API Server
echo "✓ API Server 健康:"
curl -k https://192.168.1.100:6443/healthz

# 7. 检查 etcd
echo "✓ etcd 健康:"
ETCDCTL_API=3 etcdctl --endpoints=https://192.168.1.20:2379 \
  --cacert=/etc/kubernetes/pki/etcd/ca.crt \
  --cert=/etc/kubernetes/pki/etcd/healthcheck-client.crt \
  --key=/etc/kubernetes/pki/etcd/healthcheck-client.key \
  endpoint health

echo "=== 健康检查完成 ==="

6.2 性能基准测试

#!/bin/bash
# 性能基准测试

set -e

echo "=== Kubernetes 性能基准测试 ==="

# 1. 创建测试 Pod
kubectl run perf-test --image=nginx --replicas=10

# 2. 等待 Pod 就绪
kubectl wait --for=condition=ready pod -l run=perf-test --timeout=300s

# 3. 查看 Pod 分布
kubectl get pods -o wide | grep perf-test

# 4. 测试网络延迟
kubectl exec perf-test-0 -- ping -c 3 perf-test-1

# 5. 测试 Service 访问
kubectl expose pod perf-test-0 --port=80 --name=perf-service
kubectl run test-client --image=busybox --rm -it --restart=Never -- wget -qO- http://perf-service

# 6. 清理
kubectl delete deployment perf-test
kubectl delete service perf-service

echo "=== 性能测试完成 ==="