k8s之Pod详解

Pod 中的容器3 种pause容器（基础容器、父容器、根容器）给Pod中的容器组环境初始化，具体见上init容器（初始化容器、init container）可以为应用容器事先提供运行环境或辅助工具；还可以阻塞或延迟应用容器的启动Pod 有多个init容器时，是串行启动的，要在上一个init容器成功的完成启动、运行和退出后才会启动下一个init容器应用容器（业务容器、main container

文章共6,420字 · 阅读需要大约22分钟

一键AI生成摘要，助你高效阅读

问答

零居士

5341人浏览 · 2023-07-16 01:07:55

零居士 · 2023-07-16 01:07:55 发布

一、Pod基础概念

Pod是kubernetes中最小的资源管理组件，Pod也是最小化运行容器化应用的资源对象。一个Pod代表着集群中运行的一个进程。kubernetes中其他大多数组件都是围绕着Pod来进行支撑和扩展Pod功能的，例如，用于管理Pod运行的StatefulSet和Deployment等控制器对象，用于暴露Pod应用的Service和Ingress对象，为Pod提供存储的PersistentVolume存储资源对象等。

1.1 在Kubrenetes集群中Pod有如下两种使用方式

●一个Pod中运行一个容器。“每个Pod中一个容器”的模式是最常见的用法；在这种使用方式中，你可以把Pod想象成是单个容器的封装，kuberentes管理的是Pod而不是直接管理容器。

●在一个Pod中同时运行多个容器。一个Pod中也可以同时封装几个需要紧密耦合互相协作的容器，它们之间共享资源。这些在同一个Pod中的容器可以互相协作成为一个service单位，比如一个容器共享文件，另一个“sidecar”容器来更新这些文件。Pod将这些容器的存储资源作为一个实体来管理。

一个Pod下的容器必须运行于同一节点上。现代容器技术建议一个容器只运行一个进程，该进程在容器中PID命名空间中的进程号为1，可直接接收并处理信号，进程终止时容器生命周期也就结束了。若想在容器内运行多个进程，需要有一个类似Linux操作系统init进程的管控类进程，以树状结构完成多进程的生命周期管理。运行于各自容器内的进程无法直接完成网络通信，这是由于容器间的隔离机制导致，k8s中的Pod资源抽象正是解决此类问题，Pod对象是一组容器的集合，这些容器共享NET、MNT、UTS及IPC命名空间，因此具有相同的域名、主机名和网络接口，并可通过IPC直接通信。

Pod资源中针对各容器提供网络命名空间等共享机制的是底层基础容器pause，基础容器（也可称为父容器）pause就是为了管理Pod容器间的共享操作，这个父容器需要能够准确地知道如何去创建共享运行环境的容器，还能管理这些容器的生命周期。为了实现这个父容器的构想，kubernetes中，用pause容器来作为一个Pod中所有容器的父容器。这个pause容器有两个核心的功能，一是它提供整个Pod的Linux命名空间的基础。二来启用PID命名空间，它在每个Pod中都作为PID为1进程（init进程），并回收僵尸进程。

pause容器使得Pod中的所有容器可以共享两种资源：网络和存储。
●网络：
每个Pod都会被分配一个唯一的IP地址。Pod中的所有容器共享网络空间，包括IP地址和端口。Pod内部的容器可以使用localhost互相通信。Pod中的容器与外界通信时，必须分配共享网络资源（例如使用宿主机的端口映射）。

●存储：
Pod可以指定多个共享的Volume。Pod中的所有容器都可以访问共享的Volume。Volume也可以用来持久化Pod中的存储资源，以防容器重启后文件丢失。

总结：
每个Pod都有一个特殊的被称为“基础容器”的Pause容器。Pause容器对应的镜像属于Kubernetes平台的一部分，除了Pause容器，每个Pod还包含一个或者多个紧密相关的用户应用容器。

1.2 kubernetes中的pause容器主要为每个容器提供以下功能

●在pod中担任Linux命名空间（如网络命令空间）共享的基础；
●启用PID命名空间，开启init进程。

1.3 Kubernetes设计这样的Pod概念和特殊组成结构有什么用意？

●原因一：在一组容器作为一个单元的情况下，难以对整体的容器简单地进行判断及有效地进行行动。比如，一个容器死亡了，此时是算整体挂了么？那么引入与业务无关的Pause容器作为Pod的基础容器，以它的状态代表着整个容器组的状态，这样就可以解决该问题。

●原因二：Pod里的多个应用容器共享Pause容器的IP，共享Pause容器挂载的Volume，这样简化了应用容器之间的通信问题，也解决了容器之间的文件共享问题。

二、Pod分类

●自主式Pod
这种Pod本身是不能自我修复的，当Pod被创建后（不论是由你直接创建还是被其他Controller），都会被Kuberentes调度到集群的Node上。直到Pod的进程终止、被删掉、因为缺少资源而被驱逐、或者Node故障之前这个Pod都会一直保持在那个Node上。Pod不会自愈。如果Pod运行的Node故障，或者是调度器本身故障，这个Pod就会被删除。同样的，如果Pod所在Node缺少资源或者Pod处于维护状态，Pod也会被驱逐。
在这里插入图片描述

●控制器管理的Pod
Kubernetes使用更高级的称为Controller的抽象层，来管理Pod实例。Controller可以创建和管理多个Pod，提供副本管理、滚动升级和集群级别的自愈能力。例如，如果一个Node故障，Controller就能自动将该节点上的Pod调度到其他健康的Node上。虽然可以直接使用Pod，但是在Kubernetes中通常是使用Controller来管理Pod的。
在这里插入图片描述

●静态Pod
静态 Pod 直接由特定节点上的 kubelet 进程来管理，不通过 master 节点上的 apiserver 。无法与控制器 Deployment 或者 DaemonSet 进行关联，它由 kubelet 进程自己来监控，当 pod 崩溃时重启该 pod ， kubelete 也无法对他们进行健康检查。静态 pod 始终绑定在某一个 kubelet ，并且始终运行在同一个节点上。 kubelet 会自动为每一个静态 pod 在 Kubernetes 的 apiserver 上创建一个镜像 Pod（Mirror Pod），因此我们可以在 apiserver 中查询到该 pod，但是不能通过 apiserver 进行控制（例如不能删除）。
在这里插入图片描述

在这里插入图片描述

三、容器的分类

3.1 pause基础容器（infrastructure container）

维护整个Pod网络和存储空间
node 节点中操作
启动一个Pod时，k8s会自动启动一个基础容器

//二进制部署k8s指定的pause容器的镜像仓库
cat /opt/kubernetes/cfg/kubelet
......
--pod-infra-container-image=registry.cn-hangzhou.aliyuncs.com/google-containers/pause-amd64:3.0"

//kubeadm方式部署k8s配置Kubelet使用阿里云的pause镜像
cat > /etc/sysconfig/kubelet <<EOF
KUBELET_EXTRA_ARGS="--cgroup-driver=systemd --pod-infra-container-image=registry.cn-hangzhou.aliyuncs.com/google_containers/pause-amd64:3.2"
EOF

 vim /usr/lib/systemd/system/kubelet.service.d/10-kubeadm.conf

在这里插入图片描述

//每次创建 Pod 时候就会创建，运行的每一个Pod都有一个 pause-amd64 的基础容器自动会运行，对于用户是透明的
docker ps -a
registry.cn-hangzhou.aliyuncs.com/google-containers/pause-amd64:3.0   "/pause"

3.1.1 pause 容器的作用

是作为共享 NET MNT PID IPC UTS 命名空间的基础，给Pod中的其他容器提供网络、存储资源的共享
作为Pid=1的进程（init进程）管理整个Pod中容器组的生命周期

3.2 初始化容器（initcontainers）

Init容器必须在应用程序容器启动之前运行完成，是串行启动的，而应用程序容器是并行运行的，所以Init容器能够提供了一种简单的阻塞或延迟应用容器的启动的方法。

Init 容器与普通的容器非常像，除了以下两点：

Init 容器总是运行到成功完成为止
每个 Init 容器都必须在下一个 Init 容器启动之前成功完成启动和退出
如果 Pod 的 Init 容器失败，k8s 会不断地重启该 Pod，直到 Init 容器成功为止。然而，如果 Pod 对应的重启策略（restartPolicy）为 Never，它不会重新启动。

Init 的容器作用
因为init容器具有与应用容器分离的单独镜像，其启动相关代码具有如下优势：
●Init 容器可以包含一些安装过程中应用容器中不存在的实用工具或个性化代码。例如，没有必要仅为了在安装过程中使用类似 sed、 awk、 python 或 dig 这样的工具而去FROM 一个镜像来生成一个新的镜像。

●Init 容器可以安全地运行这些工具，避免这些工具导致应用镜像的安全性降低。

●应用镜像的创建者和部署者可以各自独立工作，而没有必要联合构建一个单独的应用镜像。

●Init 容器能以不同于Pod内应用容器的文件系统视图运行。因此，Init容器可具有访问 Secrets 的权限，而应用容器不能够访问。

●由于 Init 容器必须在应用容器启动之前运行完成，因此 Init 容器提供了一种机制来阻塞或延迟应用容器的启动，
直到满足了一组先决条件。一旦前置条件满足，Pod内的所有的应用容器会并行启动。

实例：

vim demo1.yaml

apiVersion: v1
kind: Pod
metadata:
  name: myapp-demo
spec:
  initContainers:
  - image: soscscs/myapp:v1
    name: init-mysvc
    command: ['sh', '-c', 'until nslookup mysvc; do echo zhangsan like sleeping; sleep 2; done']
  - image: soscscs/myapp:v1
    name: init-mydb
    command:
    - sh
    - -c
    - until nslookup mydb; do echo lisi like dancing; sleep 2; done
  containers:
  - image: soscscs/myapp:v1
    name: myapp-demo
    ports:
    - containerPort: 80
    command:
    - sh
    - -c
    - 'echo myapp is running && sleep 3600'
dnsPolicy: ClusterFirst
restartPolicy: Always

在这里插入图片描述

kubectl describe pod myapp-demo

在这里插入图片描述

kubectl create service clusterip mysvc --tcp=80:80

kubectl create service clusterip mydb --tcp=80:80

在这里插入图片描述

3.3 应用容器（Maincontainer）

官网示例：
https://kubernetes.io/docs/concepts/workloads/pods/init-containers/

apiVersion: v1
kind: Pod
metadata:
  name: myapp-pod
  labels:
    app: myapp
spec:
  containers:
  - name: myapp-container
    image: busybox:1.28
    command: ['sh', '-c', 'echo The app is running! && sleep 3600']
  initContainers:
  - name: init-myservice
    image: busybox:1.28
    command: ['sh', '-c', 'until nslookup myservice; do echo waiting for myservice; sleep 2; done;']
  - name: init-mydb
    image: busybox:1.28
    command: ['sh', '-c', 'until nslookup mydb; do echo waiting for mydb; sleep 2; done;']

这个例子是定义了一个具有 2 个 Init 容器的简单 Pod。第一个等待 myservice 启动，第二个等待 mydb 启动。一旦这两个 Init容器都启动完成，Pod 将启动 spec 中的应用容器。

kubectl describe pod myapp-pod

kubectl logs myapp-pod -c init-myservice

vim myservice.yaml
apiVersion: v1
kind: Service
metadata:
  name: myservice
spec:
  ports:
  - protocol: TCP
    port: 80
    targetPort: 9376
	
kubectl create -f myservice.yaml

kubectl get svc

kubectl get pods -n kube-system

kubectl get pods

vim mydb.yaml
apiVersion: v1
kind: Service
metadata:
  name: mydb
spec:
  ports:
  - protocol: TCP
    port: 80
    targetPort: 9377
	
kubectl create -f mydb.yaml

kubectl get pods

特别说明：
●在Pod启动过程中，Init容器会按顺序在网络和数据卷初始化之后启动。每个容器必须在下一个容器启动之前成功退出。
●如果由于运行时或失败退出，将导致容器启动失败，它会根据Pod的restartPolicy指定的策略进行重试。然而，如果Pod的restartPolicy设置为Always，Init容器失败时会使用RestartPolicy策略。
●在所有的Init容器没有成功之前，Pod将不会变成Ready状态。Init容器的端口将不会在Service中进行聚集。正在初始化中的Pod处于Pending状态，但应该会将Initializing状态设置为true。
●如果Pod重启，所有Init容器必须重新执行。
●对Init容器spec的修改被限制在容器image字段，修改其他字段都不会生效。更改Init容器的image字段，等价于重启该Pod。
●Init容器具有应用容器的所有字段。除了readinessProbe，因为Init容器无法定义不同于完成（completion）的就绪（readiness）之外的其他状态。这会在验证过程中强制执行。
●在Pod中的每个app和Init容器的名称必须唯一；与任何其它容器共享同一个名称，会在验证时抛出错误。

四、镜像拉取策略（imagePullPolicy）

Pod 的核心是运行容器，必须指定容器引擎，比如 Docker，启动容器时，需要拉取镜像，k8s 的镜像拉取策略可以由用户指定：

IfNotPresent：在镜像已经存在的情况下，kubelet 将不再去拉取镜像，仅当本地缺失时才从仓库中拉取，默认的镜像拉取策略；
Always：每次创建 Pod 都会重新拉取一次镜像；
Never：Pod 不会主动拉取这个镜像，仅使用本地镜像。
注意：对于标签为“:latest”的镜像文件，其默认的镜像获取策略即为“Always”；而对于其他标签的镜像，其默认策略则为“IfNotPresent”。

五、Pod 容器的重启策略

k8s中重启策略适用于pod对象中的所有容器，首次需要重启的容器，将在其需要时立即进行重启，随后再次需要重启的操作将由kubelet延迟一段时间后进行，且反复的重启操作的延迟时长为10s，20s，40s，80s，160s，300s， 300s是最大延迟时长

kubectl explain pod.spec.restartPolicy

1. Always：当容器终止退出后，总是重启容器，默认策略

2. OnFailure：当容器异常退出（退出状态码非0）时，重启容器；正常退出则不重启容器

3. Never：当容器终止退出，从不重启容器。

注意：K8S 中不支持重启 Pod 资源，只有删除重建。
在用 yaml 方式创建 Deployment 和 StatefulSet 类型时，restartPolicy 只能是 Always，kubectl run 创建 Pod 可以选择 Always,OnFailure,Never 三种策略

kubectl edit deployment nginx-deployment
......
  restartPolicy: Always

//示例
vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: foo
spec:
  containers:
  - name: busybox
    image: busybox
    args:
    - /bin/sh
    - -c
    - sleep 30; exit 3
    
kubectl apply -f pod3.yaml

//查看Pod状态，等容器启动后30秒后执行exit退出进程进入error状态，就会重启次数加1
kubectl get pods -w

在这里插入图片描述

kubectl delete -f pod3.yaml

vim pod3.yaml
apiVersion: v1
kind: Pod
metadata:
  name: foo
spec:
  containers:
  - name: busybox
    image: busybox
    args:
    - /bin/sh
    - -c
    - sleep 30; exit 3
  restartPolicy: Never
  #注意：跟container同一个级别


kubectl apply -f pod3.yaml

//容器进入error状态不会进行重启
kubectl get pods -w

在这里插入图片描述

六、Pod的状态说明

6.1 Pod 一直处于Pending状态

Pending状态意味着Pod的YAML文件已经提交给Kubernetes，API对象已经被创建并保存在Etcd当中。但是，这个Pod里有些容器因为某种原因而不能被顺利创建。比如，调度不成功(可以通过kubectl describe pod命令查看到当前Pod的事件，进而判断为什么没有调度)。

可能原因:资源不足（集群内所有的Node都不满足该Pod请求的CPU、内存、GPU等资源); HostPort 已被占用(通常推荐使用Service对外开放服务端口)。

6.2 Pod一直处于Waiting 或 ContainerCreating状态

首先还是通过 kubectl describe pod命令查看当前Pod的事件。可能的原因有:
1）镜像拉取失败，比如镜像地址配置错误、拉取不了国外镜像源（gcr.io)、私有镜像密钥配置错误、镜像太大导致拉取超时 (可以适当调整kubelet的-image-pull-progress-deadline和-runtime-request-timeout选项)等。
2）CNI网络错误，一般需要检查CNI网络插件的配置，比如:无法配置Pod 网络、无法分配IP地址。
3）容器无法启动，需要检查是否打包了正确的镜像或者是否配置了正确的容器参数
4）Failed create pod sandbox，查看kubelet日志，原因可能是磁盘坏道（input/output error)。

6.3 Pod 一直处于ImagePullBackOff状态

通常是镜像名称配置错误或者私有镜像的密钥配置错误导致。

6.4 Pod 一直处于CrashLoopBackOff状态

此状态说明容器曾经启动了，但又异常退出。这时可以先查看一下容器的日志。
通过命令kubectl logs 和kubectl logs --previous 可以发下一些容器退出的原因，比如:容器进程退出、健康检查失败退出;此时如果还未发现线索，还而已到容器内执行命令(kubectl exec cassandra - cat /var.log/cassandra/system.loq)来进一步查看退出原因;如果还是没有线索，那就需要SSH登录该Pod所在的Node上，查看Kubelet或者Docker的日志进一步排查。

6.5 Pod处于Error状态

通常处于Error状态说明Pod启动过程中发生了错误。

常见的原因:依赖的ConfigMap、Secret或PV等不存在;请求的资源超过了管理员设置的限制，比如超过了LimitRange等;违反集群的安全策略，比如违反了PodSecurityPolicy.等;容器无法操作集群内的资源，比如开启RDAC后，需要为ServiceAccount配置角色绑定。

6.6 Pod 处于Terminating或 Unknown状态

从v1.5开始，Kubernetes不会因为Node失联而删除其上正在运行的Pod，而是将其标记为Terminating 或 Unknown 状态。想要删除这些状态的Pod有三种方法：

1）从集群中删除Node。使用公有云时，kube-controller-manager会在VM删除后自动删除对应的Node。而在物理机部署的集群中，需要管理员手动删除Node（kubectl delete node）。

2）Node恢复正常。kubelet会重新跟kube-apiserver通信确认这些Pod的期待状态，进而再决定删除或者继续运行这些Pod。用户强制删除，用户可以执行（kubectl delete pods pod-name --grace-period=0 --force）强制删除Pod。除非明确知道Pod的确处于停止状态（比如Node所在VM或物理机已经关机），否则不建议使用该方法。特别是StatefulSet 管理的Pod，强制删除容易导致脑裂或数据丢失等问题。

3）Pod行为异常，这里所说的行为异常是指Pod没有按预期的行为执行，比如没有运行podSpec 里面设置的命令行参数。这一般是podSpec yaml文件内容有误，可以尝试使用 --validate 参数重建容器，比如（kubectl delete pod mypod 和 kubectl create --validate -f mypod.yaml）；也可以查看创建后的podSpec是否是对的，比如（kubectl get pod mypod -o yaml）；修改静态Pod的Manifest后未自动重建，kubelet 使用inotify 机制检测 /etc/kubernetes/manifests 目录（可通过 kubelet 的 -pod-manifest-path 选项指定）中静态Pod的变化，并在文件发生变化后重新创建相应的 Pod。但有时也会发现修改静态Pod的 Manifest后未自动创建新 Pod的情景，此时已过简单的修复方法是重启 Kubelet。

Unknown 这个异常状态意味着Pod的状态不能持续地被 kubelet汇报给 kube-apiserver，这很有可能是主从节点（Master 和 Kubelet）间的通信出现了问题。

6.7 pod从创建到成功或失败的事件

PodScheduled
pod正处于调度中，刚开始调度的时候，hostip还没绑定上，持续调度之后，有合适的节点就会绑定hostip，然后更新etcd数据

Initialized
pod中的所有初始化容器已经初启动完毕

Ready
pod中的容器可以提供服务了

Unschedulable
不能调度，没有合适的节点

七、总结

Pod 中的容器 3 种

pause容器（基础容器、父容器、根容器）给Pod中的容器组环境初始化，具体见上
init容器（初始化容器、init container）可以为应用容器事先提供运行环境或辅助工具；还可以阻塞或延迟应用容器的启动
Pod 有多个init容器时，是串行启动的，要在上一个init容器成功的完成启动、运行和退出后才会启动下一个init容器
应用容器（业务容器、main container）提供应用程序业务
Pod有多个应用容器时，是并行启动。应用容器要在所有init容器都成功的完成启动、运行和退出后才会启动

Pod容器镜像拉取策略 3 种 imagePullPolicy 字段位置在 spec.containers 的下一层级里
IfNotPresent : 优先使用本地已存在的镜像，如果本地则从仓库中拉取镜像
Always：总是从仓库拉取镜像，无论本地是否已存在镜像
Never ：仅使用本地镜像，并总是不从仓库拉取镜像

image: XXX:latest 或 XXX 镜像的标签为latest或无标签时，默认的镜像拉取策略为 Always
image: XXX:xxx 镜像的标签为非latest时，默认的镜像拉取策略为 IfNotPresent