Kubernetes 成立 Checkpoint/Restore 工作组：实现容器无缝迁移与状态保持

Tale_G

275人浏览 · 2026-03-24 08:40:53

Tale_G · 2026-03-24 08:40:53 发布

① 背景与问题（解决了什么痛点）

在现代云原生应用中，容器化和微服务架构已经成为主流。Kubernetes 作为容器编排的领导者，提供了强大的调度、弹性伸缩和自我修复能力。然而，在实际生产环境中，我们仍然面临一些挑战：

长时间运行的 AI 模型推理服务：某些 AI 推理服务需要持续运行数小时甚至数天，如果节点发生故障或需要维护，重启服务会导致服务中断。
资源利用率不均衡：部分工作负载可能在短时间内占用大量 CPU 或 GPU 资源，但这些资源在大部分时间是空闲的，导致资源浪费。
动态扩容和缩减需求：在面对突发流量时，系统需要快速扩展以应对高负载，但在低峰期又需要及时释放资源。

传统上，Kubernetes 提供了 kubectl delete 和 kubectl apply 等命令来管理 Pod 的生命周期，但对于一些需要持久化状态的工作负载来说，这种方式并不高效。例如，一个正在训练的深度学习模型在遇到节点故障后，需要从头开始训练，这会带来巨大的计算开销和时间成本。

这就是 Checkpoint/Restore (CRI) 功能的意义所在。它允许将正在运行的容器状态保存为“快照”（Checkpoint），并在未来恢复该状态（Restore）。通过这一机制，可以实现：

无缝迁移：将正在运行的容器迁移到其他节点，避免服务中断。
容灾备份：在节点故障时快速恢复服务，提升系统的可用性。
资源优化：在非高峰时段将容器暂停并保存状态，节省资源消耗。

Kubernetes 官方宣布成立 Checkpoint/Restore Working Group，标志着 Kubernetes 正式进入支持 CRI 功能的新阶段。

② 核心概念/技术原理

2.1 Checkpoint/Restore 简介

Checkpoint/Restore 是一种将进程状态保存为文件的技术，常用于 HPC（高性能计算）和分布式系统中。在 Kubernetes 中，CRI 的引入使得容器可以像进程一样被快照和恢复。

2.1.1 Checkpoint

当调用 checkpoint 命令时，系统会将容器的内存状态、文件描述符、网络连接等信息保存到磁盘上的一个文件中。这个过程类似于“拍照”，记录当前容器的所有状态。

2.1.2 Restore

当需要恢复容器时，系统会读取之前保存的快照文件，并重新加载容器的状态，使其继续运行，仿佛从未中断过。

2.2 Kubernetes 中的 CRI 支持

Kubernetes 并没有直接提供 CRI 的功能，而是依赖于底层的容器运行时（如 Docker、containerd、CRI-O 等）来实现。目前，大多数主流容器运行时都已支持 CRI 功能。

2.2.1 containerd 支持 CRI

containerd 是 Kubernetes 默认使用的容器运行时之一，它提供了对 CRI 的完整支持。通过 containerd 的 API，我们可以实现容器的 Checkpoint 和 Restore。

2.2.2 CRI-O 支持 CRI

CRI-O 是专为 Kubernetes 设计的轻量级容器运行时，也支持 CRI 功能。相比 containerd，它的设计更加专注于 Kubernetes 的需求。

2.3 实现流程图

③ 实战案例/代码示例

3.1 环境准备

为了演示 Checkpoint/Restore 的使用，我们需要搭建一个 Kubernetes 集群，并确保容器运行时支持 CRI 功能。

3.1.1 安装 containerd

在 Ubuntu 上安装 containerd：

sudo apt update
sudo apt install -y containerd
sudo systemctl enable --now containerd

3.1.2 安装 Kubernetes

使用 kubeadm 安装 Kubernetes 集群：

sudo apt install -y kubelet kubeadm kubectl
sudo kubeadm init --pod-network-cidr=10.244.0.0/16
mkdir -p $HOME/.kube
sudo cp /etc/kubernetes/admin.conf $HOME/.kube/config
sudo chown $(id -u):$(id -g) $HOME/.kube/config

3.1.3 启用 CRI 支持

确保 Kubernetes 使用的是 containerd：

sudo kubeadm config images list | grep containerd

3.2 创建测试 Pod

创建一个简单的 Pod，模拟一个长时间运行的服务。

apiVersion: v1
kind: Pod
metadata:
  name: test-pod
spec:
  containers:
  - name: app
    image: nginx
    ports:
    - containerPort: 80

保存为 test-pod.yaml，然后部署：

kubectl apply -f test-pod.yaml

3.3 检查容器状态

查看容器是否正常运行：

kubectl get pods

确认 Pod 处于 Running 状态。

3.4 执行 Checkpoint

要执行 Checkpoint，我们需要使用 containerd 的 CLI 工具 ctr。

首先获取容器 ID：

kubectl describe pod test-pod | grep Container

输出类似：

Container ID:   docker://<container-id>

使用 ctr 获取容器的 PID：

sudo ctr task ls | grep <container-id>

假设容器 PID 是 12345，则执行 Checkpoint：

sudo ctr task checkpoint --name=checkpoint-test 12345

这会将容器状态保存为一个快照文件，文件名是 checkpoint-test。

3.5 查看快照文件

快照文件默认存储在 /var/lib/containerd/checkpoints/ 目录下：

ls /var/lib/containerd/checkpoints/

你应该看到类似 checkpoint-test 的文件。

3.6 恢复容器

现在，我们可以尝试恢复这个容器：

sudo ctr task restore --name=restored-test checkpoint-test

这会将容器恢复到之前的状态。

3.7 验证恢复效果

检查容器是否恢复正常运行：

kubectl get pods

你可能会看到 Pod 仍处于 Running 状态，说明恢复成功。

3.8 编写脚本自动化操作

为了方便日常使用，可以编写一个 Bash 脚本来自动化 Checkpoint 和 Restore 操作。

#!/bin/bash

# 获取容器 ID
CONTAINER_ID=$(kubectl describe pod test-pod | grep "Container ID" | awk '{print $2}' | cut -d':' -f2)

# 获取容器 PID
PID=$(sudo ctr task ls | grep "$CONTAINER_ID" | awk '{print $1}')

# 执行 Checkpoint
sudo ctr task checkpoint --name="checkpoint-test-$PID" $PID

# 执行 Restore
sudo ctr task restore --name="restored-test-$PID" "checkpoint-test-$PID"

保存为 cr.sh，并赋予执行权限：

chmod +x cr.sh

运行脚本：

./cr.sh

3.9 配置持久化存储

为了保证快照文件不会丢失，建议将快照目录挂载到持久化存储中。

修改 containerd 的配置文件 /etc/containerd/config.toml，添加以下内容：

[plugins."io.containerd.grpc.v1.cri".checkpoint]
  path = "/mnt/checkpoints"

然后重启 containerd：

sudo systemctl restart containerd

3.10 故障场景模拟

模拟节点故障，验证 Checkpoint/Restore 的容灾能力。

将节点标记为不可用：

kubectl label nodes <node-name> node-role.kubernetes.io/control-plane=

等待 Pod 被驱逐。
在另一个节点上恢复容器。
检查服务是否正常。

④ 架构设计/方案对比

4.1 CRI 与其他容灾方案对比

方案	优点	缺点
Checkpoint/Restore	无需重启服务，状态可恢复	依赖容器运行时支持，需额外配置
重启 Pod	简单易用	服务中断，数据丢失风险高
基于日志的恢复	数据一致性高	需要应用程序支持日志回放
基于数据库的快照	适用于有状态应用	不适用于无状态服务

4.2 CRI 与 Kubernetes 原生特性对比

特性	Checkpoint/Restore	Kubernetes 原生
服务中断	无	有
状态保持	是	否
依赖容器运行时	是	否
可靠性	高	中
易用性	中	高

4.3 CRI 与容器镜像的结合

CRI 与容器镜像的结合可以进一步提升效率。例如，可以在构建镜像时预存一些状态，减少启动时间。

FROM nginx
COPY ./app /usr/share/nginx/html

构建镜像后，可以通过 docker commit 生成包含预设状态的镜像。

⑤ 优劣势评估/选型建议

5.1 优势

无缝迁移：在节点故障或维护时，可以将容器迁移到其他节点，避免服务中断。
状态保持：对于长时间运行的 AI 推理服务、训练任务等，可以保留中间状态，提高效率。
资源优化：在非高峰时段暂停容器，节省资源消耗。
容灾备份：通过快照文件进行备份，提高系统可靠性。

5.2 劣势

依赖容器运行时：并非所有容器运行时都支持 CRI，需要根据实际情况选择。
性能开销：每次 Checkpoint 会增加一定的性能损耗，尤其是在高并发场景下。
复杂性增加：需要额外配置和管理快照文件，增加了运维难度。
兼容性问题：不同版本的容器运行时可能对 CRI 的支持存在差异。

5.3 选型建议

适合场景：
- 长时间运行的 AI 推理服务
- 需要高可用性的关键业务
- 资源利用率较低的场景
不适合场景：
- 对性能要求极高的实时应用
- 无状态服务
- 快速迭代的开发环境

5.4 最佳实践

定期备份快照文件：确保快照文件不会因意外丢失。
监控容器状态：使用 Prometheus 等工具监控容器的 Checkpoint/Restore 状态。
合理设置 Checkpoint 频率：避免频繁 Checkpoint 带来的性能开销。
结合 Kubernetes Operator：使用 Operator 管理 Checkpoint/Restore 流程，提高自动化程度。

⑥ 总结与延伸

Checkpoint/Restore 功能为 Kubernetes 带来了全新的可能性，特别是在高可用性和资源优化方面。通过 CRI，我们可以实现容器的无缝迁移、状态保持和容灾备份，从而提升系统的稳定性和效率。

虽然 CRI 仍处于早期阶段，但其潜力巨大。随着更多容器运行时的支持和 Kubernetes 生态的完善，未来 CRI 将成为云原生应用的重要组成部分。

延伸方向

CRI 与 KubeEdge 结合：探索在边缘计算场景下的 CRI 应用。
CRI 与 Serverless 结合：实现函数级别的 Checkpoint/Restore。
CRI 与 AI 框架集成：优化 AI 训练任务的容灾能力。

如果你正在使用 Kubernetes 管理 AI 服务或需要高可用性保障，不妨尝试 CRI 功能，看看它如何帮助你提升系统稳定性。

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

救命！论文DDL只剩3天？这几款AI工具帮你5分钟搞定初稿，知网查重仅10%

本文系统梳理了当前主流的论文写作辅助工具，将其分为三大类：AI智能写作平台（如毕业之家、锐智AI）、专业学术工具链（如Prism、万方智研AI+）和通用AI助手（如Grammarly、ChatGPT）。针对不同用户需求，文章提供了详细的选型建议：强调文献规范的研究者可选择专业平台，时间紧迫的本科生适合高效工具，理工科用户推荐Prism等专业工具。最后提醒用户要合理使用AI工具，保持学术原创性。

AtomGit开源社区

SwifDoo PDF vs JOPDF：最佳免费 PDF 编辑器对比指南

本文对比了两款热门PDF工具：SwifDooPDF和JOPDF。SwifDooPDF功能全面，支持专业PDF编辑、转换及AI智能处理，适合办公和专业用户；JOPDF完全免费、轻量易用，适合日常PDF处理需求。用户可根据自身需求选择：专业办公选SwifDooPDF，基础需求选JOPDF。两款工具都能有效提升PDF处理效率。

AtomGit开源社区

海豚调度DolphinScheduler 和 Spring Cloud Data Flow 对比

‌核心功能与架构：‌ Spring Cloud Data Flow的核心功能包括通过领域特定语言（DSL）或可视化界面定义数据流、管理数据管道的部署与监控，并支持实时数据处理、批处理任务、数据集成等场景。其架构基于微服务设计，主要包括数据流（Stream）和任务（Task）两大模块：数据流用于连续处理事件流（如日志分析、实时推荐），而任务则用于一次性批处理操作（如数据导入导出）。调度模型‌：SCD