第18课：ViT模型深度解析【Transformers在计算机视觉的突破】

Thomas.Sir

602人浏览 · 2026-05-01 17:38:52

Thomas.Sir · 2026-05-01 17:38:52 发布

在这里插入图片描述

文章目录

从 NLP 到 CV：纯 Transformer 如何改写图像识别规则，挑战并超越 CNN 霸主地位？

写在前面：当 CV 遇见 NLP，一个新时代被打开

在 ViT 出现之前，计算机视觉领域几乎被卷积神经网络（CNN）统治。从 2012 年的 AlexNet 到 2015 年的 ResNet，再到 2017 年的 EfficientNet，CNN 一直是图像分类、目标检测、语义分割等视觉任务的绝对霸主。

CNN 之所以强大，核心在于其内置的归纳偏置（inductive bias） ——平移不变性和局部连接性——这些特性让它能高效地从图像中提取局部到全局的特征。但它们也带来了一个长期困扰研究者的难题：CNN 的感受野（receptive field）受限于卷积核大小，要捕捉长距离依赖必须层层堆叠卷积层，这会导致信息在传递中衰减。

另一方面，Transformer 在 NLP 领域的成功让研究者开始思考：既然 Transformer 可以通过自注意力直接建模序列中任意两个位置的关系，那能否把图像看作“一组像素块构成的序列”，把 Transformer 搬到视觉任务中来？

2020 年 10 月，Google Brain 团队给出了答案。论文 《An Image is Worth 16x16 Words: Transformers for Image Recognition at Scale》 正式提出了 Vision Transformer (ViT)。它用最朴素的设计告诉世界：纯 Transformer 结构，不需要任何 CNN 卷积层的辅助，就可以在足够大规模数据上训练出与 CNN 最先进模型媲美甚至更优的性能。

这项创新在 ICLR 2021 上发表后，彻底引爆了 CV 领域。如今，ViT 已成为计算机视觉领域的“地基”级架构，衍生出 Swin Transformer、DeiT、ViT-G/14 等一系列优秀模型。

本节课你将系统掌握：

ViT 如何把图像“切碎”成序列，让视觉数据无缝对接 Transformer；
图像分块嵌入 + 位置编码 + [CLS] 分类 token 这三大核心模块的设计逻辑；
自注意力机制如何从第一层起就建立全局感受野，在长距离关系建模上碾压 CNN；
ViT 与 CNN 的对决：数据量、计算量与性能之间的权衡关系；
数据密集型与数据高效型两个时代：DeiT 如何用小于 1/300 的数据量达到接近 ViT 的性能；
从零开始，用 PyTorch 一步步搭建一个完整的 ViT 模型，并在 MNIST 上完成端到端训练；
注意力图可视化，直观感受模型“在看哪里”，理解 ViT 的可解释性优势。

一、ViT 的提出背景与核心思路——从“像素”到“词元”的跨越

1.1 为什么要让 Transformer “看” 图像？

在 ViT 之前，Transformer 在计算机视觉中的应用非常有限。仅有目标检测中的 DETR 是较早尝试大规模使用 Transformer 的工作，而纯 Transformer 结构的图像分类网络则几乎不存在。

为了让 Transformer 能够处理图像输入，研究者面临一个根本性的设计问题：如何将二维像素网格转化为 Transformer 天生需要的一维 token 序列？

ViT 的核心思路极其简单且优雅：把图像看作由局部“视觉词元”组成的序列。具体而言，将输入图像划分为多个固定大小的非重叠图像块（Patch） 。这些 Patch 扮演的角色，恰好对应 NLP 中 Transformer 输入的单词。

论文标题 “An Image is Worth 16x16 Words” 精准概括了这种设计理念——一张图像的价值，可以等价于 16×16 个“视觉单词”。这个经典标题源于 Google 团队的有趣发现：对于标准 ImageNet 数据集（224×224 分辨率），采用 16×16 的 Patch 划分，恰好得到 196 个 Patch——与原始 Transformer 论文中常见的序列长度量级完美吻合。

1.2 架构设计的核心优势与核心理念

ViT 完全舍弃了 CNN 特有的卷积和池化操作。这种大胆的简化带来了几项结构性优势：

全局信息建模：自注意力机制允许模型在第一层就建立全局感受野，直接捕捉任意两个像素块之间的依赖关系。而在 CNN 中，长距离依赖需要层层叠加深层网络才能建立。
可扩展性强：随着数据量和模型参数规模的增加，ViT 的性能持续提升，在大数据场景下展现出优于传统 CNN 的扩展潜力。
架构简洁并统一 NLP–CV 范式：只需在输入层将二维图像转换为 token 序列，其余部分完全复用标准 Transformer，实现了 NLP 与 CV 在模型架构层面的首次大范围统一。

ViT 的核心信条清晰而有力：基于海量数据，纯自注意力机制足以从零开始学习空间结构，不依赖任何人工设计的局部归纳偏置。

二、ViT 模型结构详解——从输入到输出的完整拆解

下面我们逐层拆解 ViT 的完整架构流程。

2.1 阶段一：图像分块（Patch Embedding）——从像素到“视觉词元”

ViT 的第一步是把二维图像拆成一维序列。具体流程如下：

划分 Patch：将输入图像 (H, W, C) 划分为 N = (H × W) / P² 个非重叠的 P×P 大小的 Patch，每个 Patch 实际上是像素小区域。例如对于 224×224×3 的输入图像，采用 16×16 的 Patch 划分后，可得到 (224/16)×(224/16) = 196 个 Patch，每个 Patch 在展平后的维度为 16×16×3 = 768 维。
线性投影（Patch Embedding） ：将每个展平后的 Patch 向量通过一个可训练的线性层（全连接层）映射到固定的 D 维嵌入空间，通常 D = 768。这一步将原始像素值，转化为模型能够理解和处理的高维语义特征。

patches = image.unfold(...)  # 形状: [N, H/P, W/P, P*P*C]
patches = patches.flatten(1, 2).permute(0, 2, 1)  # 形状: [N, num_patches, P*P*C]
projected_patches = linear_layer(patches)  # 形状: [N, num_patches, D]

2.2 阶段二：Class Token——聚合全局表示的关键

完成了 Patch Embedding 后，ViT 借鉴 BERT 的设计思路，在序列开头添加一个特殊的可学习嵌入向量——Class Token [CLS] 。这个 Class Token 通过自注意力机制与所有图像块的 embedding 交互融合，最终被用作整个图像的聚合表示向量（聚合了全图信息），直接送入分类头进行预测。这一设计相比对所有 Patch 输出做全局平均池化效果更优。

最终输入序列为： [CLS Token, Patch1, Patch2, ..., PatchN]。

2.3 阶段三：位置编码（Positional Encoding）——重建空间秩序

Transformer 自注意力机制对输入顺序完全不敏感。若不加干预，左上角的 Patch 与右下角的 Patch 的“位置价值”对模型而言完全相同，几乎等同于把图像打散为词袋。

ViT 为此引入了可学习的位置编码（Learnable Positional Encoding） ——在输入每个 Patch embedding 和 Class Token 后，加上一个维度相同的可学习向量，用于标注它在原始网格中的空间坐标。可学习的位置编码存储在模型参数中，在训练中自动调整，学会根据任务需求区分不同位置的特征。

同时，为了保留二维图像的结构信息，ViT 采用二维位置编码扩展（可选择正弦编码或可学习编码），给每个 Patch 分别编码其行索引和列索引，确保模型能还原局部空间的相关性，并维持空间临近 Patch 的编码相似性。

2.4 阶段四：Transformer 编码器堆叠——自注意力和前馈网络的深度融合

处理完输入层后，序列被送入标准 Transformer 编码器模块。ViT 使用了与原始 NLP Transformer 完全一致的编码器结构。

每个编码器层包含两个核心子模块：

多头自注意力（MSA） ：在前两节课，我们深入分析了 MSM 的基本原理。ViT 的多头自注意力机制完全相同，但与 NLP 不同——注意力的作用对象是图像 Patch 而非单词。每个注意力头将输入分入不同的子空间进行计算，使模型能够从多个维度（多个子空间）捕捉不同 Patch 之间的交互关系。计算 Attention 公式与 NLP 完全相同：

$\frac{QK^T}{\sqrt{d_k}}V$
前馈网络（FFN） ：位置独立的全连接网络，包含两个线性层和一个 GELU 激活函数，负责在注意力之后对每个位置进行单独的非线性变换。

训练方式方面，ViT 在预训练阶段使用带标签的大规模数据集（如 ImageNet、JFT-300M）进行有监督学习，直接优化分类损失。编码器内部的细节与前几课中的描述相似，此处不再赘述。

在 ViT 的具体实现中，每个子模块后都添加了经典的“残差连接 + 层归一化”（Post-LN）结构，缓解梯度消失并稳定训练：

def transformer_block(x):
    x = x + mha(layer_norm(x))  # 自注意力 + 残差
    x = x + ffn(layer_norm(x))  # 前馈网络 + 残差
    return x

2.5 中间输出与分类模块

经过全部 L 层编码器堆叠后，序列各位置的最终隐状态矩阵产生。ViT 从中仅提取 Class Token 位置的最终输出状态，将其作为对整个图像的全局语义表征，送入一个简单 MLP 分类头来产生预测结果。

MLP 输出为 [num_classes] 维度的 logits，最终通过 argmax 获得类别预测。

三、ViT 的适用场景与改进版本

3.1 ViT 的核心适用场景

ViT 在图像分类中率先证明了纯 Transformer 架构可媲美 CNN SOTA 效果。除分类外，ViT 在众多视觉任务中也展现出极大潜力：

图像分类：ViT 可在大规模数据（如 ImageNet、JFT-300M）上预训练后超越 CNN。ViT-Base 预训练后 ImageNet 微调达到 84.1% 的 Top-1 准确率。
目标检测：ViT 可作为骨干特征提取网络，配合检测头实现 SOTA 水平。
语义分割：ViT 的自注意力机制，有助于捕捉遥感影像、医疗图像等任务中的远距离上下文依赖。
零样本/少样本视觉识别：基于 ViT 的自监督训练方法（如 DINO）能够学习极其有效的视觉特征。

3.2 ViT 与 CNN 的优劣势全面对比

CNN 与 ViT 的权衡，是每一门 CV/AI 面试最可能遇到的“必考题”。

CNN 的优势：CNN 依托卷积核内置的归纳偏置（局部连接和平移不变性），能从相对较少的数据中高效学习，在小数据训练时泛化能力强于 ViT，因为其设计天然就传达了关于二维图像结构的先验知识，模型不需要完全从头学习空间层次性。CNN 的计算量通常随深度线性增长，成熟度高。
ViT 的挑战：由于 ViT 初始时不具备 CNN 那样的归纳偏置，它需要通过超大、海量的训练数据来从头“学出”空间结构，在小数据集上训练极易过拟合。当数据量不足时，简单 ViT 的性能可能显著落后于同量级的 CNN。
“规模法则”下 ViT 迎来反转：当预训练数据规模足够大（如 JFT-300M，含 3 亿张标注图片）时，ViT 可以开始真正发挥自注意力长距离检索的优势，在 ImageNet 等下游基准上达到比 CNN 更佳的扩展表现。

3.3 数据规模与计算预算的权衡决策表

以下总结不同场景下 ViT 与 CNN 的选择倾向：

场景	推荐架构	原因
小数据集，快速验证有限类别	CNN（如 ResNet）	归纳偏置强，收敛快，数据高效
大数据集，追求极致准确率	ViT 或混合架构（CNN-ViT hybrid）	全局信息建模强，随规模扩展能力强
跨模态、不同领域任务	ViT 输入灵活（基于 patch 可扩展性强）	可与其他模态数据无缝在 token 空间融合
实时推理（低时延）	CNN（成熟且高度硬件优化）	优化成熟，硬算速度占优，ViT 参数量较大时推理偏慢
显存/内存受限的部署	CNN（可利用卷积实现分块计算）	ViT patch 数量和 self-attention 对显存要求较高

3.4 数据高效 Transformer 的突破：DeiT

正是因为 ViT 巨大的训练数据需求严重限制了可复现性和应用宽度——训练 ViT 达到最佳效果需要使用数亿张图片的私有数据集 JFT-300M（约比 ImageNet 大 30 倍），这对学界和产业实际开发者几乎无法准入。

2020 年底，Meta AI 提出的 DeiT（Data-efficient Image Transformer） 用知识蒸馏（Knowledge Distillation） 给予 ViT 全新生命力。DeiT 在标准 Transformer 基础上做出两项关键贡献：

增加蒸馏 Token（Distillation Token）：在 ViT 原有 Class Token 之外引入第二个蒸馏 Token，与 Class Token 一起通过自注意力机制进行共同训练。Class Token 负责从真实标签中学习分类目标（Ground Truth），蒸馏 Token 则从预训练好的 CNN 教师模型（如 RegNetY）的预测中学习软分布。训练完成后，两个 Token 经线性映射后得到分类和蒸馏的输出，测试时将两者的预测进行加权组合。
大幅降低数据需求：在这种蒸馏策略下，DeiT 仅需公开的 ImageNet-1k 数据集（120 万张图片）即可训练出优秀性能，所需数据量仅为原始 ViT 所需 JFT-300M 数据量的 1/300 左右。DeiT-B 在 ImageNet-1K 上达到了 85.2% 的 Top-1 准确率（仅使用 8 张 GPUs，无需额外数据），性能与需要海量私有数据预训练的 ViT 相当。
通用性：DeiT 在多个下游迁移学习任务中也保持极具竞争力的表现，大幅降低了学术场景及中小团队使用 ViT 的门槛。

四、手把手实现：用 PyTorch 从头构建 ViT，并在 MNIST 上完成分类

为帮助你巩固 ViT 的结构核心，以下代码将从零搭建一个用于 MNIST（尺寸调整为 32×32）的 ViT 分类模型。代码依赖 PyTorch（建议 CPU 内存不低于 2GB）。

步骤 1：导入依赖库和基础配置

import torch
import torch.nn as nn
from torchvision.datasets import MNIST
import torchvision.transforms as T
from torch.utils.data import DataLoader
import matplotlib.pyplot as plt

# 配置参数，适合 MNIST 数据集
batch_size = 64
epochs = 10
learning_rate = 1e-4
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
print(f"Using device: {device}")

# 定义超参数
image_size = 32        # 原始 MNIST 图像尺寸是 28×28，但一般调整至 32×32 则 patch 划分规整
patch_size = 4         # 4×4 小 patch，专门适配小图片，更容易计算
in_channels = 1        # MNIST 灰度图单通道
num_patches = (image_size // patch_size) ** 2
projection_dim = 64    # embedding 维数，为简便可维持 64
num_heads = 4          # 注意力头数量
num_layers = 6         # 编码器层数
num_classes = 10

步骤 2：定义图像分块嵌入（Patch Embedding）模块

class PatchEmbedding(nn.Module):
    """ 将原始图像分割为一组 patch，并通过线性变换转为嵌入向量 """
    def __init__(self, in_channels, patch_size, embedding_dim, image_size):
        super().__init__()
        self.patch_size = patch_size
        # 使用卷积层实现同时进行“划分 + 线性投影”，一步完成：卷积核大小为 patch_size，步长也为 patch_size
        self.projection = nn.Conv2d(in_channels, embedding_dim, 
                                    kernel_size=patch_size, stride=patch_size)
        # 由于 embedding_dim 即卷积输出后的 C，需要已知 patch 个数以拼成序列，如下计算：
        num_patches = (image_size // patch_size) ** 2
        self.num_patches = num_patches

    def forward(self, x):
        # x: (batch, channel, H, W)
        x = self.projection(x)          # (batch, embed_dim, H/p, W/p)
        x = x.flatten(2)                # (batch, embed_dim, num_patches)
        x = x.transpose(1, 2)           # (batch, num_patches, embed_dim)
        return x

步骤 3：定义 ViT 完整模型

class VisionTransformer(nn.Module):
    def __init__(self, in_channels, patch_size, image_size, embedding_dim, 
                 num_layers, num_heads, num_classes, dropout=0.1):
        super().__init__()
        # 1. patch embedding layer
        self.patch_embed = PatchEmbedding(in_channels, patch_size, embedding_dim, image_size)
        num_patches = self.patch_embed.num_patches
        
        # 2. 可学习的 class token
        self.cls_token = nn.Parameter(torch.randn(1, 1, embedding_dim))
        
        # 3. 可学习的位置编码（位置嵌入）
        self.pos_embedding = nn.Parameter(torch.randn(1, num_patches + 1, embedding_dim))
        
        # 4. 堆叠的 Transformer 编码器层（用 nn.TransformerEncoder）
        encoder_layer = nn.TransformerEncoderLayer(
            d_model=embedding_dim,
            nhead=num_heads,
            dim_feedforward=embedding_dim * 4,
            dropout=dropout,
            activation="gelu",
            batch_first=True
        )
        self.transformer_encoder = nn.TransformerEncoder(encoder_layer, num_layers=num_layers)
        
        # 5. MLP 分类头
        self.classifier = nn.Sequential(
            nn.LayerNorm(embedding_dim),
            nn.Linear(embedding_dim, num_classes)
        )
        self.dropout = nn.Dropout(dropout)

    def forward(self, x):
        B = x.shape[0]
        # (B, num_patches, emb_dim)
        x = self.patch_embed(x)
        
        # 重复 class token 以适配 batch 大小
        cls_tokens = self.cls_token.expand(B, -1, -1)   # (B, 1, emb_dim)
        x = torch.cat((cls_tokens, x), dim=1)           # (B, num_patches+1, emb_dim)
        
        # 加入学习的位置编码
        x = x + self.pos_embedding
        x = self.dropout(x)
        
        # Transformer encoder
        x = self.transformer_encoder(x)                 # (B, num_patches+1, emb_dim)
        
        # 提取 class token 位置的输出
        cls_output = x[:, 0, :]                         # (B, emb_dim)
        logits = self.classifier(cls_output)
        return logits

步骤 4：加载 MNIST 数据集并初始化模型

transform = T.Compose([
    T.Resize((image_size, image_size)),
    T.ToTensor(),
])

train_dataset = MNIST(root="./data", train=True, download=True, transform=transform)
test_dataset = MNIST(root="./data", train=False, download=True, transform=transform)
train_loader = DataLoader(train_dataset, batch_size=batch_size, shuffle=True)
test_loader = DataLoader(test_dataset, batch_size=batch_size)

model = VisionTransformer(
    in_channels=in_channels,
    patch_size=patch_size,
    image_size=image_size,
    embedding_dim=projection_dim,
    num_layers=num_layers,
    num_heads=num_heads,
    num_classes=num_classes,
    dropout=0.1
).to(device)

criterion = nn.CrossEntropyLoss()
optimizer = torch.optim.Adam(model.parameters(), lr=learning_rate)

print(f"Model parameters: {sum(p.numel() for p in model.parameters())/1e6:.2f}M")

步骤 5：训练与评估

for epoch in range(epochs):
    model.train()
    total_loss = 0
    for images, labels in train_loader:
        images, labels = images.to(device), labels.to(device)
        optimizer.zero_grad()
        logits = model(images)
        loss = criterion(logits, labels)
        loss.backward()
        optimizer.step()
        total_loss += loss.item()
    
    # 验证评估
    model.eval()
    correct = 0
    with torch.no_grad():
        for images, labels in test_loader:
            images, labels = images.to(device), labels.to(device)
            logits = model(images)
            preds = torch.argmax(logits, dim=1)
            correct += (preds == labels).sum().item()
    acc = correct / len(test_dataset)
    print(f"Epoch {epoch+1}/{epochs}, Loss: {total_loss/len(train_loader):.4f}, Test Acc: {acc*100:.2f}%")

步骤 6：可视化注意力图（可选扩展）

ViT 的自注意力的核心优势之一是可解释性——可以通过提取注意力权重来观察模型“在看图片的哪个部分”。完整的注意力权重提取方法正是一类前沿的热点研究，多种方法如 Rollout、Attention Map 均已成熟。在此简要介绍实现思路：

在 nn.TransformerEncoderLayer 中无法直接输出注意力权重，需要手写编码器层以提取权重（类似第 6 课）。但通过开源库 vit-pytorch 可以更方便地实现可视化。

基于自注意力图的可视化直观表明，模型在一些无监督变种（如 DINO）中甚至可以自发学会依据语义进行细粒度的区域划分。

训练完成并能可视化注意力权重的完整代码工程可作为课后拓展练习。

至此，你用纯 PyTorch 完成了一个从零搭建 ViT，并在 MNIST 手写数字识别上得到验证的完整 CV Transformer 模型。

五、面试高频考点速答

ViT 的“视觉词元（Visual Token）”是如何生成的？
答：通过图像分块（Patch Embedding），使用固定大小的滑窗（例如 16×16）将图像划分为非重叠的块，每个块展平后经过线性变换映射到词嵌入维度。
ViT 为什么需要特别强的数据增强？
答：ViT 比 CNN 少了局部性等先验信息，完全从数据中学习空间结构。数据增强能为模型提供更多样的样本，帮助它从有限的训练数据中学习更丰富的空间特征，以补偿归纳偏差的缺失。
为什么可学习的位置编码对 ViT 极为重要？
答：自注意力机制不包含位置顺序信息，ViT 需要位置编码强制引入空间结构，否则 patch 全乱序对图像识别任务无效。采用可学习的位置编码，让模型从数据中自行优化位置关系是最有效的方法。
ViT 中 Class Token [CLS] 取分类输出，这种做法与全局池化有什么不同效果？
答：[CLS] token 在训练时不断通过自注意力机制与全部 Patch 交互遍历，最终学会整合全图语义；而全局池化直接将所有 Patch 的隐向量做平均或最大池化。在某些任务中，[CLS] token 具有稍好表现，因为它可以自适应地决定每个 space 的重要性权重。
DeiT 如何解决 ViT 的数据饥渴？蒸馏 token 的作用是什么？
答：DeiT 通过知识蒸馏技术，利用蒸馏 Token 学习预训练 CNN 教师模型的软标签预测，同时保留 Class Token 的真实标签目标，提供了额外的强训练信号，大幅减少了对海量标注数据的需求。

六、课后延伸与思考

**动手调整：**调整 patch size 的大小，观察模型准确率和训练收敛速度的变化。你可修改参数 patch_size=8 或 14，观察分类性能的曲线。
**实战混合架构：**在真实 CIFAR-10 数据上对比纯 CNN (ResNet18) 与 ViT 在相同 Epoch 下的准确率差异，理解数据规模与归纳偏置的具体影响。
论文精读：阅读 ViT 原始论文《An Image is Worth 16x16 Words》，重点关注第 4 章（实验对比）和第 5 章（消融研究），重点理解预训练数据规模与微调性能的关系，以及多注意力头对性能的影响。
**综述扩展：**总结近五年 Swin Transformer、CSWin Transformer、PVT 各改进点相对于原生 ViT 的改进，将分类、检测等下游任务的里程碑版本对照学习。

下节课预告

ViT 已经打开了 Transformer 走出 NLP 的大门，但在语音信号处理方面，Transformer 同样引发了一场革命。下一节课我们将深入音频领域的前沿突破：

【第19课：Wav2Vec 2.0 深度解析——语音识别的 Transformer 革命】

如何通过对比学习在无标签语音数据上预训练

Wav2Vec 2.0 的核心架构——特征提取 CNN+Transformer 联合编码器模式

从无标签语音预训练到下游 ASR 微调的完整训练范式

用 Hugging Face 加载 Wav2Vec 2.0 模型，实现语音识别推理

基于 Transformer 架构的语音自监督学习，正在逐渐引领 LSTM/RNN-T 的后时代拐点。

我们第19课见！

重点概念速查

ViT（Vision Transformer）：纯 Transformer 编码器架构，把图像划分为 Patch 的序列处理。
Patch Embedding：固定大小滑窗划分图像，每个窗口展平后线性映射到高维嵌入空间。
Class Token [CLS]：在 Patch 序列前插入的一个可学习 token，输出最终用于分类。
可学习位置编码：一个可训练的参数矩阵，作用于 Patch 序列的每一个位置，编码空间信息。
DeiT（Data-efficient Image Transformer）：在 ViT 基础上使用蒸馏 Token 和知识蒸馏技术，大幅降低数据需求，可用仅 ImageNet 数据训练。
归纳偏置（Inductive Bias）：CNN 预设平移不变性和局部连接性，处理局部结构的能力更强；ViT 需依赖巨大的训练数据学习模型需要的空间结构信息。

🔗 Transformers模型架构系列课程导航

去专栏阅读

模块1：Transformers入门基础（第1-6课）
模块核心目标：帮助零基础读者快速入门，搭建Transformers的基础认知框架，了解其起源、发展背景及核心应用场景，掌握必备的前置知识，为后续核心原理学习奠定基础，降低入门门槛。
模块2：Transformers核心架构与原理（第7-13课）
模块核心目标：深入拆解Transformers的核心架构（编码器、解码器），掌握每个子模块的工作原理、作用及实现逻辑，理解各模块之间的协同工作机制，突破理论难点，为后续模型解析与实战奠定基础。
模块3：Transformers经典模型解析（第14-20节课）
模块核心目标：逐个拆解Transformers领域的经典模型（BERT、GPT、T5等），分析每个模型的核心改进、预训练任务、适用场景与优缺点，让读者掌握不同模型的差异，能根据实际任务选择合适的模型，兼顾理论深度与应用落地。
模块4：Transformers实战与优化（第21-26课）
模块核心目标：聚焦实战落地，从环境搭建、工具使用到具体任务实操，让读者掌握Transformers模型的训练、微调、部署方法，学习实战中的优化技巧，解决实际项目中的常见问题，确保每节课都有具体的实操案例，让读者“会应用、能落地”。
模块5：Transformers行业应用与前沿拓展（第27-30课）
模块核心目标：结合不同行业的实际应用场景，讲解Transformers的落地案例，让读者了解其行业应用价值；同时覆盖当前Transformers的前沿趋势，帮助读者把握技术发展方向，提升专栏的前沿性与实用性。

🌟 感谢您耐心阅读到这里！
💡 如果本文对您有所启发欢迎：
👍 点赞📌 收藏 📤 分享给更多需要的伙伴。
🗣️ 期待在评论区看到您的想法, 共同进步。
🔔 关注我，持续获取更多干货内容～
🤗 我们下篇文章见～

AtomGit开源社区

AtomGit 是由开放原子开源基金会联合 CSDN 等生态伙伴共同推出的新一代开源与人工智能协作平台。平台坚持“开放、中立、公益”的理念，把代码托管、模型共享、数据集托管、智能体开发体验和算力服务整合在一起，为开发者提供从开发、训练到部署的一站式体验。

更多推荐

AI Agent Harness Engineering 在网络安全攻防中的角色

本文的核心目的是帮读者搞懂三个问题：什么是AI Agent Harness Engineering？它为什么是网络安全攻防场景下AI落地的必备基础设施？我们怎么在自己的安全团队里落地AHE？本文覆盖的范围包括AHE的核心概念、架构设计、核心算法、项目实战、落地场景、最佳实践等全链路内容，不涉及过于晦涩的底层大模型训练细节，所有知识点都可以直接落地到实际安全工作中。

AtomGit开源社区

deepseek生成的很多公式，复制到WORD中会乱码，我应该怎么做?

AtomGit开源社区

物流配送路径规划的动态Agent模型

物流成本占我国GDP的14.6%，其中路径规划不合理导致的浪费占物流总成本的30%以上，每年仅路径规划低效带来的直接损失就超过5万亿元。传统的物流路径规划大多基于静态VRP（车辆路径问题）模型：提前一天算好所有车辆的行驶路线，第二天按计划执行。但现实物流场景中存在大量不可控的动态因素：早晚高峰堵车、用户临时改地址、突发新增订单、骑手临时请假、极端天气导致路段封闭……这些动态事件会让提前规划好的路线