踩坑实录：ResNet18 训练 CIFAR 准确率卡在 80%？显存还总爆炸？

niuyougan

503人浏览 · 2026-05-18 12:20:55

niuyougan · 2026-05-18 12:20:55 发布

最近在学习 ResNet 在 CIFAR 数据集上的图像分类任务时，我遭遇了深度学习初学者最容易踩的两个“大坑”：

显存爆炸（CUDA OOM）：代码刚跑起来，显卡直接报错，提示显存不足。
准确率瓶颈：无论怎么调整学习率、增加训练轮数，模型的准确率始终在 80% 左右徘徊，死活冲不上 90%。

如果你也遇到了同样的问题，那么这篇博客就是为你准备的。今天我们就来深度复盘，看看这背后的“元凶”到底是谁，以及如何一步步将准确率突破到 95% 以上。

一、显存爆炸的元凶：千万别一次性把所有图片塞进 GPU

一开始我的代码跑起来直接报错：CUDA out of memory。很多人第一反应是模型太大或者 Batch Size 太大，但在我的案例中，真正的罪魁祸首是验证集的处理方式。

在最初的代码中，为了图方便，我使用了 torch.stack 将几千张验证集图片一次性堆叠成一个巨大的 Tensor，并直接扔进了 GPU 显存：

# 错误的示范：一次性加载所有验证集数据到显存
validate_inputs = torch.stack(tuple([img.to(device) for (img, _) in val_dataset]), dim=0)

对于只有 6GB 显存的显卡来说，这种“暴力”操作几乎是必炸的。

✅ 解决方案：使用 DataLoader 分批次评估
正确的做法是，为验证集也创建一个 DataLoader，在评估阶段像训练一样，分批次（Batch）读取数据、计算指标，算完一批释放一批。这样显存中永远只存在当前这一小批数据，彻底告别 OOM。

二、准确率卡在 80% 的真相：32×32 与 224×224 的“尺寸鸿沟”

解决了显存问题，模型能跑通了，但新的绝望来了：准确率死活上不去。训练集 Loss 降得很低，但验证集准确率始终卡在 80% 左右。

经过排查，核心问题出在输入图片的尺寸上。

1. 尺寸错配的降维打击

CIFAR-10/2 的原始图片分辨率只有 32×32，而我们调用的官方预训练 ResNet18 模型，是在 ImageNet 数据集上训练的，其标准输入尺寸是 224×224。

为了适配模型在预处理阶段加上 transforms.Resize(224)。

2. 为什么准确率是 80% 而不是随机？

你可能会问，既然尺寸不匹配，为什么不是随机猜测（比如二分类的 50%）？
这是因为 ResNet 网络本身依然具备强大的特征提取能力。即使图片被拉伸模糊，模型依然能捕捉到一些极其宏观的轮廓和色块信息（比如飞机的机翼轮廓、鸟的整体形状），所以它能达到 80% 的 baseline，但也就止步于此了。

三、破局之道：如何突破 90% 甚至 95%？

把 32×32 的小图“强行放大”到 224×224

这一步看似简单粗暴，甚至有点“多此一举”（毕竟把清晰的小图放大后会变模糊），但它是让预训练模型正常工作的绝对前提。我们可以用大白话从以下三个角度来理解：

1. 让模型看到它“熟悉”的世界（对齐预训练标准）

你借来的这个 ResNet18 模型，它之前在 ImageNet 数据集上“上学”的时候，课本里的所有插图（训练图片）都是 224×224 的大图。它的“眼睛”（也就是网络里的卷积核参数）已经完全适应了在这个尺寸下看物体的轮廓、纹理和细节。
如果你直接把 CIFAR 的 32×32 小图喂给它，就像让一个习惯了看高清电视的人，突然去看满屏马赛克的老年机屏幕，它根本认不出画的是什么。所以，我们必须通过 Resize(224) 把图片强行拉大，虽然画质变模糊了，但至少尺寸规格对上了，模型才能正常“开工”。

2. 防止信息在传递过程中“消失殆尽”（避免特征过早被压缩）

ResNet 网络非常深，图片在里面每走几步，就会经过一个叫“池化”的操作，图片尺寸会不断缩小（下采样）。

如果不放大：32×32 的小图刚进网络没走几步，就被压缩成了 2×2 甚至 1×1。这就好比一句话刚说了两个字就被掐断了，后面几十层的网络根本没有任何有效信息可以提取，只能瞎猜。
强行放大后：224×224 的图片有足够的“厚度”，经过层层压缩后，依然能保留下丰富的细节特征，供后面的网络层去分析和判断。

3. 实验证明：尺寸不对，努力白费

很多实验数据都表明，输入图片的尺寸直接决定了识别效果的上限。如果把测试图片的尺寸从模型习惯的 224×224 缩小到 128×128，准确率会直接暴跌好几个百分点。对于原本就只有 32×32 的 CIFAR 图片来说，如果不放大直接使用，模型的识别能力会遭到毁灭性的打击，准确率连 baseline（基准线）都达不到。

所以，在代码里，这个操作是雷打不动的：

train_transform = transforms.Compose([
    transforms.Resize(224),  # 必须保留：强行拉大，对齐模型的“视力标准”
    transforms.ToTensor(),
    # ... 其他操作
])

四、核心代码实战

结合以上所有优化点，以下是优化后的核心代码片段：

from torchvision import transforms, datasets

# 1. 针对 32x32 图片的专属预处理（去掉 Resize(224)！）
train_transform = transforms.Compose([
		transforms.Resize(224),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010)) # CIFAR 专属参数
])

val_transform = transforms.Compose([
		transforms.Resize(224),
    transforms.ToTensor(),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))
])

# 2. 加载数据集
trainset = datasets.CIFAR10(root='./data', train=True, download=True, transform=train_transform)
valset = datasets.CIFAR10(root='./data', train=False, download=True, transform=val_transform)

# 3. 创建 DataLoader（解决显存爆炸问题）
train_loader = torch.utils.data.DataLoader(trainset, batch_size=64, shuffle=True, num_workers=2)
val_loader = torch.utils.data.DataLoader(valset, batch_size=64, shuffle=False, num_workers=2)

# 4. 加载模型（保持原样，PyTorch 的 ResNet 支持自适应输入）
model = torchvision.models.resnet18(weights='IMAGENET1K_V1')
# 修改最后的全连接层适配分类数量
model.fc = nn.Linear(model.fc.in_features, num_classes)